LaCulturaDelDato #219
Dati & algoritmi attraverso i nostri 5 sensi
For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il duecentodiciannovesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i quattro spunti del duecentodiciannovesimo numero:
👃Investimenti in ambito dati e algoritmi. Scalare non è (solo) delegare.
In un pezzo del 2015 che a rileggerlo nel 2026 fa ancora più effetto, Jason Cohen, fondatore di WP Engine, una delle voci più fuori dal coro quanto si parla di evoluzione di startup, smonta un mito che ho visto tante volte in iniziative negli stadi iniziali di sviluppo aziendale in Europa: l’idea che “scalare” significhi imparare a delegare, spesso trovando il proprio clone, spesso finendo a trovarne una copia sbiadita.
Il pattern, scrive Cohen, è quasi sempre lo stesso. Prima lo faccio io. Poi lo capisco. Poi assumo qualcuno e gli spiego come si fa, cioè, come lo faccio io. Sembra ragionevole. È sbagliato. Perché il risultato è un team che non è materialmente migliore del fondatore in nulla. L’azienda diventa brava in una o due cose, quelle del founder, e fragile su tutto il resto. Se il founder si ammala, salta una scadenza. Se se ne va, salta la strategia.
Il salto vero, dice Cohen, non è la delega: è il team-building, che a tutti gli effetti è una forma di investimento. Investi capitale, tempo ed equity per portare in azienda persone più brave di te in ogni posizione, e poi costruisci team che a loro volta sappiano farlo. Non è “io possiedo il problema, tu fai il lavoro”. È “tu possiedi il problema, decidi tu dove allargare il collo di bottiglia, anche oltre quello che io stesso saprei fare”. La citazione di Jobs che mette al centro è perfetta: “Non ha senso assumere persone intelligenti per dirgli cosa fare. Le assumiamo perché siano loro a dirlo a noi.”.
Immagine realizzata con ChatGPT Images 2.0
Il punto duro arriva alla fine: la regola vale anche dove tu sei eccellente. Anche lì, il tuo lavoro non è eseguire, è trovare qualcuno più bravo. Senza questo passaggio l’azienda resta fragile, e tu resti il tappo.
C’è però un secondo investimento che il 2026 sta imponendo a chiunque costruisca un’azienda, anche oltre il mondo startup, e che non sempre nei piani compare: l’investimento in come la tua azienda viene raccontata, non da te, ma dalle AI generative.
Ben Lorica, in una bella analisi recente su Gradient Flow, mostra come ChatGPT, Perplexity e Google AI Overview siano ormai i sistemi che descrivono la tua azienda ai potenziali clienti. È nato un nuovo campo, su cui non esiste un nome condiviso ma che molti chiamano Generative Engine Optimization (GEO) e che sta riscrivendo la vecchia SEO: non ottimizzi più per il ranking dei link, ma per come l’AI sintetizza, cita e (spesso) deforma il tuo brand. Lorica chiama Dark Revenue Loss il fatturato perso dentro conversazioni AI che non vedrai mai nei tuoi analytics.
Lo stesso principio di Cohen, allora, ora vale due volte. Investi nelle persone perché diventino più brave di te a eseguire. E investi nei tuoi contenuti, articoli, dati strutturati, presenza nei luoghi che i modelli leggono, perché siano (anche) loro, oggi, a raccontare la tua azienda meglio di quanto sapresti fare da solo. Delle persone scegli volti e competenze. Delle AI, per ora, scegli (e crei) i contenuti che ti raccontano meglio.
🖐️👀 Tecnologia & Data Science Provare l’AI agentica nella data analysis, senza aspettare il futuro
Negli ultimi mesi si parla molto di AI agentica, spesso in modo un po’ astratto. Agenti che lavorano al posto nostro, flussi automatici, assistenti capaci di usare strumenti e completare compiti complessi. Per capire cosa c’è di concreto, però, conviene fare una cosa semplice: prendere un dataset, aprire un ambiente di sviluppo e provare.
Un buon modo per farlo è il corso “Coding agents for data analysis” di Simon Willison, disponibile online. Se non lo conosci, Simon Willison è uno dei co-creatori di Django, il framework Python da cui è passata mezza Internet, e ha creato Datasette, uno strumento leggero per esplorare e pubblicare dati. Sul suo blog scrive quasi ogni giorno di modelli linguistici e agenti, in modo molto operativo: prova, smonta, racconta cosa funziona e cosa no, senza vendere nulla. È un nerd nel senso buono, e pochi al mondo riescono a tenerti aggiornato come lui. Il corso è pensato per giornalisti dei dati, ma in realtà parla a chiunque lavori con CSV, database, scraping, query, visualizzazioni e domande ancora da chiarire. Gli strumenti sono GitHub Codespaces, Codex o Claude Code, sqlite-utils, Datasette, Python e JavaScript. In pratica si chiede a un coding agent di caricare dati, creare un database SQLite, esplorare le tabelle, scrivere query, generare grafici, correggere errori e spiegare cosa ha fatto. L’ho provato anch’io usando Codex. La parte più istruttiva non è stata solo vedere l’agente scrivere codice o produrre una visualizzazione. È stata gestire l’integrazione tra strumenti diversi: GitHub, Codespaces, autorizzazioni del workspace, autenticazione di Codex, porte da aprire, terminale remoto, URL che funzionano dentro il container ma non dal browser locale. Sono piccoli ostacoli tecnici, ma messi insieme fanno attrito. Anche qui l’AI aiuta: può spiegare perché localhost non è quello giusto, suggerire il comando per riavviare Datasette, controllare se un endpoint risponde, correggere una query SQL che restituisce errore 400. I dataset di esempio sono semplici e ben scelti: gli alberi delle strade di San Francisco e i finanziamenti elettorali della FEC americana.
Il corso mostra bene cosa si può fare oggi con l’AI agentica nella data analysis. Si può accelerare l’esplorazione, passare da un file grezzo a un database interrogabile, costruire una prima visualizzazione, imparare comandi nuovi mentre li si usa. Però non bisogna confondere questo con la competenza di dominio. Le visualizzazioni che ottieni sono curate e fanno colpo, ma voglio essere onesto: non sono diventato un esperto di San Francisco. L’analisi dei dati seria continua a essere un mestiere fatto di conoscenza del dominio e di capacità di farsi le domande giuste, e quello lo metti tu. Dove l’agente cambia davvero le cose è altrove: rende molto più economico provare, accorgersi che la domanda era sbagliata, riformularla. In altre parole, accelera la fase in cui costruisci la tua conoscenza di dominio facendo cose con i dati. Questo è il valore pratico: meno distanza tra curiosità, esperimento e risultato. Ma il giudizio resta umano.
Per chi vuole continuare in modalità più nerd, questo articolo di Tryolabs sulle librerie Python più interessanti del 2025 è una buona estensione pratica: mostra quanto l’ecosistema Python stia evolvendo non solo sugli LLM, ma anche su data processing, tooling, performance e developer experience. È il passo successivo naturale dopo il corso di Willison: meno teoria sugli agenti, più strumenti concreti da provare, magari con gli agenti!
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Antonio Specchia, dal CRM al cuore dell’hiring
back to 97
Nel numero 97 della newsletter avevo intervistato Antonio Specchia, architetto del CRM con un’idea molto forte: l’azienda dovrebbe disegnare il proprio progetto CRM prima di scegliere il tool, non dopo. Una posizione che, in piena era di AI generativa, è diventata ancora più rilevante: la tecnologia non è più il problema, lo è la capacità di definire processi e dati di qualità. Uno dei consigli operativi che Antonio ci aveva lasciato, che era stato l’approfondimento più cliccato di quella puntata, Insycle per la pulizia e la deduplica continua dei dati nel CRM, è invecchiato bene. Il ciclo di vita dei dati e la loro obsolescenza sono oggi un tema ancora più urgente, perché qualsiasi modello generativo che si nutre di dati sporchi produce decisioni sporche.
Nel frattempo Antonio ha fatto quello che fanno gli innovatori veri: ha cambiato terreno, portandosi dietro il metodo. Si è lanciato in una nuova iniziativa per usare l’AI in modo intelligente nella selezione delle persone, mantenendo la centralità dell’uomo. Il framework che ha sviluppato si chiama ARM (Applicant Relationship Management) e nasce da una correzione strutturale: gli ATS (Applicant Tracking System), i sistemi più largamente utilizzati per gestire il processo di selezione oggi, trattano i candidati come entità da filtrare ed eliminare il prima possibile; ARM li considera invece stakeholder, partendo da una constatazione economica: il lavoro è offerta, non domanda e da una scelta di valore: le relazioni contano. Il framework poggia su tre principi: cultivation (avere relazioni continuative invece di scartare), compensatory (pesare invece di bocciare su una singola carenza), co-creation (dialogare invece di sfruttare l’asimmetria di potere). Sono 4 i papers pubblicati e presentati in conferenze internazionali che analizzano diverse prospettive del framework open source ARM in ambito manageriale. Intanto Antonio sta preparando un libro per Routledge sul ARM come elemento della Agentic-AI economy: “Applicant Relationship Management (ARM): Human-Ai Collaboration in the Agentic Economy”. I vantaggi sono bilaterali. Le aziende trattengono nel processo talenti che gli ATS avrebbero scartato, coltivando una forte brand recognition così che le persone restino nell’orbita dell’azienda più a lungo, le decisioni si attuano con una maggiore disponibilità di talenti, si elimina la gara tra algoritmi. I candidati ricevono feedback, voce e dignità e tornano disponibili anche per ruoli futuri. ARM non è un prodotto, è un framework aperto. Il prodotto che lo mette a terra si chiama Noesis Hiring: AI-empowered realizzato sulla base del concetto Human-Orchestrator, più potente del semplice human-in-the-loop, nativamente progettato per l’ EU AI Act e GDPR compliant. In soli due mesi dal rilascio Noesis Hiring ha già acquisito importanti clienti in Europa e USA.
Chiudo con una verità che l’esperienza mi ha insegnato e che oggi, in piena onda generativa, rischia di passare in secondo piano: scegliere persone resta un mestiere fatto da persone. Diversi colleghi di lungo corso nei miei team sono arrivati al secondo o terzo tentativo: candidati che non avevo assunto in una prima selezione e che, grazie a un feedback puntuale e a una relazione mantenuta nel tempo, sono diventati assunzioni successive. ARM, in fondo, è la formalizzazione di quella intuizione: l’AI accelera il processo, ma il giudizio e la community che ne nasce restano profondamente umani.
👅Etica & regolamentazione & impatto sulla società. Gli Oscar dei data breach: EFF premia i disastri 2025 (e ti dice come difenderti)
La sicurezza informatica non è più un capitolo da delegare, in azienda, solo al reparto IT, ma una questione strategica e culturale: Secondo ITRC, nei primi tre trimestri del 2025 erano già state tracciate 2.563 compromissioni di dati e la domanda corretta non è più “i miei dati sono finiti in qualche violazione?” ma “in quante?”. È in questo scenario che ogni dicembre l’Electronic Frontier Foundation pubblica i suoi “Breachies”. EFF è una delle più storiche e autorevoli organizzazioni no-profit che difende diritti digitali, libertà civili e privacy online: nasce nel 1990 a San Francisco da Mitch Kapor (creatore di Lotus 1-2-3), John Perry Barlow (paroliere dei Grateful Dead e autore della famosa “Dichiarazione di Indipendenza del Cyberspazio”) e John Gilmore (cypherpunk, primi anni di Sun Microsystems). Da allora è punto di riferimento globale per chi prende sul serio la dimensione etica della tecnologia. L’idea dei Breachies è semplice: una sequenza di “premi” satirici per catalogare le violazioni più gravi dell’anno, trasformando materia tecnica e respingente in un format accattivante: divertimento informativa allo stato puro.
Tra i vincitori 2025 ne ho scelti cinque che parlano direttamente al nostro mondo. Mixpanel si è aggiudicato il “Say Something Without Saying Anything”: la breach di novembre ha colpito una società di analytics invisibile alla maggior parte degli utenti finali. OpenAI, coinvolta tramite dati analytics limitati, ha terminato l’uso di Mixpanel. Il caso PornHub è ancora più sensibile perché riguarda dati storici di analytics, anche se la ricostruzione del legame con la breach di novembre è contestata. Discord ha vinto “We Still Told You So” per una breach di settembre legata a un fornitore di customer support: non una compromissione diretta dei sistemi Discord, ma un accesso non autorizzato a dati di utenti che avevano interagito con supporto o Trust & Safety. Tra le informazioni potenzialmente esposte: nomi, username, email, IP, messaggi con il supporto, informazioni di pagamento limitate e, per circa 70.000 utenti, immagini di documenti d’identità usate nelle procedure di verifica dell’età. Il tema politico resta fortissimo: più le leggi spingono piattaforme e fornitori a raccogliere ID e selfie “per sicurezza”, più creano archivi sensibili che prima o poi diventano bersagli. TransUnion si è preso il “Worst Customer Service Ever”: 4,4 milioni di profili creditizi (nomi, date di nascita, codici fiscali) usciti da un’app di supporto di terze parti.
L’annuale “Microsoft Screwed Up Again” ricorda lo zero-day di SharePoint sfruttato da gruppi cinesi, con oltre 400 organizzazioni colpite, inclusa l’agenzia americana che custodisce le armi nucleari. Infine Gravy Analytics, premiata con “I Didn’t Even Know You Had My Information”: un broker che raccoglieva la storia di geolocalizzazione di un miliardo di telefoni al giorno via SDK pubblicitari, dati poi rivenduti a brokers e governi e capaci di rivelare militari e categorie a rischio in zone sensibili.
Il consiglio di EFF è uno solo: data minimization. Le aziende raccolgono molto più del necessario, lo conservano troppo a lungo, e prima o poi qualcuno passa a riscuotere. I consigli operativi del pezzo sono concreti: password uniche per ogni servizio (con un password manager), autenticazione multi-fattore ovunque, controllo periodico su Have I Been Pwned e se progetti prodotti domandarti per ogni campo raccolto se vale davvero il rischio.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!


