LaCulturaDelDato #216
Dati & algoritmi attraverso i nostri 5 sensi
For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il duecentosedicesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i quattro spunti del duecentosedicesimo numero:
👃Investimenti in ambito dati e algoritmi. La “missione” di Giuseppe Gullo: costruire con l’AI per rendere le persone più utili, non superflue!
Presentati : Giuseppe Gullo. Sviluppatore e builder per natura. Ho scritto la mia prima riga di codice a 13 anni, da un letto d’ospedale dove un incidente domestico mi aveva costretto per mesi, e da lì non mi sono più fermato. Nel 2009 sono stato tra i primi sviluppatori di app in Italia, lanciando prodotti che mi hanno permesso di vivere della mia passione. Nel 2015 ho fondato la mia prima startup, costruendo un sistema di AI per l’adaptive training in ambito fitness. L’anno dopo ho iniziato a sviluppare per Amazon Alexa il porting del mio algoritmo fitness che è diventato rapidamente la skill di riferimento del settore sul mercato USA. A fine 2017 ho iniziato a creare contenuti formativi sull’intelligenza artificiale con il brand ProfessionAI, che negli anni si è evoluta in una delle principali realtà italiane di formazione in ambito Data & AI.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10) … Continuerò a fare quello che ho fatto negli ultimi 10 anni: trovare utilizzi dell’AI per ottimizzare il potenziale umano, e non per sostituirlo. Sono un fervido sostenitore del concetto di Augmented Intelligence, un modello in cui la tecnologia non bypassa l’essere umano ma ne potenzia il giudizio, la creatività e la capacità decisionale. Non credo in un futuro in cui l’AI fa ogni lavoro al posto nostro, credo in uno in cui ci permette di fare lavori che prima non eravamo in grado di affrontare, di vedere pattern che ci sfuggivano, di prendere decisioni migliori con meno incertezza. Ogni prodotto che ho costruito, dalla salute all’education, nasce da questa convinzione: l’AI migliore è quella che rende le persone più utili, non più superflue.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
L’AI sta alzando la produttività minima richiesta per creare valore, e questo impatterà soprattutto le figure junior, ragazzi e ragazze appena usciti dall’università che oggi faticano a inserirsi senza esperienza pratica. Il rischio a lungo termine è serio: da dove verranno i senior di domani, se le aziende smettono di far fare esperienza agli junior? La sfida non è solo tecnologica, è formativa, servono percorsi che simulino contesti lavorativi reali, così che gli junior arrivino in azienda con un bagaglio di esperienza concreta già spendibile. È la direzione che abbiamo preso da 4 anni in ProfessionAI.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Non riesco a scegliere una sola risorsa perché il mio metodo è proprio quello di incrociarne diverse ebook, blog, paper, YouTube e ascoltare spiegazioni differenti da professionisti con background diversi per cogliere sfumature che magari mi erano sfuggite. Se dovessi sceglierne due, direi arXiv e Connected Papers, perché insieme coprono le due fasi del mio processo: arXiv mi porta alla fonte grezza, Connected Papers mi aiuta a capire da dove viene e dove sta andando, mostrandomi la rete di studi collegati. È il modo più rapido che conosco per costruirmi una mappa mentale su un tema nuovo. Se parliamo di YouTube, due canali a cui non potrei rinunciare sono 3Blue1Brown (scelta banale lo so) e StatQuest, che è stata l’unica risorsa a farmi davvero capire il ruolo dei kernel nelle SVM.
🖐️👀 Tecnologia & Data Science Fei-Fei Li, Mira Murati e la parte di mondo che ancora manca all’AI
I due approfondimenti che ti consiglio oggi hanno connessioni molto strette con due donne che hanno contribuito molto all’evoluzione dell’AI in questi ultimi anni. Oggi guidano due realtà ancora poco conosciute rispetto ai big player dell’AI del presente, ma che potrebbero avere un impatto significativo sulla sua evoluzione nei prossimi anni.
Fei-Fei Li è una delle persone che hanno inciso di più sull’intelligenza artificiale moderna. Spesso la si cita meno di quanto meriterebbe, ma il suo contributo è stato davvero strutturale. A Stanford ha guidato per anni ricerca di frontiera sulla visione artificiale e, soprattutto, ha ideato ImageNet, il grande progetto di dati che ha contribuito in modo decisivo alla svolta del deep learning. Senza quel passaggio, probabilmente, la corsa dell’AI avrebbe avuto tempi molto diversi.
Oggi Fei-Fei Li è anche alla guida di World Labs, una società nata con un obiettivo molto chiaro: lavorare su quella che lei chiama intelligenza spaziale. Ed è proprio questo il punto interessante del suo recente saggio, il primo approfondimento che ti consiglio oggi: i modelli che usiamo sono diventati molto bravi con le parole, ma questo non vuol dire che capiscano davvero il mondo. Capire il mondo, per un essere umano, non vuol dire solo descriverlo. Vuol dire orientarsi in uno spazio, valutare distanze, immaginare la rotazione di un oggetto, intuire se una scena è fisicamente plausibile, prevedere come ci si può muovere dentro un ambiente. È una forma di intelligenza che usiamo continuamente, spesso senza rendercene conto. E secondo Fei-Fei Li è proprio qui che i sistemi attuali mostrano ancora un limite forte: parlano molto bene del mondo, ma non lo rappresentano ancora abbastanza bene. La scommessa di World Labs è quindi ambiziosa ma molto concreta: costruire sistemi capaci di generare e comprendere ambienti tridimensionali coerenti, esplorabili e stabili. Non solo immagini o video convincenti, ma rappresentazioni del mondo più vicine a come il mondo funziona davvero. Se questa direzione dovesse maturare, le conseguenze sarebbero enormi in robotica, simulazione, progettazione, videogiochi e persino nella ricerca scientifica.
Accanto a questa visione, secondo me, ha senso mettere il lavoro di un’altra figura molto importante di questa fase dell’AI: Mira Murati.
Il secondo approfondimento che ti consiglio è firmato da Horace He, ingegnere e ricercatore specializzato in sistemi di machine learning e infrastruttura, con un contributo importante allo sviluppo di PyTorch, e oggi nel team di Thinking Machines Lab, il laboratorio guidato da Mira Murati. Affronta un tema molto meno intuitivo, ma tutt’altro che secondario: il non determinismo nell’inferenza dei modelli linguistici. Detto in modo semplice: fai la stessa domanda allo stesso modello, con le stesse impostazioni, e ti aspetti la stessa risposta. Invece non succede sempre. A volte la risposta cambia anche quando la componente casuale è stata quasi azzerata. Il punto spiegato nell’articolo è che il problema non dipende solo da dettagli matematici astratti, ma anche dal modo in cui le richieste vengono elaborate sui server. Se il carico cambia, o se la tua richiesta viene raggruppata insieme ad altre in modo diverso, minuscole differenze numeriche possono cambiare il token successivo. E da lì la risposta può prendere una strada diversa. Perché è importante? Perché senza ripetibilità non c’è vera affidabilità. E questo conta ancora di più se vuoi costruire sistemi che non si limitano a chiacchierare, ma devono agire, guidare processi, assistere persone o, un domani, muoversi nel mondo fisico.
Da questo punto di vista, Fei-Fei Li e Mira Murati stanno lavorando su due pezzi molto diversi ma profondamente collegati dello stesso problema. La prima prova a portare l’AI più vicino al mondo reale. Thinking Machines Lab lavora perché quel comportamento sia più stabile, controllabile e verificabile.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Dati, link e interpretazione restano lavoro umano
Nel numero 94 ti avevo consigliato una piccola cassetta degli attrezzi per non farti travolgere da notizie, studi e grafici: le cinque domande di Donata Columbro sui dati, la serie di Peter Attia su come leggere gli studi, il promemoria di Jim Frost sulla differenza tra correlazione e causalità e la guida ai sondaggi di Stefanie Stantcheva. Non a caso, erano stati i link più cliccati di quella edizione della newsletter. Rileggendo oggi quel pezzo, mi sembra uno di quelli che non solo non sono invecchiati, ma che hanno acquistato valore.
Il motivo è semplice: nel frattempo non è aumentata solo la quantità di informazioni che ci passa davanti. È aumentata anche la quantità di testo plausibile, ben scritto e immediatamente disponibile che può essere prodotto, riassunto o rilanciato da sistemi di AI generativa. Questo non rende inutile il fact checking. Lo rende più importante. Perché oggi, ancora più di tre anni fa, non devi solo chiederti se una notizia è corretta: devi anche chiederti se i dati sono stati letti bene, se qualcuno ha confuso un’associazione con una spiegazione e se i link portano davvero alla fonte giusta.
Le cinque domande di Donata Columbro, in questo senso, restano una bussola eccellente: da dove arrivano i dati, con quale metodo sono stati raccolti, che cosa si sta contando davvero, che cosa aggiungono i metadati e soprattutto che cosa quei dati non dicono. Mi sembra utile aggiungerne una sesta, figlia di questi mesi: chi si è preso la responsabilità finale di controllare fatti, link e interpretazione? Se la risposta è “nessuno, ha fatto tutto la macchina”, io un passo indietro lo farei.
Anche sul fronte degli studi scientifici la situazione non è cambiata, si è solo fatta più affollata. Il punto non è leggere tutto, ma capire che cosa stai leggendo. Uno studio osservazionale non pesa come un esperimento controllato; un campione raccolto male non diventa affidabile solo perché è finito in un grafico elegante; una correlazione interessante non è ancora una relazione causale. E quando i dati arrivano da un sondaggio, il modo in cui poni la domanda spesso conta quasi quanto la risposta che ricevi.
Se dovessi aggiornare oggi quel vecchio pezzo, terrei fermo il nucleo e cambierei solo qualche riferimento. Donata Columbro continua a lavorare molto bene sul rapporto tra dati, contesto e racconto pubblico. Nel frattempo ha pubblicato due libri che vale la pena aggiungere alla tua libreria: Quando i dati discriminano. Bias e pregiudizi in grafici, statistiche e algoritmi (Il Margine, 2024) e Perché contare i femminicidi è un atto politico (Feltrinelli, 2025). Quest’ultimo, in particolare, è un caso di studio molto concreto su quanto la scelta di cosa contare e chi includere sia tutt’altro che neutra: un esercizio utile anche se lavori in azienda e non ti occupi di temi sociali.
L’AI generativa non sostituisce nessuno di questi passaggi che suggerisce Donata Columbro, anzi li rende più necessari. Restano soprattutto due lavori molto umani: il controllo dei link e dei fatti, perché capita ancora che una fonte citata dica qualcosa di diverso da ciò che sembra; e l’interpretazione, perché anche quando i fatti sono corretti il significato che assumono dentro una decisione dipende dal contesto, dagli incentivi e dai trade-off in gioco. L’interpretazione, insomma, resta una forma di responsabilità. E non credo sia saggio delegarla del tutto.
👅Etica & regolamentazione & impatto sulla società. Il vero problema degli open data non è la tecnologia: è tenerli vivi e utili
C’è un modo molto semplice per capire se gli open data sono solo una bella promessa oppure una infrastruttura che produce valore: guardare cosa succede quando qualcuno li usa davvero. È questo il merito principale (grazie a Andrea Nelson Mauro per la segnalazione) di The Use Case Observatory – Volume III, il rapporto pubblicato su data.europa.eu che chiude un osservatorio triennale della Commissione Europea dedicato a 13 iniziative costruite su open data. Non sono casi teorici, ma prodotti e servizi reali, con utenti reali, problemi reali di funding, manutenzione e sostenibilità. È anche il punto che era già emerso qualche numero fa parlando del potenziale degli open data europei come materia prima per creare utilità concreta: il loro valore non nasce quando un dataset viene pubblicato, ma quando qualcuno riesce a trasformarlo in un servizio, in una decisione migliore, in un pezzo di infrastruttura civile o in uno strumento che rende visibile un problema prima invisibile.
I 13 casi dell’osservatorio li ho guardati tutti, uno per uno, non fermandomi al report ma passando anche dai siti live. La valutazione è stata molto pratica: manutenzione attuale, funzionalità nel presente, qualità di UI e UX, presenza di una versione inglese decente e larghezza d’uso, cioè capacità di uscire dalla nicchia del “bel progetto” per diventare qualcosa di davvero utile.
Tra i 13 casi, quelli che convincono di più sono tre.
🥇Open Food Facts (Francia) è il progetto più impressionante in assoluto. Oggi raccoglie oltre 3 milioni di prodotti alimentari, è citato in più di 600 pubblicazioni scientifiche e alimenta centinaia di applicazioni e servizi che riusano i suoi dati. È vicino all’idea di una Wikipedia del cibo: aperto, multilingue, costruito da una comunità internazionale. Sul suo database si appoggiano strumenti come il Nutri-Score e, più di recente, il Green Score. Più che un bel progetto open data, è uno dei pochi casi in cui un’infrastruttura aperta arriva davvero fino all’uso concreto da parte di persone, ricercatori e sviluppatori.
🥈 Integreat (Germania) è forse il caso più forte di civic tech scalata bene. Aiuta migranti e rifugiati a orientarsi nei servizi municipali, in più lingue e anche offline. Nato come progetto volontario ad Augsburg nel 2015, oggi è adottato da 137 comuni tedeschi, ha milioni di accessi annui, una parte rilevante dei quali non in tedesco, ed è cresciuto con un modello sostenibile basato su contratti con i comuni. Anche qui il punto non è solo la bontà dell’idea: è la capacità di trasformare open data, contenuti strutturati e software open source in un servizio pubblico digitale che regge nel tempo.
🥉 Digital Forest Dryads (Romania) è probabilmente il progetto più potente dal punto di vista simbolico. Usa immagini satellitari multispettrali di Copernicus per rilevare deforestazione illegale in Europa e mostra bene come open data ambientali e algoritmi possano diventare uno strumento di controllo civico. La mappa interattiva distingue tra abbattimenti legali e illegali ed è stata citata anche per il contributo al contrasto del traffico di legname. Il limite, però, è importante: i dati restano fermi al periodo 2017–2019 per mancanza di fondi. Il progetto è ancora vivo ma sostanzialmente congelato. Proprio per questo è un ottimo caso da segnalare: mostra insieme il potenziale enorme degli open data e la loro fragilità quando manca continuità economica.
Anche gli altri casi confermano molto bene la stessa regola. Naar Jobs, Waar is mijn stemlokaal?, Statsregnskapet.no, UniversiDATA-Lab, VisImE-360, Tangible Data, EU Twinnings, Air Quality in Cyprus, Planttes ed Environ-Mate raccontano tutti, in modo diverso, che gli open data funzionano davvero quando vengono tradotti in interfacce serie, manutenzione costante, casi d’uso comprensibili e comunità abbastanza ampie da sostenerli nel tempo.
La lezione trasversale di questo osservatorio, alla fine è che i dati aperti creano valore quando qualcuno si prende la responsabilità di mantenerli vivi nel tempo. Il problema non è quasi mai la tecnologia. Il problema è il modello di sostenibilità. Ed è proprio su quel terreno che l’Europa, nonostante gli enormi progressi fatti, ha ancora parecchio lavoro da fare.
📅 Nel Mio Calendario (passato, presente e futuro)
Martedì scorso mi sono alzato molto presto e anziché andare a correre, come faccio a volte, ho fatto una chiacchierata con Stefano Maestri, amico di lunga data con cui ho condiviso momenti professionali importanti. Abbiamo parlato di AI ibrida, di carriere a parabola e di perché l'AI non livella (quasi) nulla. Mi sono divertito molto. Se sei curioso puoi trovarla su Youtube qui o su Spotify qui.
Mercoledì 22 Aprile ho partecipato alla giornata di chiusura dell'edizione 2026 dell'Osservatorio AI4Innovation, di cui sono advisor, organizzato dal Polimi graduate school of management. Qui trovate la documentazione e la registrazione dell’evento finale
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!






Anche io mi sono divertito ed è stata una conversazione stimolate e capace di andare in fondo alle cose come sai fare benissimo tu.