LaCulturaDelDato #210
Dati & algoritmi attraverso i nostri 5 sensi
For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il duecentodecimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del duecentodecimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Interpretabilità e adozione: le due sfide dell’AI (raccontate da un founder che l’ha portata in azienda)
Presentati: Emanuele Fabbiani. Sono un ingegnere, ricercatore e imprenditore appassionato di intelligenza artificiale. Ho conseguito il dottorato tra l’Università di Pavia e l’EPFL, occupandomi di previsione di serie temporali, e ho pubblicato 9 articoli scientifici con oltre 160 citazioni. All’inizio del dottorato ho fondato xtream, dove sono stato CEO e Head of AI. Xtream sviluppava prodotti digitali e soluzioni di AI per scaleup e grandi aziende. Il team AI, cresciuto fino a 9 persone (di cui 3 PhD e 2 professori universitari), ha realizzato sistemi di AI per le principali aziende italiane, tra cui Plenitude (previsione della domanda di energia), Lavazza (previsione delle vendite di caffè), WeRoad (pianificazione viaggi). Nel 2024 ho co-fondato Reaidy, un prodotto di copywriting basato su AI generativa. Nel 2025, Reaidy e xtream sono state acquisite da TeamSystem. Oggi lavoro nel gruppo TeamSystem e sono professore di intelligenza artificiale all’Università Cattolica di Milano. Negli ultimi tre anni ho parlato a oltre 50 conferenze tech internazionali, tra cui AMLD Lausanne, ODSC London, WeAreDevelopers Berlin, PyData Berlin and Paris, PyCon Italy.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10) … Founder in un’azienda molto diversa da quelle che conosciamo oggi. Dieci anni sono un orizzonte troppo lungo per costruire previsioni accurate, ma una trend è ormai evidente: usare in modo efficace gli strumenti di AI generativa offre un vantaggio enorme in tutti i lavori intellettuali. È quindi plausibile immaginare che le aziende del futuro saranno più snelle, con persone impegnate soprattutto a coordinare e indirizzare il lavoro di agenti AI. Alcuni aspetti, però, resteranno invariati. Per costruire un’azienda servirà sempre la capacità di costruire un prodotto o un servizio capace di intercettare l’interesse del mercato. Per riuscirci saranno indispensabili la competenza di dominio e una profonda comprensione dei clienti. L’AI potrà essere di grande aiuto anche in questo, ma la direzione e le decisioni chiave resteranno, con ogni probabilità, nelle mani delle persone.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
Proporrei due temi: AI Adoption e AI Interpretability.
L’AI Interpretability è una sfida scientifica e ingegneristica. Capire come funzionano i modelli multimodali è essenziale per superarne i limiti attuali, ma anche per affrontare le implicazioni giuridiche ed etiche. Oggi è difficile regolamentare tecnologie che nessuno comprende a fondo: senza comprensione, non può esserci un controllo affidabile. Questa, a proposito, è una risorsa imperdibile!
L’AI Adoption riguarda invece tutti. L’AI generativa ha un potenziale enorme, ancora poco sfruttato da aziende, pubbliche amministrazioni e sistema educativo. Come sottolinea Ethan Mollick, anche senza ulteriori progressi tecnologici servirebbero almeno 10 anni per esprimere appieno questo potenziale. Eppure, solo l’8% dei lavoratori ha ricevuto formazione in GenAI (McKinsey). Adottare l’AI in modo efficace non è come chiedere a ChatGPT una ricetta di cucina. Con xtream abbiamo iniziato a offrire percorsi di adozione su misura, ottenendo grande interesse e ottimi risultati. Auspico che sempre più realtà decidano di intraprendere questa strada.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
arXiv. La possibilità di accedere gratuitamente ai paper dei principali laboratori di ricerca ha un valore inestimabile. Se avessi dovuto pagare per ogni articolo, avrei studiato molto meno di quanto ho fatto. Alcuni progetti e successi di xtream non sarebbero stati possibili. La conoscenza scientifica, soprattutto quella prodotta nelle università pubbliche, finanziate con le tasse dei contribuenti, dovrebbe essere accessibile a tutti. Questo vale non solo per i paper, ma anche per il codice e per tutti gli altri asset necessari a riprodurre esperimenti e risultati. Su questo fronte, i due Politecnici Federali Svizzeri, ETH ed EPFL, hanno adottato pratiche particolarmente avanzate: incentivano il rilascio di codice open source, sostengono economicamente la pubblicazione open access anche su riviste tradizionali e incoraggiano i ricercatori a caricare su arXiv versioni preliminari (o più estese) degli articoli pubblicati su riviste o presentati a conferenze.
👀 Data Science. Back to: La sindrome del Chihuahua
Back to 88
«Non c’è modo peggiore per rovinare i dati che lasciare che una sola persona li digiti senza alcuna convalida. Ho acquisito un database completo sulle licenze per cani. Invece di richiedere alle persone che registravano il proprio cane di scegliere una razza da un elenco, il sistema forniva ai proprietari un campo di testo in cui digitare, quindi questo database conteneva 250 ortografie diverse di Chihuahua. Anche gli strumenti migliori non possono salvare dati disordinati. Diffidate dei dati inseriti dall’uomo.» - Chris Groskopf, citato da Edward Tufte Seeing with Fresh Eyes
Questa era una citazione tratta dall’approfondimento più cliccato della puntata 88 di questa newsletter. Non a caso era stata uno degli spunti più “amati”: perché chi lavora coi dati ci si riconosce al volo. E non mi sorprende: la Sindrome del Chihuahua è una di quelle metafore che, una volta sentita, non si dimenticano più 🙂. Lì veniva citata proprio come esempio perfetto di dati non normalizzati, raccontata bene da Sketchplanations e legata al nome di Edward Tufte.
Ti ho segnalato altre volte Edward Tufte e, proprio perché ci ha fornito diversi spunti, è giunto il momento di conoscere qualcosa in più di lui. E di fornirti qualche altro possibile approfondimento su quello che ha scritto e detto per noi data-lovers.
Edward Tufte, classe 1942, è stato Professore Emerito di Statistica, Scienze Politiche e Informatica a Yale. Il New York Times lo ha definito “il Leonardo da Vinci dei dati”, Bloomberg “il Galileo della grafica”. Non sono titoli a caso: Tufte ha contribuito alla moderna arte di visualizzare i dati per capirli meglio.
Ha coniato concetti come il data-ink ratio (quanto “inchiostro” del grafico serve davvero a mostrare dati, e quanto è solo rumore), il chartjunk (tutti quegli elemnti nel grafico che non sono necessari per comprenderlo) e le sparkline quei micrografi grandi come una parola che oggi trovi ovunque, da Excel ai cruscotti aziendali.
Ha scritto cinque libri che si è autopubblicato, ipotecando la casa per il primo. E ha tenuto un corso dal vivo, “Presenting Data and Information”, che in 26 anni ha formato decine di migliaia di persone. Il suo principio guida era decisamente semplice: una rappresentazione dei dati deve essere così chiara da stare sul portellone di un furgone, il cosiddetto principio Feynman-Tufte. Ma Tufte non era solo un esteta dei grafici. Era ossessionato dalla qualità dei dati a monte. Il suo esempio più celebre: l’analisi del disastro dello Space Shuttle Challenger nel 1986, dove dimostrò che una visualizzazione migliore dei dati sulle guarnizioni O-ring avrebbe potuto salvare sette vite umane. I dati c’erano. Il modo di mostrarli no.
👃Investimenti in ambito dati e algoritmi. Start-up of the month: Fundamental
Per commentare i dati di febbraio 2026 nel Venture Capital dobbiamo cominciare a separare i grandi round delle big tech dell’AI, perché stanno rappresentando, dal punto di vista della serie storica dei dati (e anche dell’economia), una discontinuità storica importante. Questo mese infatti, come puoi leggere dal puntuale post mensile di Crunchbase, OpenAI (110 miliardi), Anthropic (30 miliardi) e Waymo (16 miliardi) si sono presi l’83% del totale investito accentuando le concentrazioni di cui ti parlavo qualche mese fa. Anche neutralizzando i 156 miliardi dei primi tre investimenti per grandezza, i rimanenti 33 miliardi rappresentano un raddoppio degli investimenti rispetto a febbraio 2025. Lo stesso trend emerge anche dal mio database, su cui opero con tassonomie più specifiche e in cui vedo una crescita ulteriore, nei primi mesi dell’anno, di trend importanti di investimento in ambito robotica e healthcare.
La start-up che ho scelto per il mese di febbraio 2026 è Fundamental. Fundamental è un AI lab californiano, uscito dalla fase stealth con $255 milioni di funding e una valutazione di $1,2 miliardi. Il round da $225 milioni di Series A è stato guidato da Oak HC/FT, Valor Equity Partners, Battery Ventures e Salesforce Ventures, con la partecipazione di Hetz Ventures e angel investor d’eccezione come il CEO di Perplexity Aravind Srinivas e il CEO di Datadog Olivier Pomel.
Al centro di tutto c’è un prodotto con ambizioni precise: NEXUS, il loro Large Tabular Model (LTM). Il claim è semplice e provocatorio: “Text has language models. Images have vision models. Tables now have tabular models.“ L’idea è costruire un foundation model pre-addestrato su miliardi di tabelle, capace di catturare relazioni non lineari nei dati strutturati su cui si basano le decisioni aziendali: fraud detection, credit scoring, previsione prezzi, stratificazione del rischio clinico.
NEXUS, tecnicamente, non è un LLM e non usa l’architettura transformer, eppure è deep learning a tutti gli effetti. È un foundation model con architettura proprietaria pensata per dati non sequenziali: a differenza di XGBoost, che va addestrato da zero per ogni task, NEXUS porta il transfer learning sui dati tabulari, esattamente come GPT porta comprensione del linguaggio prima ancora di vedere un tuo testo. Non è conversazionale: si collega alla tabella, si indica la colonna target e restituisce regressioni o classificazioni.
Il dettaglio cruciale per le enterprise è che sembra essere deterministico: stesso input, stesso output. Requisito non negoziabile in contesti regolati. Il framework teorico alla base, chiamato Fundamental Tabular Process (FTP), è descritto nel whitepaper ufficiale; chi vuole esplorare la ricerca accademica parallela può partire anche da questo paper del 2022 Tab PFN.
Il CEO e co-fondatore è Jeremy Fraenkel: ha un master in Machine Learning a UC Berkeley e ha costruito un background finanziario solido passando per JPMorgan e Bridgewater. L’altro co-fondatore è Gabriel Suissa, imprenditore israeliano; il team di ricerca è composto da alumni di DeepMind, con R&D parzialmente radicata in Israele e ingegneri provenienti da AI21 Labs. La società, fondata formalmente a ottobre 2024, è andata veramente molto veloce. Il funding sarà usato per scalare l’infrastruttura di calcolo, espandersi verso il mercato delle grandi aziende e crescere nei team di ricerca, engineering e go-to-market. Già oggi conta contratti a sette cifre con clienti Fortune 100 e una partnership strategica con AWS per il deployment diretto su infrastruttura cloud.
Se funzionerà veramente lo scopriremo solo vivendo 🙂 ma l’argomento in cui promette di fare innovazione è uno di quelli in cui siamo tutti, come data-lover, molto sensibili, visto che i dati tabulari sono quelli che usiamo, più di tutti, nelle nostre organizzazioni per prendere le decisioni più strategiche per il nostro futuro…
🖐️Tecnologia (data engineering). The Last Programmers? Sicuramente meno codice e più regia …
Non ho mai lavorato come software engineer, ma ho scritto parecchio codice in vita mia, spesso legato a pipeline dati, modelli, analisi e automazioni. Quel codice ibrido che è stato, soprattutto in passato, tra il foglio Excel del manager e il repository dello sviluppatore. Ho lavorato con team di sviluppo software realizzando, a seconda dei progetti, la fase funzionale o la fase di test. Anche per questo (ma non solo), la domanda “quale sarà il futuro del ruolo del programmatore nell’era dell’AI?” mi interessa molto. Sto leggendo molto sul tema, discutendo con molti amici programmatori e anche, ti confesso, riprendendo a programmare in alcuni weekend per capire la trasformazione in corso in maniera concreta. Se sei curioso come me, ti segnalo tre approfondimenti che possono aiutarti a disegnare scenari possibili.
Xipu Li, ingegnere che ha lasciato Amazon (dove lavorava su Amazon Q Developer, l’assistente AI per programmatori) per una startup, ha scritto un post provocatorio intitolato The Last Programmers. Il cuore è questo: un suo collega non guarda più il codice da settimane, scrive documenti di design in inglese e lascia che l’AI implementi tutto, con sei terminali di Claude Code aperti in parallelo. Li descrive due schieramenti che si stanno formando nei team: gli “sperimentatori”, che spingono per delegare tutto all’AI, e i “guardiani”, che credono che capire il codice resti non negoziabile. L’articolo è interessante perché non è teoria: è un racconto dal campo, da chi questi strumenti li usa più di otto ore al giorno per creare prodotti.
Dall’altra parte dello spettro c’è Martin Fowler, intervistato da Gergely Orosz su The Pragmatic Engineer. Fowler, Chief Scientist di Thoughtworks, autore di Refactoring, una delle voci più autorevoli dell’architettura software, mette sul tavolo un concetto chiave: il non-determinismo. Gli LLM introducono nel software una componente probabilistica che l’ingegneria tradizionale non ha mai dovuto gestire. Fowler usa l’analogia della moglie ingegnere strutturale: quando progetti un ponte, ragioni per tolleranze e margini di sicurezza, perché i materiali hanno variabilità nota. Con l’AI generativa, queste tolleranze non le conosci ancora bene, e chi “pattina troppo vicino al bordo” rischia crolli, soprattutto sul fronte sicurezza. È importante perché Fowler non nega il cambiamento, ma ci ricorda che refactoring, testing e pensiero architetturale contano più che mai, non meno.
Il terzo link è diverso: è una chiacchierata tra sviluppatori molto esperti (tra cui due miei amici ed ex-colleghi, Stefano Maestri e Antonello Mantuano), e proprio per questo è prezioso. Nella chiacchierata, molto lunga e molto nerd, si vedono dal vivo le nuove dinamiche sociali e cognitive di chi programma con agenti e assistenti; delegare, correggere, riprovare, “dirigere” più che digitare, e il confine tra velocità e controllo diventa il tema. E si parla anche di rischio di burn-out…
Mettendo insieme i (tre) pezzi, il futuro del “programmatore” sembra assomigliare sempre meno a uno che scrive codice e sempre più a uno che orchestra: scrive specifiche comprensibili (agli umani e alle macchine), costruisce sistemi verificabili, decide dove fidarsi e dove no, e soprattutto mantiene la capacità rara di collegare comportamento del software, bisogni reali e vincoli del mondo (dati inclusi). Se vieni dal mondo dei dati, questo è qualcosa di già visto in una certa misura. Perché il superpotere dei data-expert non è mai stato l’estetica del codice 🙂.
👅Etica & regolamentazione & impatto sulla società. Wikipedia perde visitatori umani ma non assoluti e potrebbe non essere una male se …
Wikipedia è nata nel 2001 con un’idea previsa: costruire gratis e in modo collaborativo la più grande enciclopedia della storia. In meno di 25 anni ci è riuscita a realizzarla e a mantenerla. Oggi conta oltre 60 milioni di voci in 300 lingue, ed è scritta e mantenuta da milioni di volontari in giro per il mondo. È un bene comune (un commons, nel senso letterale): una risorsa condivisa che appartiene a tutti e che nessuno possiede. Quando cerchi la storia di un’azienda, la biografia di uno scienziato o come funziona un algoritmo, c’è una buona probabilità che la prima fonte affidabile sia lì. E quando oggi chiedi a ChatGPT, a Gemini o a qualsiasi LLM e fai una domanda di conoscenza generale, anche lì c’è Wikipedia: quasi tutti i grandi modelli linguistici si sono allenati sui suoi dataset. Wikipedia non è solo utile per te: è l’ossatura invisibile dell’intelligenza artificiale. Non solo quella generativa: per esempio, una delle start-up che avevo acquisito in Cerved già nel 2014 usava il grafo di conoscenza di Wikipedia per il suo prodotto NLP di punta, partendo da un progetto universitario molto interessante.
Ma qualcosa, anche a causa dell’intelligenza artificiale generativa, sta cambiando. E questo è l’approfondimento che ti consiglio in questa sezione della newsletter. La Wikimedia Foundation ha infatti pubblicato nell’ottobre 2025 un’analisi che racconta una storia preoccupante. Dopo aver aggiornato i sistemi di rilevamento dei bot, che erano diventati talmente sofisticati da sembrare utenti umani (molti dei quali provenienti dal Brasile), le visualizzazioni di pagina reali risultano in calo di circa l’8% rispetto agli stessi mesi del 2024. Ma il quadro più lungo è ancora più netto: dal marzo 2022 al marzo 2025, i visitatori giornalieri sono scesi da oltre 165 milioni a meno di 128 milioni: una contrazione del 23% in tre anni. La causa principale sta nel fatto che i motori di ricerca usano sempre più l’AI generativa per rispondere direttamente agli utenti invece di mandarli su siti come Wikipedia. I giovani cercano sempre più spesso su TikTok e YouTube, non sul web aperto. Il risultato è che le risposte dei modelli spesso vengono da Wikipedia, ma tu non ci arrivi mai.
Ma è davvero un problema che le AI la usino? Qui la questione si fa interessante e la risposta non è scontata. C’è un’ironia sottile: Wikipedia rimane tra i dataset più preziosi su cui si basano queste nuove forme di disseminazione della conoscenza. Quasi tutti i grandi modelli linguistici si allenano sui dati di Wikipedia, e motori di ricerca e piattaforme social ne usano le informazioni per rispondere alle domande degli utenti. Quindi le persone leggono ancora Wikipedia, solo che non lo sanno e, di fatto, lo fanno con modalità differenti.
Può essere un problema anche grave se questo uso va a intaccare una base di volontari fragile, che si alimenta di traffico, visibilità e donazioni. Se le visite calano, calano anche i nuovi contributori e i donatori. Il contenuto invecchia. La qualità scende. E con essa, la qualità dell’AI che ci si allena sopra.
Può essere un problema meno grave o anche un’opportunità se invece proteggiamo la qualità di questo sistema centrale per la conoscenza e l’intelligenza globale nel migliore dei modi, riconoscendo addirittura la sua aumentata centralità. Non serve solo diventare editor di Wikipedia (anche se sarebbe bellissimo). Bastano piccole cose: quando trovi una risposta AI su Google o Perplexity, clicca sulla fonte. Quando usi ChatGPT per un approfondimento, vai a verificare l’articolo originale. E ogni tanto, dona a Wikimedia. Wikipedia è un’infrastruttura pubblica della conoscenza. Se la lasciamo andare in declino pensando che “tanto c’è l’AI”, stiamo segando il ramo su cui siede l’AI stessa.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!



Devo fare una critica (non è una critica alla newsletter ma autoironia). Metti troppa carne al fuoco. Tutta roba interessante. Non avrò mai il tempo per approfondire tutto quello che mi ispira la lettura della newsletter. E pensa che quello che scrivi, a me, non interessa professionalmente, sono un pensionato, ma è pura curiosità intellettuale. Grazie comunque per gli stimoli.
Nerd noi???? Piano con le parole...:P (anche l'emoticon testuale a nerd...)