For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centocinquantesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del centocinquantesimo numero:
👅Etica & regolamentazione & impatto sulla società. Filosofia Tech: Visioni e Futuri Possibili con Cosimo Accoto
Presentati
Cosimo Accoto. Sono un filosofo tech, research affiliate e fellow al MIT di Boston, adjunct professor all’Università di Modena e Reggio Emilia (UNIMORE) oltre che startup advisor e instructor. Ho scritto una trilogia filosofica sulla civiltà digitale che documenta i miei interessi di ricerca sulle frontiere: filosofia del codice e della programmazione, società dei sensori e del software, automazione robotica e teorie dell’intelligenza artificiale, blockchain e filosofia dei cryptosistemi e dei cryptoasset, computazione quantistica e biologia sintetica, filosofia delle realtà estese, sintetiche e immersive. Il mio ultimo saggio appena pubblicato per Egea è "Il Pianeta Latente. Provocazioni della tecnica, innovazioni della cultura": un'esplorazione filosofica sull'intelligenza artificiale generativa tra linguaggi, immagini e azioni. Poi progetto e realizzo innovativi e apprezzati philtech lab (laboratori di filosofia della tecnologia e dell’ingegneria) per istituzioni, organizzazioni, associazioni, think tank e aziende.
Il mio ruolo tra 10 anni sarà…
in ambito sempre più consulenziale strategico e anche istituzionale, direi. Infatti, questo mio approccio esplorativo e orientativo sull’orizzonte tecnologico è fortemente richiesto da imprese e organizzazioni, ma anche sempre più da parte di istituzioni statali e governative, nazionali e locali. Il decennio che ci attende sarà profondamente e radicalmente trasformativo (di economie, società e culture). E questo ci richiederà un pensare filosofico all’altezza dei tempi, in grado di fronteggiare le accelerazioni, la complessità e gli smarrimenti.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
Credo sia quella culturale delle imprese (grandi, medie, piccole) non native al codice e al dato. Tra presente servitizzazione (dal prodotto al servizio) e futura agentificazione (dalla macchina industriale all’agente artificiale), le imprese tradizionali faticano molto a lasciare i vecchi paradigmi per l’appunto per passare ad un’economia data-driven e ai-driven. È invece un’opportunità straordinaria per il nostro Paese. Non che non ci siano contesti e strategie innovative, ma occorrerebbe uno sforzo collettivo senza pari per traghettare l’intera nostra economia nel XXI secolo.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Citerei i due centri di ricerca che più mi stimolano qui al campus del MIT. Ce ne sono tanti altri, ma per me di grande fascino sono Media Lab e CSAIL. Da prospettive diverse, il primo più sociale-artistico, il secondo più operativo-ingegneristico sono per me risorse eccezionali per sperimentare la potenza del dato in varie declinazioni. Al Media Lab i progetti legati al dato sono molti: uno per tutti, la ricerca sul data journalism. Al CSAIL, invece, i progetti di intelligenza artificiale legati a dati e robotica. Dateci un’occhiata ogni tanto e non ne rimarrete delusi.
PSS (Post Scriptum di Stefano):
Ho cominciato ad apprezzare la capacità di Cosimo di sintesi visionaria sul futuro che stiamo costruendo con la tecnologia ormai dieci anni fa, nella postfazione di un libro iconico di Alex Pentland (Fisica Sociale). Stavo lavorando in azienda su progetti in cui i grafi e le reti sociali avevano un impatto, e quel libro si è rivelato estremamente utile per definire lo sviluppo di alcuni prodotti innovativi.
Poi, dopo averlo conosciuto anche di persona, mi sono spesso lasciato guidare da lui e dalla sua splendida trilogia (Il mondo dato, Il mondo ex-machina e Il mondo in sintesi) per intuire scenari di futuri che stavano per concretizzarsi.
Grazie, Cosimo, non solo per l’intervista, ma anche per le tue visioni dei futuri possibili e preferibili.
👃Investimenti in ambito dati e algoritmi. Start-up del mese Dicembre 2024: Yurts.ai
Come ogni mese, grazie alla mia attività di monitoraggio dell'innovazione e degli investimenti a livello mondiale, ho l'opportunità di presentarti una startup che ha catturato particolarmente la mia attenzione. Questa realtà si distingue per aver ottenuto finanziamenti significativi a dicembre 2024 e per il modo in cui integra dati e algoritmi nei suoi prodotti.
Prima di raccontarti della startup che ho selezionato questo mese, vediamo insieme – grazie a Crunchbase e ad altre fonti autorevoli – come è andato dicembre e, considerando che è l'ultimo mese dell'anno, anche tutto il 2024.
Il 2024, finalmente, ha segnato una piccola ma significativa inversione di tendenza rispetto al periodo post-“BoomCovid” del 2021 per gli investimenti globali nel Venture Capital. Quest'anno, infatti, si è registrata una crescita modesta (+3%) rispetto al 2023, con un rush finale nell’ultimo trimestre. A trainare questa crescita ci sono stati tre mega-round – non a caso legati a Databricks, OpenAI e xAI – che da soli hanno raccolto 22 miliardi di dollari, rappresentando circa un quarto del funding dell’intero trimestre.
Un terzo di tutti gli investimenti globali si è concentrato, nel 2024, sul nostro settore, Data & AI, che ha segnato l’anno con i finanziamenti più alti di sempre, superando persino il record del 2021. Di questi investimenti, un terzo è stato destinato alle aziende che sviluppano LLMs (Large Language Models). Tuttavia, non tutte le aree industriali hanno brillato: il settore EdTech, a livello globale, continua a registrare una crisi persistente, con un altro anno negativo in termini di funding.
Anche i dati del mio database confermano questa tendenza: dicembre è stato stabile rispetto a novembre per quanto riguarda il numero di investimenti (92 e circa il 25% del totale) in Data & AI, ma con una crescita significativa nei volumi grazie a importanti round "maturi".
Guardando ai round chiusi a Dicembre 2024 non posso non menzionare il grosso round di Oura – un'azienda che adoro come utente e di cui ti ho già parlato – anche se non la segnalo come startup del mese per l’eccessivo coinvolgimento passionale ☺️. Questo mese, invece, la mia scelta cade su Yurts.ai, rappresentante di un trend di investimenti che potrebbe (ma non ne sono certo) rispondere a un'esigenza delle grandi organizzazioni.
Yurts.ai è una startup fondata nel 2022 che sviluppa una piattaforma che utilizza Intelligenza Artificiale Generativa, agnostica rispetto agli specifici LLM utilizzati, progettata per integrarsi in modo sicuro e scalabile nei sistemi aziendali e governativi critici. La missione di Yurts è connettere le persone al proprio lavoro nel modo più efficiente possibile, trasformando la gestione della conoscenza e i flussi di lavoro aziendali su larga scala attraverso RAG (Retrieval-Augmented Generation) e Agenti AI.
Gli obiettivi specifici della piattaforma includono:
Accesso rapido alle informazioni: utilizza documenti provenienti da fonti aziendali già in uso, come SharePoint, Teams, Slack e Google Docs.
Miglioramento della produttività: gli assistenti AI di Yurts velocizzano i flussi di lavoro, consentendo ai dipendenti di creare, cercare e comunicare in modo più efficiente.
Garanzia di sicurezza e privacy: progettata con standard di sicurezza elevati, la piattaforma è ideale per ambienti sensibili, assicurando che i dati rimangano protetti e sotto il controllo dell'organizzazione.
I founder provengono da ambienti di eccellenza: Big Tech, scale-up e università americane. Nel dicembre 2024, Yurts.ai ha raccolto 40 milioni di dollari in un round B guidato da XYZ Venture Capital, con la partecipazione di Glynn Capital, Nava Ventures, Bloomberg Beta e Mango Capital, portando il totale dei finanziamenti a 58 milioni di dollari.
Va detto che Yurts.ai non è l’unica azienda al mondo che sta investendo in piattaforme per facilitare e rendere sicuro l’uso della Generative AI nelle grandi organizzazioni. La svedese Sana.ai, ad esempio, propone un approccio simile in “salsa” più europea, e altre aziende stanno seguendo questa direzione.
Se questo diventerà un trend robusto, lo scopriremo solo vivendo, come dice Battisti. Di certo, però, i contratti di Yurts.ai con enti governativi e con la difesa americana rendono la sua posizione solida, almeno nel medio periodo. 🚀
🖐️Tecnologia (data engineering). Contaminazione, cherrypicking e misreporting: come scegliere davvero il miglior LLM
Per introdurre l’argomento di questa sezione, voglio ricordarti la legge di Goodhart, che recita: "Quando un indicatore diventa un obiettivo, cessa di essere un buon indicatore". Ma non è solo questa legge a rendere complessa la misurazione della qualità dei modelli LLM.
Come si legge nell’abstract del paper che ti consiglio vivamente di leggere se vuoi approfondire il problema: “Valutare i moderni modelli di ML è difficile. Il forte incentivo per i ricercatori e le aziende a riportare buoni risultati su qualche metrica spesso porta a pratiche di ricerca discutibili: cattive pratiche che non sono vere e proprie frodi. Nel paper descriviamo 44 diverse casistiche che possono compromettere i risultati riportati, fornendo esempi ove possibile. Il nostro elenco si concentra in particolare sulla valutazione di modelli linguistici di grandi dimensioni (LLM) su benchmark pubblici. Discutiamo anche delle ‘pratiche di ricerca irriproducibili’, ovvero decisioni che rendono difficile o impossibile per altri ricercatori riprodurre, sviluppare o verificare le misurazioni precedenti.”
La maggior parte delle 44 pratiche scorrette descritte nel paper ricadono in una di queste tre categorie principali:
Contaminazione: Qualsiasi modo in cui l'insieme dei dati di test influenza il processo di addestramento. Questa casistica è ben spiegata dai test condotti dai ricercatori di Apple, descritti in questo articolo.
Cherrypicking: Scegliere tra esecuzioni e configurazioni per far sembrare il proprio sistema migliore, ad esempio selezionando concorrenti deboli o configurando in modo scorretto un LLM concorrente potenzialmente forte.
Misreporting: Qualsiasi errore o presentazione fuorviante delle specifiche del modello o dei risultati della valutazione.
Essere consapevoli di questi errori di valutazione è fondamentale quando lavoriamo su progetti aziendali con un LLM. Questo ci consente di adottare le contromisure necessarie, ad esempio:
Fare una selezione accurata dell’LLM da usare, basandosi non su un solo benchmark, ma ampliando la valutazione a più sistemi di misura, privilegiando benchmark aggiornati e il più possibile di terze parti, o che emergano direttamente dall’uso degli utenti.
Testare il comportamento dell’LLM scelto all’interno del progetto in tutti i casi d’uso previsti nella nostra organizzazione.
Infine, ti consiglio di dare un’occhiata al lavoro di un gruppo di ricercatori indipendenti italiani che sta misurando i principali LLM a livello mondiale usando il test Invalsi in italiano. Puoi seguire i loro aggiornamenti in tempo reale su questa piattaforma. Ne ha parlato anche
in questo post su LinkedIn, dove trovi i link al paper del progetto e alcuni interessanti commenti degli autori.E se sei interessato non solo a valutare le prestazioni qualitative dei modelli LLM ma anche le loro prestazioni dal punto di vista architetturale (on-premises vs cloud per esempio) e infrastrutturale ti consiglio di dare un’occhiata allo studio di cui parla Massimo Chiriatti in questo articolo su Nova24.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Il Post: il giornalismo che usa (anche) i dati per migliorare la nostra informazione
121 numeri fa, nella newsletter 29, ti avevo parlato di un articolo del New Yorker che aveva riscosso grande interesse. Era stato l’approfondimento più cliccato in quel numero e l'articolo trattava di Francesco Costa, uno dei giovani giornalisti italiani più seguiti e apprezzati del momento. Scrivevo:
“Francesco Costa, vicedirettore de Il Post, è la persona che negli ultimi 3 anni ha influenzato più positivamente il mio modo di leggere le informazioni che arrivano dai giornali sulla società e sulla politica. Mi ha fatto toccare con mano come anche i giornalisti possano usare bene i dati per spiegare cosa sta succedendo attorno a noi. Poi Francesco è anche bravissimo, come dice Luca Sofri, direttore de Il Post, e riesce a usare le parole, l’ironia e anche l’umiltà per rendere accattivante quasi qualunque argomento. La sua capacità di spiegare bene e in maniera semplice le cose, usare con attenzione i dati, verificarli e correggersi quando sbaglia, lo rendono una star e un data-lover ad honorem.”
Oggi, a distanza di tre anni, voglio tornare sull’argomento, ampliando la prospettiva al progetto de Il Post nel suo complesso. In questi anni, Il Post non solo è cresciuto come testata giornalistica, ma ha anche innovato profondamente sia in termini di prodotti che di sostenibilità economica – un tema cruciale per garantire l’indipendenza dell’informazione. Se vuoi scoprire di più su quella che considero l’esperienza editoriale più data-driven in Italia (e forse in Europa), ti lascio qualche spunto di approfondimento.
Perché Il Post è diverso?
Il Post è una testata online italiana fondata nel 2010 da Luca Sofri, che si distingue per un approccio innovativo al giornalismo. Si concentra sulla chiarezza e sull’affidabilità delle notizie, preferendo l’approfondimento e la verifica delle fonti a uno stile sensazionalistico o superficiale. Dal 2019, ha adottato un modello di business basato sugli abbonamenti.. Questa scelta si è rivelata vincente: ha garantito una crescita significativa del pubblico e ha consolidato il ruolo de Il Post nel panorama mediatico italiano.
Le novità degli ultimi tre anni
Negli ultimi tre anni, Il Post ha ampliato la sua offerta per gli abbonati, includendo:
Newsletter tematiche sempre più ricche;
La collana di libri “Cose spiegate bene” (che ti consiglio di esplorare) e altre pubblicazioni interessanti;
Eventi dal vivo che rafforzano il legame con la comunità;
Una cronaca sempre più presente sul campo, con l’ingresso per esempio di Daniele Raineri a metà 2024.
Inoltre:
Francesco Costa, già figura centrale, sta per diventare il nuovo direttore del giornale;
E con un pizzico di orgoglio ti segnalo l’intervista, che ho fatto a Isaia Invernizzi nel numero 106 della newsletter, data journalist, che è responsabile anche di tutta la parte legata ai dati e alle relative analisi. Se te la sei persa ti consiglio di recuperarla!
Il segreto del (suo) successo
Al di là dei numeri positivi, il vero successo de Il Post sta nella costruzione di un team di giovani giornalisti appassionati, coesi attorno alla mission dell’azienda. Questo è stato possibile grazie alla leadership sinergica e complementare di Luca Sofri e Francesco Costa, che hanno saputo guidare il progetto con visione e dedizione. Il Post rappresenta un modello virtuoso di giornalismo, capace di innovare, essere sostenibile e mettere i dati al servizio della narrazione. Se cerchi un esempio di informazione affidabile e ben fatta, non puoi perdertelo. 😉
👀 Data Science. L’importanza dei dati nell’AI Moderna (e Ibrida): strategie e best practice
Dal momento che è ormai chiaro che gli sviluppi nella parte più interna di quella che chiamiamo Generative AI, ossia i Large Language Model (e anche quelli Small), non sono e non saranno a carico della maggior parte delle organizzazioni, ci sono tre aspetti che ritengo strategici per tutti:
Scegliere i migliori e più adatti strumenti in tutto lo spettro dell’AI e saperli integrare bene e velocemente con gli altri stack tecnologici esistenti.
Formare tutte le persone interne all’uso degli strumenti AI-driven.
Disporre di dati interni nel miglior stato possibile, conoscerli a fondo e integrarli efficientemente sia con i sistemi tradizionali sia con i nuovi sistemi di intelligenza artificiale.
Il terzo punto è l’oggetto di questa sezione della newsletter, perché credo che il ruolo dei data scientist e, più in generale, dei data expert, sarà sempre più cruciale per avere successo in questo ambito.
Il suggerimento che voglio condividere, scritto da Ben Lorica, uno dei più profondi conoscitori del mondo dei dati e dell’AI all’interno delle moderne organizzazioni, offre un’analisi esaustiva sull’argomento.
Pur partendo, come emerge dal titolo "Inside the Data Strategies of Top AI Labs", dalle esperienze delle big tech — protagoniste dei più sofisticati strumenti di generative AI — l’articolo sintetizza strumenti e, soprattutto, strategie sui dati che possono essere utili a tutte le organizzazioni. Le nove raccomandazioni che emergono nell’ultimo paragrafo sono una check-list fondamentale per tutte le persone impegnate nella definizione e nel supporto della data strategy, indipendentemente dal tipo di azienda.
Tra queste, le mie due preferite, su cui Ben si sofferma nel corpo dell’articolo, sono:
Prioritize Data Quality Over Quantity. Questo approccio sembra andare contro il trend iniziato quasi vent’anni fa con il fenomeno noto come “Big Data”. Tuttavia, leggendo attentamente il paragrafo dedicato, si capisce che non è esattamente così. 🙂
Form Strategic Data Partnerships. Questo aspetto rappresenta una prospettiva innovativa su cui riflettere, considerando che sia in ambito di data monetization sia di data federation abbiamo assistito, negli ultimi decenni, a insuccessi più che a successi. A proposito di questo tema, ti avevo già consigliato il punto di vista di
, uno dei migliori esperti mondiali sull’argomento.
📅 Nel Mio Calendario (passato, presente e futuro):
24 Gennaio 2025: è uscita una mia intervista fatta da Daniel Casarin, CEO di Adv Media Lab, in cui abbiamo discusso su come trasformare dati e intelligenza artificiale in veri vantaggi strategici per le aziende. Se vuoi leggerla la trovi qui.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!
Bello, utile, denso... mi prendo un giorno per leggere tutto :-)
Le evals sull'INVALSI sono geniali e ci dicono chiaramente che la scuola ha bisogno di iniziare seriamente a lavorare CON l'AI...