LaCulturaDelDato #186
Dati & algoritmi attraverso i nostri 5 sensi
For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centoottantaseiesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del centoottantaseiesimo numero:
👃Investimenti in ambito dati e algoritmi. Da 13 a 100 unicorni in due anni dove sta andando davvero il valore dell’AI generativa?
Due anni e mezzo fa, nella newsletter #65, avevo approfondito un articolo di CB Insights che segnalava l’emergere di ben 13 unicorni (cioè aziende con una valutazione superiore al miliardo di dollari) nel mondo della Generative AI. Quella fotografia mi torna oggi utile per fare un confronto con un altro numero, appena uscito, sempre da CB Insights: il centesimo unicorno nato grazie al trend della Generative AI. Ti lascio qui sotto l’infografica che riassume il tutto, insieme al link al report completo 📊👇
Faccio davvero fatica a commentare da solo questo numero o a esprimere un parere “netto” sul fatto che si tratti di puro hype o di un trend inarrestabile. Potrei dirti che la verità sta nel mezzo… ma preferisco segnalarti due aspetti che secondo me contano davvero:
1️⃣ Come puoi vedere, il numero più significativo di unicorni si concentra ancora su aziende che sviluppano LLM. Questo non era affatto scontato tre anni fa, quando ci si chiedeva su quale “layer” si sarebbe concentrata la maggior parte del valore. In tanti immaginavano che i produttori di LLM sarebbero presto diventati una commodity.
Questo non è (ancora) successo, anche perché, secondo me, questi produttori hanno espanso il loro raggio d’azione, costruendo prodotti (o esperienze prodotto) sempre più integrate per l’utente finale, sia esso consumer o aziendale.
2️⃣ È molto utile confrontare la vecchia immagine che vi era piaciuta allora (con la capitalizzazione dei 13 unicorni) con la situazione attuale
Ho provato a farlo, usando servizi proprio dei due unicorni con la maggiore capitalizzazione 😄 (ma ho comunque verificato anche in autonomia i dati, prendendo come riferimento l’ultima valutazione nota). Ecco come sono cambiate le cose:
🚀 Crescita supersonica
Anthropic: da 4.4B → 183B (+4000%)
OpenAI: da 29B → 500B (+1624%)
Glean: da 1B → 7.2B (+620%)
Cohere: da 2B → 6.8B (+240%)
Replit: da 1.2B → 3.0B (+233%)
📈 Crescita ottima
Hugging Face: da 2B → 4.5B (+125%)
Runway: da 1.5B → 3B (+100%)
🛍️ Acquisite (o quasi)
Inflection → Microsoft
Adept → Amazon
Character.ai → Google
⚠️ In difficoltà
Stability.ai
🖐️Tecnologia (data engineering). Costruire con le parole: l’AI di Carnegie Mellon che pensa in Lego
Come molti data-lovers, ti confesso che sono un appassionato di Lego di lunga data. Fin da bambino (quindi ben prima che lo dicesse Sinner 🙂) l’ho sempre trovato un modo efficace di rilassarmi in maniera assolutamente creativa. Ho seguito negli anni anche l’evoluzione della Lego come azienda, e l’ho trovata anch’essa fonte di grande ispirazione per la capacità di gestire momenti di crisi e di riuscire a creare una connessione efficace tra mondo fisico e digitale. Probabilmente dalla mia frequentazione della Danimarca per passione, molto più vecchia rispetto a quella attuale lavorativa, nasce anche la mia grande passione per la cultura nordica (quella danese in testa), che ogni tanto emerge anche in questa newsletter.
Tutto questo per introdurre l'approfondimento di oggi, che è proprio a cavallo tra costruzioni e AI generative. E credo sia interessante per diversi aspetti, non soltanto ludici.
BrickGPT (ex LegoGPT) nasce alla Carnegie Mellon: l’idea è passare da prompt testuale a costruzioni a mattoncini realmente montabili e fisicamente stabili. È una sorta di “LLM che pensa in mattoncini”, che predice, a ogni step, il prossimo pezzo e la sua posizione nello spazio. Per garantire stabilità e montabilità, durante la creazione applica controlli di validità e un rollback “physics-aware” quando la struttura tende a cedere. Una delle chiavi, tanto per cambiare, è un dataset costruito per il progetto StableText2Brick.: quasi 47 mila strutture (28 mila+ oggetti unici) con descrizioni testuali, usato come base per l’addestramento. Le forme di ShapeNet vengono “legolizzate”, filtrate con analisi di stabilità e descritte da 24 viste via GPT-4o, così da collegare geometria e linguaggio. Il modello di base è LLaMA-3.2-1B-Instruct. Il codice è open source (MIT) e include tool per rendering e analisi della stabilità.
Per chi vuole provarlo senza installare nulla in locale, c’è una demo su Hugging Face. Se vuoi effettivamente usare la demo, serve un piccolo account Pro su Hugging Face, ma ci sono esempi già realizzati che mostrano tavoli, sedie, chitarre, imbarcazioni e librerie generati passo-passo, con indicazione dei mattoncini usati, poi colorati e texturizzati a partire dal testo.
Interessante, all’interno del progetto, è anche l'assemblaggio automatizzato di strutture in mattoni generati mediante robot.
Dal lato didattico e maker, è un ponte tra linguaggio naturale, regole fisiche e robotica: perfetto per corsi, laboratori e FabLab. 🚀
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Qualche minuto da Chief Data Officer (senza stress 😅)
Forse non è più al centro della scena aziendale come quattro o cinque anni fa, ma probabilmente la rilevanza del Chief Data Officer è ancora più forte nell’era della generative AI. Queste parole potrebbero avere un forte bias ☺️, ma stiamo sempre più sperimentando quanto i dati, messi bene, siano una componente fondamentale per il successo dei progetti AI-driven in azienda. Chiaramente il ruolo del CDO non è più quello del passato: lo spostamento verso un ruolo di supporto all’innovazione digitale è qualcosa di sempre più richiesto all’interno delle moderne organizzazioni. Lo avevamo riassunto in maniera forse fin troppo nerd nell’immagine o curva di isteresi del CDO qui sotto, all’interno del libro “La Cultura del Dato”, scritto con
a inizio 2022. E credo sia ancora più vero oggi (n.d.r. leggi “domani”, scritto nel 2022, come l’“oggi” di ora 🙂).Ed è proprio relativo al Chief Data Officer l’approfondimento che ti consiglio oggi. Per una volta non si tratta di un lungo articolo super complesso, ma di una simulazione che ti proietta sulla scrivania. o meglio, nella casella di posta elettronica di un CDO. In 4 minuti ti ritrovi nel ruolo di Chief Data Officer e devi prendere una serie di micro-decisioni in ambito dati (tipicamente via finti thread/email) per far crescere il business senza far deragliare governance e fiducia. L’autrice del progetto è Charlotte Ledoux, con il supporto tecnico di Florian Gardin.
Non è chiaramente uno strumento di pura formazione, ma ho trovato interessanti alcune situazioni e domande che ti portano a riflettere e pensare, in un contesto che è chiaramente ludico e non stressante come nella vita vera 🙂
👀 Data Science. ISBN: il numerino che tiene insieme il mondo dei libri 📚e un modo figo per visualizzarlo.
Essendo un data-lover e un grande amante dei libri, ha sempre suscitato grande fascino in me quel numerino di tredici cifre decimali che trovi sul retro di ogni libro e che è, di fatto, la chiave primaria di tutti i libri del mondo. Lo so, è una definizione un po’ semplicistica, ma buona a sufficienza per chi non vuole perdersi nei meandri della genesi e della semantica di questi tredici numeri. Per chi vuole approfondire le varie parti, è fortemente raccomandato leggersi la voce italiana ISBN. Da qui nasce spontanea una domanda: quanti libri ci sono nel mondo? O meglio, possiamo averne almeno una stima? Cercando nel web fonti e ricerche attendibili, quella del team di Google Book Search, seppur datata al 2010, sembra la più convincente: allora eravamo a circa 130 milioni … sinceramente pensavo molti di più. Considerando che negli ultimi anni si è scritto e pubblicato molto più che in passato, oggi non dovremmo essere lontani dai 180 milioni.
Questi numeri servono anche a rassicurare quelli come me (e forse qualcuno di voi) che si fossero preoccupati di dover “allargare” la chiave primaria di una cifra, con conseguenze catastrofiche per i database di mezzo mondo 🙂. In realtà abbiamo ancora tantissimo spazio: considerando che le prime tre cifre sono (quasi) fisse (con solo due combinazioni utilizzabili) e che l’ultima è una cifra di controllo, possiamo, senza toccare nulla, arrivare a circa 2 miliardi di libri etichettati con codice ISBN. Si lo so non lo potremmo usare per etichettare i libri della la biblioteca di Babele raccontata da Borges ma dobbiamo farcene una ragione ☺️.
Tutto questo preambolo per arrivare al vero approfondimento di oggi: un progetto open source davvero molto figo e nerd per visualizzare tutti i libri del mondo sfruttando proprio l’ISBN come chiave rappresentativa.
In pratica, Phiresky, lo pseudonimo dell’autore, ha costruito una mappa interattiva dell’intero “universo” degli ISBN-13: non un catalogo in lista, ma un territorio da esplorare come una cartina, dove ogni zona corrisponde a intervalli di codici e, zoomando, arrivi fino al singolo libro (ti consiglio di provarlo partendo dall’ISBN del primo libro che hai sotto mano). Per farlo ha inventato una proiezione “bookshelf” (un metodo di rappresentazione) che rispetta la logica decimale degli ISBN e tiene vicini i “parenti” stesso paese o editore, evitando gli artefatti tipici delle curve di Hilbert. Se vuoi andare a fondo su questo dettaglio, lo spiega molto bene anche dal punto di vista matematico nel suo blog. La mappa non mostra colori “a caso”: sotto ci sono dati veri provenienti da più sorgenti, cataloghi bibliotecari, Open Library, Google Books e perfino shadow libraries, combinati in tempo reale. Così puoi colorare lo spazio per anno medio di pubblicazione, copertura, rarità nei cataloghi, densità per editore… e vedere pattern che in tabella non emergerebbero: blocchi nazionali, epoche editoriali, vuoti di copertura. Il tutto gira come sito statico (tile PNG + WebGL), quindi è veloce e facilmente condivisibile.
👅Etica & regolamentazione & impatto sulla società. Ricerca 2.0: l’AI generativa entra in laboratorio
Uno degli ambiti in cui penso che l’AI generativa possa avere un impatto molto ampio, e decisamente positivo, è la ricerca scientifica. È un tema decisamente complesso da mettere a fuoco, molto più complicato, per esempio, di un semplice efficientamento di processo in azienda. Ma l’impatto sulla società e sulla vita di molti di noi può essere davvero enorme.
Ne scrive molto bene, con esempi e parole davvero azzeccati, un amico che è stato anche ospite di questa newsletter:
, nel quindicesimo numero della sua newsletter Beyond Entropy, che leggo sempre con molto interesse.Cristiano scrive in particolare qualcosa che mi ha colpito molto e che segnala una vera discontinuità rispetto anche alle modalità con cui si potrà fare ricerca in futuro:
“In questa nuova rivoluzione, stiamo passando dall'uso del calcolo per simulare sistemi reali per testare i risultati della ricerca all'uso del calcolo per co-generare nuove idee … Naturalmente, la gioia della scoperta scientifica è un'esperienza esclusivamente umana, ma è chiaro che stiamo assistendo a una trasformazione nel modo in cui la ricerca viene concepita e condotta. Parallelamente, dovranno emergere nuove best practice, nuovi metodi e un ecosistema completamente nuovo.”
Nel suo articolo, Cristiano ci propone alcuni esempi, e in particolare segnala il paper di Google che presenta lo sviluppo di un AI co-scientist. Come scrive lui, si tratta di un sistema multi-agente basato su Gemini 2.0, la cui missione è generare ipotesi e proposte di ricerca originali, sfruttando le prove precedenti e in linea con gli obiettivi definiti dai ricercatori. In un esperimento, l’AI co-scientist ha, tra le altre cose, proposto nuovi bersagli epigenetici per la fibrosi epatica, che sono stati poi convalidati in organoidi epatici umani, dimostrando attività antifibrotica e promuovendo la rigenerazione delle cellule epatiche. Il paper di Google, seppur molto lungo, è davvero interessante per i dettagli con cui vengono spiegati i test e i miglioramenti sulla cooperazione tra agenti specializzati in ambito scientifico. Ti lascio un'immagine, tratta dal paper, che ti fornisce qualche dettaglio in più sulla sua architettura 🧠🔬
📅 Nel Mio Calendario (passato, presente e futuro)
E’ uscita ieri la una nuova puntata del podcast Work After del mio amico
. La puntata è la sintesi di un podcast che abbiamo registrato qualche settimana fa nel nuovo ufficio di Cosmico, al terzo piano dell’edificio che ospita la Fondazione Feltrinelli, in Viale Pasubio a Milano. Il podcast è stato una lunga e piacevolissima chiacchierata con Matteo e Silvia Zanella sul “rapporto tra organizzazioni e persone, dell’eterna tensione tra contributo individuale e strategie collettive, e di come l’intelligenza artificiale sta trasformando tutte le dinamiche organizzative.” Se eravate presenti o lo sentite e avete riflessioni o osservazioni sono molto curioso di sentirle. Scrivetele nei commenti o mandatemi una mailSe ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!







Il visualizzatore di ISBN è fantastico... Sei una continua fonte di stimolazione della curiosità. Grazie