LaCulturaDelDato #192
Dati & algoritmi attraverso i nostri 5 sensi
For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centonovantaduesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
🚀 Questa puntata è sponsorizzata da “DIBS”
Il dato: la bussola che guida la formazione
Ogni decisione efficace nasce da un dato ben interpretato. Vale anche per la formazione: conoscere i trend, capire quali competenze servono davvero e come svilupparle significa trasformare l’apprendimento in un vantaggio competitivo.
Athena, la piattaforma di DIBS, nasce con un obiettivo chiaro: costruire una community che mette i dati al servizio della crescita condivisa. Educatori, aziende e istituzioni collaborano per creare percorsi personalizzati, basati su evidenze reali e costantemente aggiornati grazie all’intelligenza artificiale.
Athena non è solo una piattaforma, ma un ecosistema che connette persone, contenuti e obiettivi, rendendo il dato il motore dell’innovazione formativa.
👉 Compila il modulo di contatto e scopri come entrare nella community Athena.
Per approfondire, visita www.athena360.it
Ed ora ecco i cinque spunti del centonovantaduesimo numero:
🖐️Tecnologia (data engineering). Agentic IA: tra sogno e realtà (e tutto quello che c’è nel mezzo)
“Se sei rimasto affascinato dalle demo dell’IA agentica, con ogni probabilità ti sei anche imbattuto nell’enorme sfida di farle funzionare davvero in produzione. Mentre le demo promettono capacità senza precedenti, il percorso per costruire agenti affidabili, scalabili ed economicamente sostenibili è irto di difficoltà. Questa guida “dal campo” è pensata per i team che stanno affrontando quel baratro, mappando il terreno dei pattern architetturali, dell’ingegneria dell’affidabilità e delle dinamiche dei costi che separano i sistemi di successo dai progetti da laboratorio. Questi pattern funzionano al meglio quando sono supportati da una solida infrastruttura dati. Gli agenti più efficaci si basano infatti su una strategia dati coerente per l’IA, ciò che io chiamo uno strato di conoscenza per gli agenti. Questo strato deve fornire un livello semantico per i dati strutturati e una robusta capacità di ricerca enterprise per le informazioni non strutturate.”
Questo è l’incipit di un articolo che devi assolutamente leggere se lavori nell’area tech di un’azienda o sei coinvolto in qualche modo nei processi decisionali sugli investimenti da fare nella costruzione di applicazioni AI-driven. Il titolo anticipa bene il leitmotiv dei temi affrontati: “Verità dure sugli agenti di IA: cosa funziona, cosa non funziona e perché”. Da tempo seguo Ben Lorica e il suo Gradient Flow: l’ho sempre trovato molto concreto nel trattare le tematiche tecnologiche più innovative, restando lontano sia dagli hype del momento sia dagli atteggiamenti neo-luddisti.
L’articolo condensa moltissimi argomenti interessanti, nati dalla sintesi di tante esperienze sul campo nello sviluppo di applicazioni AI multi-agentiche. Si parte da “Architecture and Design Patterns”, si passa a “From Prototype to Production: Engineering for Reliability”, poi “Observability and Continuous Evaluation”, “Security and Governance by Design”, fino ad arrivare a “Unresolved Challenges and the Road Ahead” che è il mio preferito, e di cui ti porto un’infografica.
Ovviamente, l’articolo non è esaustivo e non entra nel dettaglio di ogni tema, ma offre una mappa preziosa per non perdersi nell’hype e per orientarsi tra i vari livelli di maturità delle soluzioni agentiche. Fornisce inoltre ottimi spunti per approfondire ciascuna delle aree trattate.
E rimanendo sul tema delle applicazioni legate all’agentic AI, ti segnalo che qualche settimana fa Datapizza, un’azienda italiana che tra le altre cose costruisce applicazioni AI-driven, ha reso open source un proprio framework che cito, traducendo dal suo GitHub , è “Scritto in Python e pensato per le prestazioni. Un framework GenAI essenziale che porta i tuoi agenti dal dev alla produzione, rapidamente.” Se lo hai già provato, sono molto curioso di sapere cosa ne pensi 👀
👃Investimenti in ambito dati e algoritmi. Startup italiane: cresciamo sì, ma restiamo nani (anche rispetto alla Spagna)
Yoram Wijngaarde, founder e CEO di Dealroom, una piattaforma europea di intelligence sul mondo delle startup e degli investimenti, ha fatto, ai primi di ottobre a Torino, durante l’Italian Tech Week, un intervento decisamente interessante e piuttosto sintetico sull’ecosistema startup in Italia.
Se vuoi ascoltarlo integralmente, ne vale assolutamente la pena: lo trovi qui bastano poco più di 15 minuti (compresi alcuni minuti di noiosissima pubblicità).
In alternativa, se preferisci, puoi scaricare le 23 slide da qui.
A mio parere, i messaggi chiave su cui dovremmo riflettere sia come cittadini italiani sia come attori attivi del sistema dell’innovazione sono quattro, legati a quattro slide specifiche che ti riporto 👇
1️⃣ L’ecosistema italiano delle startup continua a crescere e ha raggiunto un valore aggregato (la somma dei valori delle aziende attive) di circa 60 miliardi di euro, con una buona continuità nel tempo.
2️⃣ Se però lo confrontiamo non con i valori americani, ma solo con quelli di alcune nazioni europee, facciamo comunque la figura dei nani, anche rispetto a Paesi molto simili a noi, come la Spagna.
3️⃣ E se poi confrontiamo il nostro PIL a livello europeo con le dimensioni delle startup, il quadro diventa ancora più imbarazzante 😬
4️⃣ Soprattutto perché è evidente che dovremmo allocare una parte molto più consistente delle nostre ricchezze alla crescita futura, e, in particolare, ai giovani e alle giovani aziende. E di questo, ne siamo tutti un po’ colpevoli: investitori e istituzioni comprese.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Diagrammi che parlano: i tool testuali che ti semplificano la vita
Molto probabilmente, nella tua vita professionale in azienda, ti sarà capitato di fare diagrammi di flusso, magari anche diagrammi di sequenza, più vicini alla progettazione di sistemi informatici. Personalmente, ho sempre trovato molto utile realizzarli, almeno per due motivi:
Per chiarirmi le idee a livello personale. Spesso, disegnare il diagramma ti mette davanti a cose che non avevi messo a fuoco o addirittura fa nascere idee o soluzioni da proporre.
Per comunicare meglio all’interno di team di sviluppo tecnico o anche con le persone coinvolte nel processo che si vuole ottimizzare.
Fino a qualche anno fa, per realizzare questi diagrammi non esistevano molti strumenti, e ancor meno erano open source o facili da usare. Negli ultimi anni, invece, c’è stata un’esplosione di tool, aperti o comunque gratuiti, che, grazie a un’interfaccia e a una sintassi testuale, rendono molto più semplice creare questi diagrammi. Francamente, la mia esperienza, negli anni passati, nell’usare strumenti di intelligenza artificiale generativa per questo tipo di attività non è stata molto soddisfacente. Il tutto principalmente per la necessità di mantenere questi progetti nel tempo in modo efficiente.
L’approfondimento che ti suggerisco oggi è una delle raccolte di strumenti per creare diagrammi più complete che abbia mai visto. È stata realizzata da un programmatore nerd inglese, Muhammad Usama, e contiene oltre 70 strumenti diversi!
Alla fine, la cosa più importante è sceglierne uno o due, impararne bene la sintassi e usarli con continuità: così l’esperienza di progettazione diventa facile, veloce e sostenibile nel tempo. Poi, se hai necessità di qualcosa di più grafico o funzionale, questa lista può davvero tornarti utile.
Personalmente uso, quando serve, proprio i due strumenti consigliati anche dall’autore del post:
👉 sequencediagram.org
👉 flowchart.fun
Ma mentre scorrevo la lista per condividerla con te, ho trovato divertenti anche:
🎨 asciigrid
🌀 textart.io/sequence
👀 Data Science. Vettori, Picasso e Transformer: Vicky Boykis ci porta dentro il mondo degli embeddings
Un embedding è una rappresentazione numerica (in genere un vettore) di un’entità (parola, frase, documento, immagine, ecc.) in uno spazio vettoriale. La dimensione dell’embedding è il numero di componenti (coordinate) del vettore: per esempio, un embedding “a 300 dimensioni” significa che stiamo rappresentando ogni elemento con un vettore di 300 numeri. Gli embedding sono il ponte tra simboli e calcolo: trasformano parole, immagini o eventi in vettori densi, dove la geometria riflette la semantica (vicinanza ≈ somiglianza, direzioni ≈ proprietà latenti). Senza questo spazio, l’attenzione dei Transformer, il cuore della rivoluzione delle generative AI, non avrebbe “materia” su cui operare: gli embedding forniscono coordinate compatte e continue che consentono generalizzazione e composizionalità (nuove frasi → posizioni coerenti nello spazio).
Questo era il tema dell’approfondimento che vi era piaciuto di più nel numero 71 della newsletter. In particolare, vi avevo segnalato come Vicky Boykis, una machine learning engineer, avesse redatto un documento strutturato su più livelli. Ti consiglio vivamente di iniziare da questa pagina, dove Vicky offre un’introduzione molto filosofica partendo da Picasso, per poi guidarti verso i capitoli più adatti alle tue esigenze e al tuo livello di conoscenza.
Nel frattempo, anche l’universo degli embedding e del loro utilizzo si è evoluto e Vicky Boykis ha scritto in un altro articolo del suo tech blog come e perché questo è successo. È fatto davvero molto bene, con esempi estremamente concreti. Buona lettura!
👅Etica & regolamentazione & impatto sulla società. No Days Off: quando la corsa diventa un progetto di dati che emoziona
Non basta avere i dati per creare visualizzazioni belle ed efficaci. E non serve nemmeno usare strumenti grafici complessi per comunicare un messaggio chiaro a partire da un dataset, che sia legato a un hobby, un lavoro o una passione.
Parto da affermazioni un po’ ovvie per presentarti un piccolo ma meraviglioso progetto di Adrien Friggeri. E per confessarti che, pur condividendo con lui la passione per la corsa, per i dati (anche quelli della corsa!) e per i messaggi che emergono leggendo bene quei dati… ho avuto un vero ah ah moment quando ho visto il suo progetto No Days Off.
Adrien lo racconta bene nell’incipit della storia:
“Non ho iniziato a correre fino alla fine dei miei vent’anni, e anche allora finivo sempre per seguire lo stesso schema: mi sentivo motivato, facevo un paio di corse, poi mi prendevo qualche giorno di pausa, un’altra corsa la settimana successiva… e prima che me ne rendessi conto era passato un mese dall’ultima volta che avevo corso. E così via, all’infinito. Nel luglio del 2015, qualcosa è cambiato
…
Correre ha cambiato la mia vita, e spero di continuare così anche per un altro decennio. Sono stato estremamente fortunato ad avere il sostegno della mia meravigliosa moglie, Molly, durante tutto questo percorso, non ce l’avrei mai fatta senza la sua pazienza. Quante volte avrà sentito dirmi al mattino “torno tra poco!”?”
Se anche tu corri come il sottoscritto, puoi facilmente immedesimarti nel progetto, nella raccolta meticolosa dei dati, e anche nella scelta, molto nerd ma accurata e, per certi versi, minimalista, dello stack tecnologico usato per visualizzarli. Il tutto con una bella interazione sui dati stessi, cosa mai banale.
A parziale mia (e forse tua) consolazione, Friggeri non è solo un data-lover: è un artista digitale a tutto tondo. Ti consiglio di dare un’occhiata al suo profilo per scoprire altre gemme preziose. Ma anche i progetti più belli, quando si lavora con i dati, possono nascondere delle ombre. Proprio nel progetto no days off c’è un piccolo (non piccolissimo) errore: una discrepanza tra aggregazioni diverse dello stesso dato. Se sei arrivato fino a qui, ti lascio il piacere della scoperta 😄
PS: non vorrei farti pensare che anche io, in stile Forrest Gump, abbia corso per 10 anni di fila senza fermarmi. Ma ti condivido qualche dato sulla mia corsa: tra 100 giorni saranno 20 anni di corsa quasi continuativa. “Quasi continuativa” significa che ho corso il 60% dei giorni (6 su 10), percorrendo poco più di 50.000 km, usando 58 paia di scarpe, di 11 tipologie diverse, di 5 produttori, in 18 nazioni, in 16 regioni italiane diverse… 🏃♂️📊
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!








