LaCulturaDelDato #176
Dati & algoritmi attraverso i nostri 5 sensi
For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centosettantaseiesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
🚀 Questa puntata è sponsorizzata da “Data Masters”
Nel 2025 il mercato del lavoro legato all’Intelligenza Artificiale e alla Data Science si trova nel pieno di una trasformazione senza precedenti. Secondo l’ultimo report su AI & Data Skills dell’Osservatorio Data Masters, oltre il 60% delle competenze esistenti sarà obsoleto o da aggiornare entro il 2030. La richiesta di profili come Machine Learning Engineer, Data Analyst e Python Developer cresce, ma è accompagnata da un diffuso mismatch tra le competenze richieste e quelle effettivamente disponibili sul mercato. Il report evidenzia anche un incremento significativo delle retribuzioni per chi possiede skill emergenti come PyTorch, TensorFlow, LangChain e MLOps, con differenziali che superano i 6.000 euro annui rispetto ai ruoli non specializzati in AI. Tuttavia, il gap non è solo tecnico: il 66% degli annunci che richiedono Machine Learning comprendono anche problem solving e pensiero analitico, a conferma del crescente valore delle competenze ibride.
Di fronte a questo scenario, Data Masters ha creato i nuovi Percorsi di Carriera, progettati per guidare professionisti e aspiranti data expert in un’evoluzione strutturata e aggiornata delle proprie competenze. I percorsi uniscono formazione tecnica avanzata, strumenti pratici e mentoring continuo, e sono pensati per ruoli chiave come Data Scientist, Data Analyst, AI Developer e molti altri. Ogni programma è costruito per adattarsi all’evoluzione del mercato e anticipare le skill emergenti.
I partecipanti potranno:
Affrontare un percorso chiaro per accedere o crescere nei ruoli tech più richiesti
Costruire competenze aggiornate su linguaggi, framework e tecniche di frontiera
Misurare in modo oggettivo le proprie competenze attraverso assessment continui, benchmark di mercato e feedback personalizzati
Colmare il divario tra teoria e pratica con project work, sfide e simulazioni reali
Accedere a un ecosistema di esperti e mentor per orientare lo sviluppo di carriera
I Percorsi di Carriera sono rivolti a chi vuole posizionarsi come professionista del dato, con una visione strategica, interdisciplinare e orientata all’innovazione. Una risposta concreta all’esigenza di competenze che si evolvono continuamente.
Scopri i percorsi disponibili
Data Masters è una Tech Academy italiana che offre percorsi di formazione per professionisti ed aziende in Data Science, Machine Learning e Intelligenza Artificiale.
Ecco ora i cinque spunti del centosettantaseiesimo numero:
👃Investimenti in ambito dati e algoritmi. Matt Wood e l'apertura di utilità: il modello per capire se una tecnologia spacca o si sgonfia?
Uno degli articoli che mi ha colpito di più negli ultimi mesi e che ti propongo di approfondire oggi è quello scritto qualche tempo fa da Matt Wood, Chief Technology & Innovation Officer di PwC. Wood parte da un’osservazione semplice ma potente: alcune tecnologie, man mano che le esploriamo, moltiplicano i casi d’uso; altre, al contrario, si restringono.
Wood chiama questa dinamica “apertura di utilità” e sostiene che la traiettoria, in espansione o in contrazione, di tale apertura determina successo industriale, hype, finanziamenti e rendimenti. Secondo Wood, le tecnologie destinate ad aprirsi mostrano valore concreto entro i primi 24-36 mesi di sperimentazione in azienda; chi non lo fa, di solito si chiude.
Il punto chiave, quindi, è proprio l’apertura di utilità. Ci sono tecnologie con un’apertura in espansione: ogni avanzamento tecnico fa emergere nuovi scenari applicativi, creando un ciclo virtuoso di curiosità ➜ sperimentazione ➜ proof of value ➜ capitale. Per altre, invece, limiti tecnici, economici o di mercato svelano presto un set di casi d’uso più ristretto del previsto, e l’attenzione (e il capitale) tende a concentrarsi su nicchie.
Generative AI, cloud computing e Internet rientrano nel primo gruppo; blockchain e stampa 3D, per esempio, nel secondo.
Il post di Wood non è (solo) una riflessione teorica: offre un modello operativo per decidere dove investire capitale, tempo e talento. In un mercato in cui l’AI macina record di funding mentre concetti come metaverso o VR arrancano, capire l’apertura di utilità può aiutarti a distinguere segnali da rumore e a costruire strategie di portafoglio più resilienti.
Ricorda però che i modelli, in quanto tali, sono tutti sbagliati nel predire in dettaglio il futuro, ma sono utilissimi per disegnare futuri possibili e cercare di orientarti verso quelli preferibili. Sono anche preziosi come framework per riflettere soprattutto su come distribuire, in quest’ordine di priorità, il tuo tempo, la tua attenzione e le tue risorse economiche.
Buona riflessione e, come sempre, dati alla mano. 📊
🖐️Tecnologia (data engineering). Dorsey lancia un agente AI: cosa può fare (davvero) GOOSe?
Devo confessarti che ero in dubbio se inserire in questa sezione l’approfondimento di uno strumento interessante che sto provando da qualche settimana, ma che mi sembra ancora un po’ immaturo. Poi ho pensato: tutti parlano (e fanno slide) di agenti e del loro impatto sul futuro della produttività e del lavoro, ma pochi hanno davvero sperimentato lo stato dell’arte e la loro utilità su attività specifiche.
Il progetto GOOSe si definisce un agente AI open-source. È stato sviluppato da Block, l’azienda fondata da Jack Dorsey (quello di Twitter e Square). Lanciato nei primi mesi del 2025, GOOSe si propone come assistente intelligente per automatizzare attività complesse: dalla scrittura e debugging del codice, alla gestione di workflow e interazione con API esterne. La sua forza è l'architettura modulare basata su estensioni, che permette agli sviluppatori di personalizzare l'agente AI secondo le proprie esigenze. Queste estensioni sono costruite utilizzando il Model Context Protocol (MCP), un protocollo open standard sviluppato da Anthropic. MCP consente agli agenti AI di interagire in modo sicuro e standardizzato con strumenti esterni: GitHub, Jira, Google Drive e molti altri, facilitando l'integrazione e l'automazione dei processi.
GOOSe è disponibile sia come applicazione desktop sia come interfaccia a riga di comando (CLI), offrendo flessibilità nell’uso e nell’integrazione nei flussi di lavoro esistenti. La sua natura open-source, con licenza Apache 2.0, favorisce interoperabilità e innovazione, permettendo alla community di sviluppatori di contribuire attivamente alla sua evoluzione 🚀
Come scrivevo nel numero scorso, già oggi usando ChatGPT o Anthropic abbiamo un’esperienza che va oltre l’uso degli LLM: si integrano con diversi strumenti (e intelligenze) in maniera trasparente. Ho trovato molto interessante in GOOSe la possibilità di utilizzare in un progetto diversi modelli: sia closed source che open source, questi ultimi anche con la possibilità di farli girare in locale. Restano comunque presenti diversi bug e l’integrazione delle API di OpenAI non è sempre fluida, per via della configurazione e dell’uso dello stesso GOOSe.
Resta uno strumento da tenere d’occhio: sia per provare l’esperienza concreta di usare un framework ad agenti, sia per l’evoluzione e il seguito che il progetto sta già raccogliendo.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Strade, nomi e pregiudizi: cosa ci racconta Mapping Diversity sull’Europa
Oggi che il tema della diversity, all’interno di molte organizzazioni, non è più di moda, credo sia ancora più importante riproporre un progetto molto data-driven che era stato l’approfondimento più apprezzato nella puntata 55. Nel frattempo, il sito/progetto si è ulteriormente arricchito di contenuti e dati.
Parlo di Mapping Diversity, una piattaforma che mira a far emergere i fatti chiave sulla diversità e la rappresentanza nei nomi delle strade in Europa, in 32 grandi città distribuite in 19 Paesi diversi. Quello che emerge dal progetto è che oltre il 90% delle strade intitolate a persone sono dedicate a uomini bianchi. Come sintetizza la homepage del progetto: “La mancanza di diversità nella toponomastica è indicativa del nostro passato e contribuisce a plasmare il presente e il futuro dell'Europa.”
Mi piace per due motivi. Il primo è la grafica: accattivante e adatta a favorire una lettura chiara dei dati e uno storytelling efficace. Il secondo è che, grazie alle diverse dimensioni di lettura dei dati, riesce a descrivere molto bene il fenomeno su scala geografica, storica e culturale.
Purtroppo i numeri italiani non sono super positivi: la presenza femminile è in media del 9,2%, meno della metà della virtuosa Stoccolma, che guida la classifica di tutte le città con un 19,5%. Una consolazione parziale è sapere che proprio dall’Italia è nato il prototipo di questo progetto, ed è fatto davvero bene anche quello! 🙂
👀 Data Science. RCT: un metodo scientifico importante, ma non sempre applicabile
Un Randomized Controlled Trial (RCT) è uno studio sperimentale in cui i partecipanti vengono assegnati in modo casuale (randomizzati) a uno o più gruppi di trattamento o di controllo. È considerato il gold standard della ricerca clinica perché è progettato per identificare una relazione causale tra un intervento e un risultato, riducendo al minimo bias e variabili confondenti.
L’approfondimento che ti propongo oggi è una riflessione sul tema di Peter Attia, uno dei più importanti medici e divulgatori al mondo sul tema della longevità. Attia mette a fuoco importanza e limiti degli RCT, che restano fondamentali per stabilire la causalità di un intervento, ma che non sempre sono applicabili o eticamente realizzabili, soprattutto nella ricerca sulla longevità (la cosiddetta Medicine 3.0, centrata su prevenzione e personalizzazione).
I limiti descritti nell’articolo sono particolarmente evidenti negli studi sulla longevità. Per esempio, non possiamo assegnare persone a comportamenti notoriamente nocivi (es. fumare) o privarle di quelli benefici (es. fare esercizio fisico). Inoltre, il blinding, cioè rendere i partecipanti ignari del gruppo (di trattamento o di controllo) a cui appartengono, è complicato: in interventi come dieta o allenamento è impossibile “nascondere” ai partecipanti a quale gruppo appartengano. Questo può introdurre effetti placebo o bias comportamentali. Anche le interazioni tra variabili sono complesse: molti fattori (dieta, esercizio, sonno…) si influenzano a vicenda, mentre gli RCT tendono a testare singole variabili in isolamento.
Sebbene RCT (Randomized Controlled Trial) sia il termine standard in medicina e nelle scienze sperimentali, esistono tecniche analoghe in altre discipline che applicano gli stessi principi per isolare una variabile e capirne l’impatto. Una su tutte è l’A/B testing, che, in sostanza, è una forma di RCT “snellita” e adattata al mondo digitale. Il principio scientifico resta identico: confrontare due (o più) condizioni in modo casuale per capire quale funziona meglio, isolando il più possibile gli effetti causali.
Capire la causalità è uno degli obiettivi più difficili e affascinanti di tutta la data science. Se vuoi approfondire durante l’estate, ti consiglio caldamente il popolarissimo The Book of Why di Judea Pearl e Dana Mackenzie. 📚
👅Etica & regolamentazione & impatto sulla società. 3307 valori: il lavoro (immenso) di Anthropic sui giudizi delle IA
“Le persone non chiedono alle IA solo risposte a equazioni o informazioni puramente fattuali. Molte delle domande che pongono costringono l'IA a esprimere giudizi su valori. Ecco alcuni esempi: Un genitore chiede consigli su come prendersi cura di un neonato. La risposta dell'intelligenza artificiale enfatizza i valori della prudenza e della sicurezza oppure quelli della convenienza e della praticità? Un lavoratore chiede suggerimenti su come gestire un conflitto con il proprio capo. L'IA favorisce l’assertività o la ricerca dell’armonia sul posto di lavoro? Un utente chiede aiuto per scrivere un’e-mail di scuse dopo aver commesso un errore. La risposta punta sulla responsabilità o sulla gestione della reputazione? In Anthropic abbiamo cercato di modellare i valori del nostro modello di intelligenza artificiale, Claude, per mantenerlo in linea con le preferenze umane, renderlo meno incline a comportamenti pericolosi e, in generale, farne, in mancanza di un termine migliore, un “buon cittadino” del mondo. In altre parole, vogliamo che Claude sia utile, onesto e innocuo.”
Comincia così una delle ricerche più importanti del team di Anthropic, uscita recentemente su aspetti meno “business-oriented”, dal titolo: "Valori in libertà: come emergono e vengono analizzati nei dialoghi reali con i modelli di linguaggio".
Siamo un po’ ossessionati da come le AI generative possano o meno aumentare la produttività nelle nostre organizzazioni. Infatti non ho visto commenti altrettanto numerosi per questo report rispetto a quelli che il team di ricerca di Anthropic ha avuto dopo la presentazione del Economic Index.
Devo dire che non è solo interessante leggere l’articolo principale, ma anche il paper collegato e soprattutto il lavoro di tassonomia dei 3307 valori classificati, disponibile su Hugging Face in modalità open source.
Non ci sono conclusioni né certe né definitive, e credo siano ancora più stimolanti le domande che emergono dallo studio rispetto alle risposte. Se devo scegliere una parte che mi sta facendo ancora riflettere vado su questa: “Abbiamo riscontrato che, quando un utente esprime determinati valori, il modello ha una probabilità sproporzionata di rispecchiarli: ad esempio, ripete i valori di “autenticità” quando l'utente ne parla. A volte il rispecchiamento dei valori è del tutto appropriato e può rendere l'interlocutore più empatico. A volte, però, si tratta di pura adulazione. Da questi risultati, non è chiaro quale sia l'uno e quale l'altro.”
Ma non voglio rubarti altro tempo alla lettura. Buone domande e buone riflessioni! ✨
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!



