For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il novantaduesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Prima di cominciare visto che Natale si avvicina e non è sempre facile trovare il regalo giusto ti segnalo alcuni libri che ho scritto o a cui ho collaborato recentemente che potrebbero essere una strenna last minute per un data-expert o per un aspirante tale:
“In principio era ChatGPT: Intelligenze artificiali per testi, immagini, video e quel che verrà” scritto da
e e in cui ho scritto la prefazione.“Data Culture” la versione aggiornata e tradotta in inglese del libro scritto con
. Da oggi fino al 24 dicembre lo trovi in sconto natalizio (-20% sul prezzo originale)“La Cultura del Dato”: l’edizione italiana scritta con
per Franco Angeli da cui si può dire sia nata questa newsletter.“#Ai Expert - architetti del futuro” scritto nel 2019 con Alessandro Giaume e per molti versi ancora decisamente attuale.
Ecco i cinque spunti del novantaduesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Data Scientists and AI: A Partnership for the Future?
I data scientist verranno sostituiti dalle intelligenze artificiali generative? Questa domanda, ad eccezione dell'aggettivo 'generative', che rappresenta un trend più recente, è stata sollevata da diverso tempo. Me l'hanno posta personalmente in numerosi eventi, tanto che due anni fa, durante la prima stesura di 'La Cultura del Dato',
David Andrés, data scientist con vasta esperienza pratica nel settore e un solido background accademico, ha guidato vari progetti di trasformazione in ambito data science, concentrandosi in particolare su problemi legati alle serie temporali. Dai un’occhiata anche al suo blog e a ! Nel post che ti consiglio oggi descrive tre scenari possibili per la figura del data scientist:
LLM as a Tool: sebbene gli LLM siano strumenti preziosi, i data scientist li utilizzeranno occasionalmente per migliorare l'efficienza, gestendo più compiti efficacemente.
Data Scientists Guiding LLMs: gli LLM potranno svolgere la maggior parte del lavoro, compreso l'addestramento dei modelli, ma l'esperienza dei data scientist rimarrà cruciale. Guideranno gli LLM suggerendo feature rilevanti, fornendo dati e verificando i risultati.
The Future of Data Scientists in an LLM-Dominated World: Gli LLM svolgeranno molti compiti tradizionali dei data scientist, dall'addestramento dei modelli alla gestione dei dati. Ciò potrebbe richiedere ai data scientist di orientarsi verso ruoli più vicini ai data engineer.
Immagine generata da DALL-E usando come prompt (in Chat-GPT4) il testo di questa sezione della newsletter
L'opinione dei follower di Andrès su Twitter si divide per il 55% a favore della prima ipotesi, il 35% per la seconda e solo il 10% per la terza. Temo che possa essere un'audience fortemente polarizzata. Attualmente, secondo me, ci troviamo nel primo scenario, ma ci stiamo muovendo verso il secondo, ponendoci a medio-lungo termine tra il secondo e il terzo. Ne riparleremo, spero, verso la millesima puntata de 'LaCulturaDelDato' 😀. Vedo possibile nel prossimo futuro una biforcazione del ruolo del data scientist: da una parte, compiti più vicini a quelli del data engineer, rafforzando le fila dei machine learning engineer, e dall'altra, ruoli di leadership sempre più rilevanti nel business.
Il cambiamento non riguarderà solo il data scientist, ma tutte le aree aziendali. Se vuoi studiare come guidare l'intera azienda in questo processo, ti consiglio caldamente l'articolo del Harvard Business Review: 'Reskilling in the Age of AI', che presenta cinque nuovi paradigmi per i leader e per chi vuole rimettersi in gioco. Infatti come scrive Jason Cohen in questo approfondimento specifico, il cambiamento è gradito soprattutto quando non ci tocca direttamente perché il cambiamento 'è dannato se lo fai, più dannato se non lo fai!'
🖐️Tecnologia (data engineering). From Programmer to Pioneer: Simon Willison's Insights on LLMs
“One file is all you need” recita il paragrafo finale di questo post di Simon Willison che ti suggerisco di leggere e di seguire passo passo se vuoi installare sul tuo PC LLaVA 1.5, un LLM multimodale (simile a GPT-4 Vision) fine tuned su Llama 2. “Mettete il file su una chiavetta USB e nascondetelo in un cassetto come assicurazione contro una futura apocalisse. Non sarete mai più senza un LLM.!” Non è chiaramente potente come GPT-4 ma l’ebbrezza di far girare un LLM sul proprio PC è impagabile. Altrettanto memorabili sono questi quasi 40 minuti sempre di Simon Willison in cui al North Python Bay 2023 racconta la recente storia dei Large Language Model ad un pubblico di sviluppatori con la passione, l’autorevolezza e l’originalità con cui solo una storico programmatore come lui sa fare.
Ti lascio questa slide come sintesi “estrema” dell’intervento ma oltre al video, nel post che ti ho segnalato, trovi le slide usate con tanti utilissimi link se vuoi approfondire specifici argomenti trattati da Simon.
👀 Data Science. Navigating the Data Maze: Understanding Causality vs Correlation
“Correlation is not causation” è una frase che si sente spesso nel mondo dell’analisi dei dati. Ma proviamo ad andare un filo oltre…
L'inferenza statistica e l'inferenza causale sono due approcci fondamentali nell'analisi dei dati, ma con obiettivi e metodi distinti. L’inferenza statistica si concentra sull'analisi delle relazioni tra variabili, spesso per fare previsioni o per comprendere le correlazioni. Ad esempio, analizzando dati di vendita, l'inferenza statistica potrebbe rivelare una correlazione tra la pubblicità sui social media e l'aumento delle vendite. Tuttavia, non può stabilire che la pubblicità sia la causa diretta dell'aumento delle vendite.
L’Inferenza Causale, invece, va oltre la correlazione per esplorare le relazioni causa-effetto. Utilizzando lo stesso esempio, cerca di stabilire se e in che misura la pubblicità sui social media causa effettivamente un aumento delle vendite.
In breve, mentre l'inferenza statistica può indicare che due variabili sono collegate, l'inferenza causale cerca di dimostrare se una variabile effettivamente influisce sull'altra.
L’approfondimento che ti suggerisco oggi è proprio legato all’inferenza causale, una disciplina un po’ dimenticata dai datascientist almeno fino alla metà dello scorso decennio, come racconta Dzidas Martinaitis nel suo post. Martinaitis, senior datascientist di Amazon e esperto dell’argomento, parte dalla definizione di causal inference e descrive concretamente alcuni esempi, poi fa una carrellata dei principali metodi usati per comprendere la causalità dei fenomeni, non limitandosi alla semplice correlazione.
Nella mia esperienza, soprattutto in ambito aziendale, comprendere (almeno in parte) la causalità dei fenomeni quando si fanno investimenti consistenti in risorse umane ed economiche, o anche nel “semplice” decision making personale, può avere un valore molto elevato. Martinaitis, alla fine del post, consiglia anche diverse risorse per approfondire la tematica, a partire dal bellissimo libro di Judea Pearl & Dana Mackenzie, “The Book of Why”, che mi sento di consigliarti. Per quanto riguarda le tecniche che ho usato personalmente o che sono state usate dai team di data scientist che ho guidato o con cui ho lavorato, mi sento di spendere parole positive, in ordine di complessità crescente, sui Causal graphical models, DoWhy e CausalML. Se vuoi approfondire come lo abbiamo applicato tecnicamente in Nexi, puoi vedere il talk fatto a Codemotion 2021 da
👃Investimenti in ambito dati e algoritmi. European Tech Ecosystem: Analyzing Venture Capital Dynamics
Lo 'State of European Tech' è sicuramente il miglior report annuale pubblico sugli investimenti di venture capital nel mercato europeo, sia per la profondità di analisi che per la varietà degli argomenti trattati. Ho una buona notizia per te: pur mantenendo intatta la qualità, si è accorciato in dimensioni. Quest'anno è 'solo' di 258 pagine, contro le 484 dell'anno scorso, e la leggibilità è ulteriormente aumentata. Ti avevo parlato in maniera dettagliata di questo report anche lo scorso anno e ti rimando a ciò che avevo scritto sia per le modalità di lettura che per confrontare la nuova edizione con la sintesi fatta nel 2022. L'executive summary rimane comunque il miglior modo per non perderti nulla di significativo. Se sei un operatore del settore, credo valga la pena leggerlo integralmente. Come lo scorso anno, ti fornisco i 10 messaggi che emergono dallo studio 2023 che ritengo più interessanti, con tutti i bias del mio giudizio personale e dei miei interessi. Eccoli:
1. Il livello di investimenti in Europa, rispetto ai picchi del 2021, è crollato (più che dimezzato) come nel resto del mondo, ma nel nostro continente si è mantenuto nel 2023 sopra i livelli del 2020, a differenza di tutte le altre regioni.
2. I ritorni del Venture Capital sono stati nel breve termine (1 anno) negativi, diversamente dal mondo dei private equity e delle borse. Ma era prevedibile, vista la drastica riduzione di multipli e valutazioni negli ultimi 18 mesi.
3. Continua a diminuire la percentuale di investimenti americani nel venture capital europeo. Essendo quest'ultimo in relativa crescita (vedi punto 1), questo segnale non è necessariamente negativo.
4. È significativo che una delle maggiori preoccupazioni degli investitori europei sia l'eccessiva regolamentazione europea. Riuscirà l'AI Act a smentire questa paura?
5. Il valore totale dell'ecosistema Tech Europeo è risalito al picco del 2021, ri-toccando i 3 Trillion, ma l'impatto della crescita delle borse è preponderante rispetto alle valutazioni delle aziende private.
6. Si assiste a un ritorno degli investimenti su problemi più 'difficili' e di valore, con una significativa crescita degli investimenti nei settori Energy & Health. Ancora troppo bassi, a mio giudizio, quelli sull'Edtech, dove il ROI è più complesso da ottenere.
7. L'intelligenza artificiale, trasversalmente a tutti i segmenti industriali, domina come tema di investimento anche sulla scena europea.
8. L'Europa, e anche l'Italia nel suo piccolo, hanno un saldo attivo di talenti in termini di arrivi e partenze.
9. I dati sugli investimenti italiani sono poco confortanti in assoluto (10° posto come ecosistema dopo la piccola Danimarca) e sconfortanti se considerati in numero e valore rispetto alla grandezza del paese: praticamente in ultima posizione tra i 30 paesi europei considerati.
10. Last but not least, una sezione dedicata al (grande) impatto sull'ecosistema dell'innovazione che Skype e i suoi Alumni hanno avuto negli ultimi 20 anni in Europa. Chiaramente, il fatto che la leadership del report sia di Atomico, VC europeo fondato da Niklas Zennstrom, imprenditore seriale e co-fondatore di Skype, ha il suo peso in questa sezione. Tuttavia, le considerazioni restano di grande valore, soprattutto per i policy makers.
Il quadro che emerge è sostanzialmente incoraggiante per l'Europa e, in certa misura, per l'Italia, ma la velocità di miglioramento è, a mio giudizio, limitata dalla frammentazione europea dal punto di vista socio-politico.
👅Etica & regolamentazione & impatto sulla società. Navigating Innovation: Unpacking the European Innovation Scoreboard 2023
"La mappa non è il territorio" – questa frase, pronunciata per primo nel 1931 da Alfred Korzybski, ingegnere e filosofo polacco-americano, cito da Wikipedia, “sottolinea l'importanza di distinguere tra simboli e le realtà che rappresentano”; un concetto ben espresso, due anni prima, anche da Renè Magritte nel suo "tradimento delle immagini". Ti parlo di questo per introdurre la European Innovation Scoreboard 2023, una mappa ben realizzata dell'innovazione europea, che copre molti aspetti e offre comparazioni approfondite nel tempo e tra diverse nazioni e regioni.
È vero, è solo una mappa, ma in un mondo complesso come il nostro, trovare orientamento senza di queste è arduo. E queste mappe, ricche di dati, sono incredibilmente utili. Se preferisci non leggere il report completo, l'executive summary è ben fatto, ma perderesti i dettagli e la comprensione di come l'innovazione è misurata in vari ambiti.
A livello macro, non ci sono grandi sorprese per il nostro paese, che si posiziona 16° su 27 nazioni europee con uno score 2023 di 90.3, quasi 10 punti sotto la media europea. I trend italiani sono in chiaro scuro, con un positivo 2016-23 ma un preoccupante decremento nel 2023 rispetto al 2022. Ti suggerisco di guardare oltre la "tirannia della media" e esplorare pagina 66, dove troverai i dettagli della scorecard italiana, particolarmente utili per un'analisi approfondita, specialmente dell'ultimo anno.
Un dato che mi colpisce particolarmente, in qualità di italiano e appassionato di formazione, è il nostro deficit nella formazione delle persone. Abbiamo risultati negativi, anche relativamente agli altri paesi europei, nel numero di ricercatori, di laureati e nel parametro del lifelong learning.
Tornando alla metafora iniziale, se la mappa non è il territorio, allora l'analisi dei dati (qui, la scorecard) non è il decision making (in questo caso policy making) che invece dovrebbe concretamente migliorare la situazione dell'innovazione in Italia. Nessuna analisi, per quanto sofisticata, può sostituire l'azione, in qualsiasi organizzazione, grande o piccola.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!