For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il novantunesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del novantunesimo numero:
👀 Data Science. Eugenia Anello: Bridging AI, Data Science, and Real-World Challenges
Presentati:
Eugenia Anello. Sono una data scientist. Lavoro ormai da due anni nel campo dell’intelligenza artificiale con esperienze in università, startup e aziende più grandi. Tra un’esperienza e l’altra, ho potuto lavorare in progetti di diversi settori: manifatturiero, assicurativo, immobiliare ed AI generativa. Gli aspetti che mi piacciono di più del mio lavoro sono la dinamicità e il mettermi alla prova con problemi di business sempre diversi. Oltre a queste esperienze, mentre ero studentessa, ho cominciato a scrivere articoli sulla Data Science su Medium. Da allora non ho più smesso. Mi ha permesso di avere la mente più aperta e flessibile, e ho potuto raggiungere tante persone della community
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10)
Questa è una bella domanda. Non è banale rispondere, soprattutto in tempi come questi dove c’è un rapido cambiamento tecnologico da quando c’è stato il boom di ChatGPT. Tuttavia, prevedo di continuare nel mio percorso come Data Scientist e scrittrice, enfatizzando la divulgazione. Recentemente ho iniziato a insegnare e questa esperienza mi sta arricchendo notevolmente. Rimango aperta a diverse possibilità, consapevole che il futuro può riservare percorsi inaspettati.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
La sfida più importante nel mondo dei dati e algoritmi oggi è sviluppare legislazioni per regolare l'uso dell'AI generativa. Sebbene ci sia molto entusiasmo per i recenti progressi in questo campo e stia portando molti benefici a tante persone, ci sono altrettanti rischi, come la violazione della privacy e l’uso di dati sensibili. Esempi di questi casi sono l’uso non autorizzato di dati personali in app di riconoscimento facciale e la raccolta di dati sensibili senza consenso in vari servizi online. Inoltre, l’uso improprio di immagini e video falsi generati dall’intelligenza artificiale contribuisce alla disinformazione, rendendo difficile la distinzione tra realtà e finzione. Un altro problema è l’allucinazione dei modelli generativi, che possono generare informazioni false. Solo una stretta collaborazione tra governi ed esperti può mitigare i potenziali danni ed assicurare la protezione dei dati personali.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a
meno …
Towards Data Science. L’ho scoperto durante gli studi universitari e da allora è diventato indispensabile. Questo blog si distingue per il suo approccio semplice, comprensibile e diretto alla tematiche della data science, aiutandomi a capire concetti complessi e rimanere aggiornata sui progressi dell’intelligenza artificiale. È un punto di riferimento grazie ai contributi di numerosi professionisti del settore, tra cui data scientist, data engineer e ricercatori. Esperti come Madison Hunter e Samuele Mazzanti condividono le loro esperienze pratiche attraverso articoli approfonditi.
Mi piacerebbe anche segnalarti Commit, la newsletter di Datapizza che ogni settimana propone un’analisi dettagliata delle ultime novità sul fronte dell’intelligenza artificiale, i video di StatQuest che hanno la la caratteristica di rendere comprensibili anche i modelli di Machine Learning più complicati, utilizzando illustrazioni semplici e intuitive. E ultimo ma non meno importante il libro Interpretable Machine Learning di Christoph Molnar, che tratta metodi come LIME (Local Interpretable Model-Agnostic Explanations) e SHAP (SHapley Additive exPlanations). Il libro mira a spiegare modelli di interpretibilità agnostici, che possono essere applicati a qualsiasi modello e vengono utilizzati dopo che il modello di machine learning è stato allenato.
PSS (Post scriptum di Stefano): Se ti sei incuriosito di quello che fa e scrive Eugenia ti consiglio di dare un’occhiata al portfolio di suoi progetti personali: veramente figo!
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Revolution in Strategy Consulting: Evolution or Endgame?
La generative AI ucciderà la consulenza strategica? Questa è la domanda e il titolo dell'approfondimento che ti consiglio oggi, scritto da Tim Smith, senior reporter di Sifted. Se non sei particolarmente curioso sull'argomento e desideri una risposta breve (e scontata), la risposta è: no, non la ucciderà, ma la trasformerà significativamente, riducendone probabilmente le dimensioni. Tuttavia, se non ti accontenti di una risposta un po' semplicistica, ti invito a leggere il post. È importante considerare che attualmente gli asset della consulenza strategica sono numerosi, e tra questi, gli asset relazionali (con il top management delle aziende) e la capacità di condividere esperienze tra e all'interno delle diverse industrie sono molto strategici e non sostituibili con gli attuali sistemi di intelligenza artificiale. È evidente che molte attività tipiche della consulenza, come dimostrato da uno dei migliori studi sul tema che ti ho già segnalato, sono fortemente facilitate dalla generative AI. Di conseguenza, queste attività subiscono una pressione sui costi e stanno diventando sempre più una commodity. Nell'articolo si menzionano una serie di strategie che McKinsey e Bain, in particolare, hanno adottato negli ultimi anni per contrastare questo fenomeno, cercando di posizionarsi più in basso nella catena del valore su temi di strategia più operativi e anche su progetti di implementazione di quello che raccomandano nei loro famosissimi powerpoint. Sono personalmente convinto, come sottolinea Richard Karlsson, uno degli intervistati nell'articolo, che “le aziende più grandi saranno sempre più sotto pressione da parte di società di consulenza più piccole e specializzate, capaci di offrire servizi competitivi a un prezzo inferiore... Se si considera solo l'aspetto della ricerca, le grandi aziende hanno centinaia di persone e le piccole aziende non hanno le stesse risorse, ma l'intelligenza artificiale sta decisamente cambiando le carte in tavola... questo sposterà sicuramente l'equilibrio del settore. Le aziende più piccole avranno le stesse capacità di ricerca delle grandi aziende e ne trarranno sicuramente un vantaggio”.
Ma come dice Nassim Taleb nel suo celebre saggio “Il cigno nero”, la storia non striscia ma salta, e anche per la consulenza strategica, la generative AI potrebbe rappresentare qualcosa in più di un semplice cambiamento graduale in corso!
🖐️Tecnologia (data engineering). Tuning In: The Art of Customizing AI Language Models
La personalizzazione dei modelli linguistici alla base della generative AI (LLM) può essere vista come un continuum di tecniche che vanno da modifiche relativamente semplici e di basso costo a metodi più complessi e costosi. Oggi approfondiremo una di queste tecniche: il fine tuning. Per iniziare, ecco un riepilogo sintetico (e non troppo rigoroso) delle varie tecniche, partendo dalle più semplici:
Prompt Engineering: La tecnica più diretta e meno costosa. Si tratta di strutturare i prompt in un modo che guidino il modello LLM a generare le risposte desiderate, senza modifiche persistenti al modello stesso. Richiede una buona comprensione di come il modello risponda a vari input.
Few-Shot Learning: Questo metodo implica presentare al modello alcuni esempi per guidarlo su come rispondere a un certo tipo di domanda. Non richiede un addestramento specifico, ma si utilizzano esempi contestuali per "istruire" in maniera temporanea, cioè all’interno della sessione, il modello.
Fine-Tuning: Il fine-tuning implica un addestramento specifico e persistente del modello su un set di dati mirato. Il modello LLM preesistente viene ottimizzato ulteriormente per specifiche esigenze. Questo richiede più risorse, poiché il modello viene riaddestrato su nuovi dati.
Reinforcement Learning with Human in the Loop (RLHL): Questo approccio integra il feedback umano diretto nel processo di addestramento. Gli umani valutano le risposte del modello, e queste valutazioni vengono utilizzate per migliorarne ulteriormente le prestazioni.
Addestrare Modello da Zero, da uno Preesistente o attraverso Transfer Learning: Questi metodi, i più complessi e costosi, offrono la massima personalizzazione. Creare un modello da zero richiede enormi risorse, mentre modificare un modello preesistente o utilizzare il Transfer Learning implica adattare un modello esistente per un compito specifico.
Il fine-tuning è il più semplice tra i metodi elencati che modifica il modello in maniera persistente e che richiede un’interazione con il codice, generalmente attraverso l’uso di API. Spesso mi sono fermato prima del fine-tuning, ma ho sperimentato e utilizzato LLM sottoposti a questo processo. A volte, su progetti complessi, può valerne la pena, anche se valutare le performance in maniera oggettiva può essere sfidante. Se sei interessato a saperne di più sul fine tuning, ti consiglio questo post di OpenAi, dove spiegano i casi d'uso adatti all'ultima release di GPT-3.5 Turbo fine-tuning (con le relative API). Oltre a esempi e dettagli tecnici, troverai utile il loro racconto sull'esperienza nella beta privata con alcuni clienti prima di questo rilascio. Ecco i principali vantaggi del fine tuning nell’ultima versione presentata da OpenAI, citati dall'articolo:
Migliorata capacità di direzionamento (della risposta): Permette una risposta più precisa, ad esempio in una lingua specifica.
Formattazione affidabile dell'output: Migliora la coerenza nel formattare le risposte, cruciale in applicazioni come il completamento del codice o la composizione di chiamate API.
Tono personalizzato: Il fine-tuning è un ottimo modo per perfezionare la qualità del tono dell'output del modello, in modo che si adatti meglio alla voce del marchio delle aziende. Un'azienda con una voce di marca riconoscibile può utilizzare il fine-tuning affinché il modello sia più coerente con il suo tono.
Maggiore efficienza tecnica ed economica: Riduce la dimensione dei prompt e i costi, grazie alla capacità di gestire più token in ingresso.
E se vuoi approfondire ulteriormente Massimiliano Nicotra nella sua ultima newsletter racconta usi specifici del fine tuning in ambito legale.
👃Investimenti in ambito dati e algoritmi. From North to South: Unpacking Europe's Natalité Nosedive
Il tasso di natalità rappresenta un indicatore cruciale per comprendere l'evoluzione socio-economica a lungo termine di un'area, che si tratti di una regione, una nazione o un continente. Questo parametro è particolarmente significativo oggi in Europa ed è legato strettamente a strategie di investimenti di medio-lungo periodo insieme a considerazioni strategiche sull’utilizzo che faremo dell’intelligenza artificiale. Nell’approfondimento che ti consiglio oggi: una data-story ben realizzata, viene ben evidenziato come la natalità in Europa stia calando drasticamente anche nei paesi nordici. L'articolo del European Data Journalism Network (EDJNet) mostra, attraverso dati storici, come il tasso di natalità sia ai minimi in Europa del Sud, con Spagna e Italia in fondo alla lista, e come stia calando rapidamente anche nel Nord Europa. L'articolo non identifica cause precise, ma ipotizza correlazioni con fenomeni attuali. Ad esempio, l'incertezza economica e il supporto alla gestione familiare sembrano influenzare fortemente il tasso di natalità: si veda a questo proposito il caso positivo, in Europa, della Francia. È sorprendente notare che l'immigrazione offra una soluzione solo temporanea: gli immigrati tendono a 'adeguarsi' al tasso di natalità del paese ospitante una volta integrati. L'articolo offre altre intuizioni interessanti, anche specifiche per ogni nazione.
Il trend è così marcato e le conseguenze così difficili da prevedere, in quanto è la prima volta nella storia economica umana che osserviamo un fenomeno simile, che merita un'osservazione attenta e azioni politiche adeguate. Come investitore, pensando alle recenti evoluzioni nell'intelligenza artificiale, ritengo che in alcuni settori, come l’healthcare, queste tecnologie non saranno solo un supporto alla produttività, ma diventeranno una necessità per garantire un livello di servizio almeno pari all'attuale. In questo senso, gli AI assistant, in qualsiasi campo, rappresenteranno un settore di crescente interesse, strettamente legato al tasso di natalità e a quello di longevità! E se vuoi vedere la tua posizione nel mondo in numeri e date questo sito ti fornisce informazioni interessanti e una prospettiva diversa relativa a natalità e longevità a seconda dell’area del mondo attraverso la quale guardi i tuoi dati 🙂
👅Etica & regolamentazione & impatto sulla società. Beyond Lombroso: Unveiling Behavioral Traits with Genetics and AI
Che le teorie di Cesare Lombroso, criminologo e antropologo italiano vissuto tra il XIX e il XX secolo, non fossero corrette non te lo devo certo dire io in questo spazio della newsletter. Lombroso credeva che, misurando con precisione diversi tratti fisici di un individuo, si potesse riconoscere la sua innata propensione al crimine. L’approfondimento di oggi, però, mira a smontare questo approccio in maniera molto data-driven e va oltre, indagando l'impatto di genetica e ambiente sui tratti comportamentali delle persone. Ti suggerisco, a questo proposito, un articolo pubblico di Peter Attia che discute uno studio pubblicato su Cell Reports. Lo studio ha analizzato il DNA di 32 coppie di sconosciuti non imparentati che condividono una notevole somiglianza fisica nel viso, rilevata tramite algoritmi di riconoscimento facciale. Analizzando regioni specifiche del genoma, lo studio ha identificato loci genetici significativamente simili tra i sosia, molti dei quali correlati allo sviluppo craniofacciale. Questi risultati mostrano come una piccola sovrapposizione genetica possa tradursi in evidenti somiglianze fisiche tra individui non imparentati. Tuttavia, è stato anche rilevato che microbioma e tratti epigenetici differiscono notevolmente, e che abitudini comportamentali come il consumo di alcol sono influenzate soprattutto dalla cultura e dall'ambiente. In conclusione, lo studio suggerisce che, pur condividendo più DNA legato all'aspetto facciale con un sosia rispetto a una persona a caso, non si dovrebbe presumere che questa somiglianza fisica si rifletta in una maggiore similitudine in intelligenza o stile di vita. Rimangono chiaramente interrogativi, soprattutto riguardo al piccolo campione utilizzato, ma la metodologia, con l'analisi del DNA in primis, resta molto interessante e apre la strada a ulteriori approfondimenti sempre più guidati da dati e algoritmi, dimostrando anche che questi possono essere usati per sfatare bias umani radicati nel tempo!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!