For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il settantunesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del settantunesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Bridging Data, Science, Business, and Innovation: A Journey with Luca Foresti
Presentati: Luca Foresti. Dal 2010, ricopro il ruolo di Amministratore Delegato del Centro Medico Santagostino. Ho conseguito la laurea in Fisica alla Scuola Normale Superiore di Pisa, per poi proseguire con un Master in Fisica presso la stessa istituzione. La mia esperienza professionale ha avuto inizio all'estero, inizialmente nel settore della microfinanza e successivamente nel campo dei pagamenti su scala mondiale. Al mio rientro in Italia, sono diventato imprenditore nel settore dei servizi avanzati ICT, per poi passare al campo della sanità con l'obiettivo di apportare innovazione sia ai processi che ai prodotti. Dal momento che, come amo ripetere, “siamo quello che facciamo” il mondo dei dati, che riesce a dare misurabilità, dimostrabilità e oggettività ai fatti è stato il filo conduttore di ogni aspetto della mia vita.
Il mio ruolo tra 10 anni sarà … (continua la frase come fossi GPT-10) impossibile da prevedere con precisione nel contesto macroeconomico attuale e futuro, caratterizzato da elevata dinamicità. Tuttavia, ci sono due ambiti a cui mi dedicherò sicuramente anche tra 10 anni. Il primo è il settore dell'innovazione, in particolare a sostegno dell’ecosistema delle start-up italiane, ancora troppo piccolo. Il secondo, strettamente correlato al primo, consiste nel lavorare con i giovani e tutti coloro che cercano di migliorare il sistema paese, sapendo cogliere tutte le opportunità che il caso ci offre, facendo un passo alla volta ma con determinazione!
Qual è la sfida più importante che il mondo dei dati e degli algoritmi ha di fronte a sé oggi? La principale sfida è capire come trarre vantaggio dalla rivoluzione generata dalla Generative AI, disponibile ed accessibile a tutti dal novembre 2022. Questa sfida è complessa poiché richiede di conoscere la tecnologia, di sperimentare in modalità "try & learn", e di conoscere bene i propri processi in un contesto in cui molte organizzazioni hanno fatto un outsourcing eccessivo delle competenze chiave per queste trasformazioni radicali.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno… Senza dubbio, l'Economist! Non si limita a fornire dati, ma offre una forma di intelligence basata su di essi, consentendo di interpretare il mondo per costruire scenari futuri. Questo per non dimenticare che i dati e l'intera moderna data science devono servire non solo per analizzare il mondo, ma anche per prendere decisioni che lo migliorino!
🖐️Tecnologia (data engineering). Reshaping Coding: How AI Brings Change, Not Termination
Tra le attività che sono e saranno sempre più impattate dall'IA generativa, quella di scrivere codice, o più precisamente, il lavoro del programmatore, è sicuramente in cima alla lista. Tuttavia, ritengo che prevedere la fine del lavoro del software engineer, almeno nel medio periodo, sia un errore. Vorrei piuttosto fornirti degli approfondimenti per riflettere su come sta cambiando e continuerà a cambiare, forse anche più rapidamente di quanto sia avvenuto nell'ultimo anno.
Per cominciare, soprattutto sei sei un coder, ti consiglio vivamente di leggere questo post sul blog di Github, scritto da due programmatrici, Rizel Scarlett e Michelle Mannering, su come usare in modo efficace uno strumento come Github Copilot, che è molto potente, ma anche più complesso di quanto si possa pensare.
Partendo dalle definizioni più basilari come "prompts", "prompt engineering" e "context", che non sono la stessa cosa, Rizel e Michelle ci mostrano, con esempi concreti, come l'efficacia dello strumento varia molto a seconda di come lo conosciamo e lo sperimentiamo in diverse modalità. Il concetto di "continuous learning", molto apprezzato dalla nostra community, è fondamentale se ti muovi in questo ambito.
Infatti, i dati degli ultimi mesi mostrano, ad esempio, come l'utilizzo di Stack Overflow sia in declino, probabilmente a causa del crescente uso di strumenti di IA generativa da parte dei coder. E se vuoi conoscere l'esperienza di utilizzo di questi strumenti da parte degli stessi programmatori, o forse più precisamente da una fascia alta di programmatori, ti ri-consiglio vivamente di consultare la survey di Github sull'impatto di questi strumenti sul lavoro dei programmatori.
Infine, se desideri avere una sintesi di quelle attività, tra quelle effettuate dagli sviluppatori software, in cui l'aumento di produttività è più significativo, con una valutazione precisa, ti consiglio questo articolo di McKinsey che fornisce una buona panoramica e presenta dati sensati.
Un aspetto da tenere in considerazione, soprattutto rispetto a questi ultimi dati: il tempo che un programmatore normalmente dedica alle attività di codifica, soprattutto nelle grandi aziende, non è affatto il 100% del suo tempo, ma una frazione che potrebbe essere più vicina al 50%, a causa di molte altre attività quali meeting, comprensione delle esigenze di business, interazione con altri team e molto altro. In sintesi, per evitare di generare un falso ottimismo, questi numeri devono essere contestualizzati all'interno dell'ambiente organizzativo in cui il coder opera!
👀 Data Science. From Words to Numbers: The Evolution and Impact of Embeddings in Machine Learning
"Nell'ultimo decennio, gli embeddings - rappresentazioni numeriche delle caratteristiche di machine learning impiegate come input per i modelli di deep learning - si sono affermati come struttura dati fondamentale nei sistemi industriali di machine learning. TF-IDF, PCA e one-hot encoding sono da sempre strumenti chiave in questi sistemi, utilizzati per comprimere e interpretare grandi quantità di dati testuali. Tuttavia, gli approcci tradizionali riscontravano limiti nella gestione del contesto all'aumentare dei volumi di dati. Con l'esplosione del volume, della velocità e della varietà dei dati raccolti dalle applicazioni moderne, sviluppare approcci specificatamente adattati alla scalabilità è diventato sempre più importante. Questo paper ha l'obiettivo di fornire un'analisi approfondita su cosa siano gli embeddings, la loro storia e le loro modalità di utilizzo." Questo è un estratto del paper che oggi ti consiglio di leggere per approfondire gli embeddings, ovvero, in termini molto semplici, il metodo con cui trasformiamo le parole in numeri (o meglio, vettori) per consentirne l'elaborazione nei modelli di machine learning o nelle reti neurali, come gli LLMs alla base di ChatGPT. Potrebbe sembrare un dettaglio molto tecnico, ma chiunque utilizzi questi sistemi anche a livello business dovrebbe conoscere il loro funzionamento. Per questo motivo, Vicky Boykis, una machine learning engineer, ha redatto questo documento strutturato su più livelli. Ti consiglio vivamente di iniziare da questa pagina, dove Vicky offre un'introduzione molto filosofica partendo da Picasso, per poi indirizzarti ai capitoli più adatti alle tue esigenze e al tuo livello di conoscenza. Se sei interessato a un'introduzione più generale sul funzionamento delle reti neurali, ti segnalo che è stata da poco lanciata un'area dedicata a questo nel bellissimo progetto educativo sulla data science della Machine Learning University, targata Amazon.
👃Investimenti in ambito dati e algoritmi. Investment Growth in Data & AI: Startup of the Month (June 2023) is Mistral.ai
Come ogni mese, sfrutto un'attività che sto svolgendo per analizzare il mercato dell'innovazione e degli investimenti per segnalarti la startup internazionale che più ha suscitato il mio interesse, e che ha ricevuto finanziamenti nel mese precedente. Questa startup deve operare nel campo dei dati e degli algoritmi, o deve fare un uso intensivo di questi, avendo al suo interno, o nelle selezioni in corso, un numero significativo di data-expert.
L'informazione più rilevante che emerge questo mese è la crescita degli investimenti nell'area Data & AI sia in termini numerici che di valore, rispetto alla media dei mesi precedenti del 2023, grazie alla spinta della generative AI. Questo avviene in un contesto globale di diminuzione degli investimenti, sia confrontando il 2023 con il 2022, sia all'interno dello stesso 2023.
Tra le 99 startup classificate come "data & algorithms" a giugno (su 538 esaminate, ovvero circa il 19%, dato in sensibile aumento rispetto ai due mesi precedenti), ti segnalo Mistral.ai. Mistral rappresenta un esempio dell'entusiasmo, forse eccessivo, esistente attorno al tema della generative.ai, nonostante sia un settore effettivamente molto strategico e dal quale ci si aspetta un notevole valore generato nei prossimi anni. Mistral ha infatti poche settimane di vita ma ha già raccolto un round di finanziamento iniziale di 105 milioni di euro, con una valutazione di 240 milioni di euro, grazie all’esperienza dei suoi fondatori, provenienti da DeepMind e Meta. Con sede a Parigi, Mistral mostra un forte legame con l'Europa, non solo per la sua ubicazione, ma anche per la presenza di molti investitori e sponsor francesi, oltre ad alcuni italiani, come il gruppo Exor. L'obiettivo è quello di creare modelli LLMs di alta performance, con OpenAI come benchmark tecnico, ma con un approccio molto più "open source" (di cui bisognerà capire meglio il significato preciso...) e con un uso di dati per l'addestramento decisamente più trasparente. Tutto però è ancora da costruire, incluso il sito web, che fornisce al momento informazioni molto sintetiche 🙂.
👅Etica & regolamentazione & impatto sulla società. Exploring ChatGPT's Role in Education: Leveraging AI Potential with Caution
Se, come il sottoscritto, pensi che ChatGPT e, in generale, i sistemi generativi non rovineranno il sistema educativo ma lo costringeranno a evolversi attraverso un meccanismo di "try & learn", penso che potresti apprezzare l'approfondimento che ti suggerisco oggi. Ethan Mollick è un professore della Wharton School dell'Università della Pennsylvania, appassionato di come possiamo migliorare l'apprendimento e l'insegnamento in un'era che lui stesso definisce ironicamente "infestata dall'intelligenza artificiale". In questo post che ti consiglio di leggere, Ethan sintetizza un paper da lui pubblicato in cui racconta l'esperienza di utilizzare ChatGPT in sette possibili ruoli in ambito educativo (di cui ti lascio sotto l'immagine che li sintetizza), ovvero come mentore, tutor, coach, compagno di studio, studente stesso (a cui spiegare), simulatore di un ruolo specifico e supporto per le attività.
Nell'articolo si approfondiscono in particolare i ruoli di coach e tutor, suggerendo specifici prompt da cui partire. Li ho provati con la versione ChatGPT-4 e, l'esperienza è stata almeno formativa, se non addirittura entusiasmante. Nel paper, che vale la pena dare un'occhiata se sei interessato a questo ambito, si entra più nel dettaglio sulla definizione di tutti e sette i ruoli, sui benefici e sui rischi a livello educativo correlati ad essi.
Per finire ti segnalo un evento e un’ottima opportunità per allenarti e fare network se sei un data lover e uno studente universitario. Dal 1 al 3 Settembre si terrà online su Open Data Playground un data-hackaton, ITADATAhack 2023, focalizzato su una sfida di analisi dei dati di un database di documenti legali.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!