For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il settantottesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Come la scorsa settimana ti propongo un piccolo “ripassino” delle puntate estive che ti potresti essere perso. Questa volta ti segnalo le puntate di agosto con indicazione dei due argomenti che sono piaciuti di più alla community di lettori:
#73 L’intervista a Carlo Torniai e la presentazione di Andrej Karpathy “State of GPT”
#75 L’intervista a Serena Bonaretti e alcuni contributi sul concetto in intelligenza creativa
Ecco i cinque spunti del sessantottesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Scouting Europe's Tech Playground: Where Milan Shines
Il tema dei talenti tech in Italia e, più in generale, in Europa rappresenta un pilastro strategico per lo sviluppo attuale e futuro della maggior parte delle organizzazioni e, di conseguenza, dell'intero sistema economico europeo. Sono fermamente convinto che continuerà ad esserlo, anche in uno scenario in cui l'intelligenza artificiale generativa rivoluzionerà il mondo del lavoro. Proprio per questo, ti suggerisco un approfondimento che considero fondamentale: una delle analisi più dettagliate sui talenti tech in Europa. Questa analisi, realizzata dal fondo Sequoia, esplora 14 aree di specializzazione e 24 aree urbane con una forte concentrazione di questi professionisti. Delle 14 specializzazioni, quattro sono particolarmente rilevanti per noi: Databases, Datascience, AI e Robotics. Tra le aree urbane, è incluso anche Milano. Questo studio è particolarmente interessante per la sua metodologia, che combina fonti qualitative (come recruiter, manager, fondatori di startup, lavoratori) e quantitative (basate su diversi studi e società di analisi specializzate).
“Il panorama europeo dei talenti tech risulta complesso da decifrare, sia per i fondatori di startup che per i recruiter. Sebbene l'Europa ospiti università di rilievo mondiale e un crescente numero di ingegneri di alto livello, i talenti sono sempre più distribuiti geograficamente. La crescente diffusione del lavoro a distanza, l'inflazione e le preoccupazioni legate al costo della vita stanno spingendo sia i professionisti che i recruiter a ripensare le loro strategie di localizzazione…”. Questo è solo l’inizio dell'executive summary, che ti consiglio vivamente di leggere. Troverai anche delle dashboard interattive suddivise per area di specializzazione e per località geografica. Scoprirai, ad esempio, che Milano si posiziona 13ª in termini di volumi di talenti, ma eccelle particolarmente nello sviluppo di soluzioni legate al settore finanziario, posizionandosi all'8° posto. Inoltre, quando si tratta di Databases, Datascience e Robotics., Milano si afferma con una posizione solida, mentre in AI mostra una posizione più arretrata.
Se, dopo aver esplorato questo studio, desideri approfondire ulteriormente, ti suggerisco di leggere le tre strategie che Bernard Marr propone per affrontare la futura scarsità di talenti. Oppure, se sei interessato a capire meglio la differenza tra il futuro dell'AI Engineer e quello del machine learning engineer, ecco alcune riflessioni sul tema. E se vuoi dare un’occhiata al mercato dei talenti tech relativamente alla generative AI: questa vista totalmente US è decisamente interessante e attuale!
🖐️Tecnologia (data engineering). From Data Quality to ChatGPT: How Cameron Wolfe Explains AI's Training Secrets!
Se, come capita a tutti ogni tanto, ti sei dimenticato dell'importanza cruciale dei dati e della loro qualità nell'evoluzione della generative AI, ti suggerisco caldamente di leggere questo post di Cameron Wolfe, Ai Director di Rebuy. Cameron è un ricercatore specializzato in deep learning con una passione per la divulgazione di concetti scientifici. E, infatti, leggendo l'articolo avrai l'opportunità di ripassare o approfondire le tre fasi principali di training dei modelli di generative AI. In particolare, ti verrà illustrata la fase di pre-training (self-supervised learning) e le due fasi del "processo di allineamento": Supervised Fine-Tuning (SFT) e Reinforcement Learning from Human Feedback (RLHF). Il tutto è presentato in modo chiaro e pratico, con esempi e riferimenti a studi pubblicati. In ogni fase, l'importanza dei dati viene sottolineata in modi diversi. Nella parte finale del post, Cameron riassume il concetto così:
"Le principali conclusioni... sono:
1. Ipotesi di allineamento superficiale: gli LLM acquisiscono conoscenza durante il pre-addestramento, mentre l'allineamento insegna loro come interagire correttamente con gli utenti.
2. La qualità e la diversità dei dati sono fondamentali per il processo di allineamento, molto più del loro volume."
Se, dopo aver letto l'articolo di Cameron, vuoi approfondire il Reinforcement Learning from Human Feedback (RLHF), ti suggerisco di consultare questo articolo di TechTalks. Questa pubblicazione spiega dettagliatamente questa tecnica di training, il cui uso accurato e innovativo sembra essere alla base delle sorprendenti performance di ChatGPT, come spiegato in dettaglio da OpenAI stessa.
👀 Data Science. From Zero to Machine Learning Hero: Free Resources to Boost Your Game!
Forse è colpa degli anni che avanzano 😀, ma sono sempre più persuaso che la risorsa più preziosa a nostra disposizione sia il tempo. Dopotutto, gli strumenti per accedere alla conoscenza, in quasi ogni campo del sapere, diventano sempre più accessibili. Se impari a utilizzare metodi e strumenti di ricerca innovativi, scoprirai che molti hanno un costo in costante diminuzione, e in alcuni casi si avvicinano addirittura allo zero. Tutto questo per portarti agli argomenti di oggi, che sono essenziali se desideri iniziare o approfondire la tua competenza in statistica, computer science e machine learning.
Iniziamo con un libro: "An introduction to statistical learning with application in Python". Esisteva già una versione per R, molto popolare e apprezzata. Ora è stata pubblicata una nuova edizione che utilizza Python, il linguaggio di programmazione più diffuso al mondo. La sua prima edizione è stata pubblicata a inizio luglio ed è disponibile per il download gratuito. Se, invece, sei interessato a una visione più matematica degli algoritmi di machine learning, puoi scaricare, per uso personale, il pre-print del libro del professor Tong Zhang, una vera autorità in questo campo. Se invece vuoi usare un approccio all'apprendimento più accademico, ti suggerisco di esplorare questi due corsi offerti da Harvard. Sono ben fatti e organizzati in moduli settimanali: il primo si concentra sulla computer science e il secondo sull'intelligenza artificiale, utilizzando Python.
👃Investimenti in ambito dati e algoritmi. Got an AI Startup? Mosaic's Insider Shares the Investment Playbook!
Oltre allo stack tecnologico peculiare della generative AI, dall'infrastruttura agli LLM, ciò che sta vedendo un incremento massivo di investimenti sono le aziende che sviluppano o integrano applicazioni verticali, capitalizzando le nuove funzionalità. Per questo motivo, l'approfondimento di oggi, tratto da un recente articolo scritto da un manager di Mosaic - una primaria azienda di venture capital europea specializzata nelle prime fasi di finanziamento nel settore tecnologico - risulta particolarmente intrigante. L'articolo propone un framework per affinare la prima fase di investimento. Credo fermamente che, in un momento di grande dinamicità del mercato, avere un framework sia fondamentale. I due pilastri su cui l'articolo si basa sono da una parte le quattro domande essenziali su cui focalizzarsi e dall’altra una valutazione del panorama europeo in relazione a questo tipo di investimenti.
Opportunità di mercato, strategia di accesso (al mercato), interazione con il prodotto da parte degli utenti e difendibilità nel medio periodo sono gli aspetti principali secondo Mosaic. Se dovessi aggiungere un punto, sarebbe l'indagare quanto un prodotto sia dipendente da un determinato modello e se tale modello sia open source, come Llama, o closed source, come ChatGPT.
Tuttavia, la realtà è in costante evoluzione, e avendo un framework, ti sarà più facile rimanere al passo.
👅Etica & regolamentazione & impatto sulla società. AI in the Newsroom: UNESCO's Guide and Why Google's Betting Big on 'Genesis'!
“Senza un giornalismo informato e indipendente sull'intelligenza artificiale, la società avrà enormi carenze in termini di trasparenza e responsabilità. Queste sono essenziali per governare una tecnologia di tale impatto. D'altra parte, solo il giornalismo di qualità può analizzare quali pacchetti di regolamentazione statale e autoregolamentazione siano i migliori e quale potenziale esista per alternative come la co-regolamentazione e la regolamentazione multi-stakeholder.” Questo è un estratto dalla prefazione dell'approfondimento che ti suggerisco oggi: “A Handbook for Journalism Educators - Reporting on Artificial Intelligence”. Si tratta di un report di 135 pagine dell’UNESCO, parte di una serie sull'educazione giornalistica. La prima sezione, composta dai primi 4 moduli, offre un'eccellente introduzione su definizioni, storia, regolamentazione e cultura dell'intelligenza artificiale. La seconda sezione approfondisce l'uso dell'intelligenza artificiale nel giornalismo. E infine, se sei un giornalista, non perderti l'utilissima checklist delle 18 "trappole" dell'"AI Journalism", nella parte finale dell’estratto. Sebbene il report sia rivolto principalmente ai giornalisti, contiene informazioni preziose anche per chi segue, come utilizzatore, il giornalismo odierno. Tutto questo in un settore strettamente correlato alla democrazia, dove anche colossi come Google stanno investendo, come evidenziato da questa recente notizia: "Genesis, il nuovo strumento di Google, può raccogliere informazioni e generare articoli giornalistici. Google vede questo strumento come un assistente personale per i giornalisti, automatizzando certi compiti per liberare tempo per altri. Il gigante tecnologico lo considera una "tecnologia responsabile".
Sono fermamente convinto che ci siano tre aspetti che non dovrebbero essere affidati esclusivamente all'AI se il giornalismo "umano" (e la democrazia) vuole (vogliono) prosperare:
1. Verifica dei dati (o fact-checking)
2. Accountability (responsabilità) dell’articolo
3. Scelta editoriale, ovvero quali argomenti includere o se pubblicare una certa notizia.
Credo però che, in altri aspetti e per facilitare i tre punti che ho citato sopra, l'intelligenza artificiale possa essere veramente un valido alleato del giornalismo moderno!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!
Riguardo il primo punto, è interessante notare due cose:
1. Londra rimane in cima alla classifica nonostante Brexit - aveva e ha ancora un panorama tech troppo benl sviluppato e i contraccolpi saranno stati tutto sommato pochi
2. Non solo^, ma Londra distacca di gran lunga tutte le altre città, la differenza di punteggio è enorme in tutti i sottocampi