For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il quarantaseiesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del quarantaseiesimo numero:
🖐️Tecnologia (data engineering). Copilot: a Game Changer in Education & Lifelong Learning for Coders?
Credo che sia fondamentale, se scrivi codice per lavoro, incominciare a considerare e provare i sistemi di AI generativa applicati al tuo contesto. Anche per chi non programma di professione è importante ragionare su questi nuovi strumenti perché saranno un game changer in tutto il mondo del software, dati e algoritmi compresi. Per intraprendere il viaggio, che tu sia un programmatore o no, ti consiglio di leggere questo post di Chiara Sabelli, scritto molto bene e con approfondimenti di tutti i tipi, che fa il punto “sui computer che programmano”. Ma poi, se sai programmare anche in maniera non professionale, ti consiglio di provare uno di questi sistemi. Uno dei modi più semplici, come ho fatto io qualche settimana fa, è l’accoppiata VsCode con Github Copilot. Puoi usarlo anche con i Notebook Jupyter ma ti consiglio di farlo sempre dentro VsCode per un tema di semplicità di set-up. Per due mesi è gratis e poi costa 10 euro al mese. E’ importante secondo me provare ad usarlo per capire bene i suoi limiti attuali ma anche le sue potenzialità future. Dopo averlo usato per qualche settimana, ti lascio 7 considerazioni sui sistemi di generative Ai applicati al coding su cui riflettere e su cui mandarmi le tue considerazioni:
Sicuramente aumentano la produttività ad un livello decisamente superiore rispetto all’autocompletamento presente nei tradizionali editor di codice.
Perché l’aumento di produttività sia significativo occorre però saperli usare cioè saper interagire con loro. E su questo, essendo agli inizi, c’è pochissima documentazione e nessun corso specifico. Quasi tutto in modalità “learn by using” e non è semplice!
Sono, già ora, un ottimo sistema di apprendimento sul campo. Per esempio, senza usare motori di ricerca o altri strumenti, sono riuscito a fare uno script complesso che usa Regex (librerie che servono per trovare tipi di stringhe in testo libero) in due minuti, il tutto già integrato nel codice Python.
Cambia, all’inizio almeno in parte, il modo di programmare. Quindi da una parte nasceranno nuovi coders e dall’altra una parte dei software engineer dovranno modificare il loro modo di farlo.
Questo nuovo modo di fare coding genererà sicuramente troppa confidenza nello scrivere codice dando sicuramente problematiche di qualità del codice prodotto e di sicurezza. Ne scrive qui Andrew Ng nella sua newsletter citando fonti e dati autorevoli.
In relazione al precedente punto c’è un tema di affidabilità e qualità delle fonti su cui questi sistemi si addestrano che farà la differenza per superare i problemi che ho evidenziato nel punto precedente e soprattutto per renderli ancora più efficaci. In generale è un tema che tutti i sistemi generativi di AI hanno di fronte, non solo quelli che lavorano sul codice, ed è cruciale se vogliono fare business su larga scala. E comunque già oggi l’esperienza di usare Copilot o ChatGPT, come AI code-assistant, è molto diversa. Un confronto interessante lo puoi trovare qui.
Il tema della possibile violazione del copyright esiste ed è concreto. Puoi rendertene conto non solo leggendo la class action in corso ma soprattutto usando Copilot!
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Why Business Data Science Irritates Me
All’interno dei confini aziendali ancora oggi si dà eccessiva importanza, nei progetti di datascience, ai modelli rispetto alla qualità dei dati e alla robustezza dell’intero flusso operativo del software. Questo è causa di molti insuccessi sia dei progetti sia dell’efficacia dei ruoli dei datascientist, soprattutto quelli junior. Questo, filtrato dall’ironia e dalla provocazione di cui è ricco, è la sintesi dell’articolo che ti propongo che nasce dalla risposta ad un datascientist, che facendo molto rumore nel web, ha scritto un post altrettanto forte, dal titolo "Goodbye Datascience”.
Ci sono tante osservazioni che condivido pienamente nell’articolo ma se devo distillarti la sua essenza vado direttamente alla parte in cui spiega i motivi per cui non è necessario complicare i modelli quando in azienda devi rispondere ad una domanda, o devi contribuire ad una decisione in tempi rapidi e con interlocutori di business. Ed è questa la situazione che viviamo nel 99,99% dei casi. “La prima ragione” , scrive Shako nell’articolo, “è quella più ovvia, ovvero che la complessità del modello ha rendimenti decrescenti e spesso negativi. La regressione lineare o il modello XGboost del primo capitolo di un testo di econometria o di ML di solito funzionano meglio e sono più robusti dei modelli più sofisticati dei capitoli successivi. Il secondo aspetto è più sottile: il valore marginale del vostro tempo è di solito meglio speso per migliorare la qualità dei dati a monte e le pipeline di dati, invece di cercare di spremere qualche millesimo in più di precisione dal vostro modello. I dati sono problematici, sempre mutevoli e sempre sbagliati. Ridurre il rapporto segnale/rumore in quel punto della pipeline di solito paga di più che cercare di estrarre in modo più pulito il segnale nel modello. Il terzo è che quando alla fine lascerete il vostro team, le fantasiose serie temporali bayesiane che avete scritto da zero (ma di cui magari non avete controllato adeguatamente la versione) per avere un modello stimato congiuntamente più rigoroso dal punto di vista accademico e impressionare tutti, si romperanno inevitabilmente. Quando si romperà, i data scientist ancora presenti nel team probabilmente non saranno esperti dello specifico modello. Se si trattasse di una regressione lineare o di un qualsiasi modello statistico o di ML, potrebbero intervenire e sistemarlo.” Aggiungo un quarto motivo ed è che i modelli semplici sono più facilmente comprensibili dai non addetti ai lavori e questo è un punto che non devi mai dimenticare, soprattutto in organizzazioni e ambiti dove il numero di interlocutori è ampio.
👀 Data Science. Illustrated Machine Learning
Quello che ti suggerisco questa settimana è un sito web che ha l’obiettivo di rendere più accessibile il complesso mondo del Machine Learning attraverso illustrazioni chiare e concise che forniscono, come scritto nel sito, “un aiuto visivo a studenti, professionisti e a chiunque si stia preparando a un colloquio tecnico” e non solo, aggiungerei io. Il tutto è diviso in tre aree, ma è in continuo aggiornamento ed espansione. La prima parte è dedicata al machine learning engineering e alla fase di setup del team di un progetto di dati e algoritmi. La seconda è dedicata al machine learning e descrive, usando come le altre parti del sito Excalidraw come strumento grafico, tutti i concetti base: le categorizzazioni, i tipi di campionamento, i bias, i modelli supervisionati e non supervisionati e infine tutte le sofisticazioni dell' ”hyper-parameters tuning”. La terza parte, fatta egualmente bene, è tutta dedicata alla computer vision. Il progetto, un altro esempio di ottima Open Science, è stato realizzato da un team di giovani italiani: Francesco Di Salvo, Simone Raponi e Matteo Bernabito che hanno lavorato anche su diversi altri progetti interessanti (ti consiglio di curiosare tramite i link presenti nell’area credits sui loro profili github e i loro siti web). Per finire ti consiglio di dare anche un’occhiata alla pagina references del sito, potresti proseguire a imparare e approfondire passando dalla modalità visuale a quella testuale, scoprendo risorse di grande qualità.
👃Investimenti in ambito dati e algoritmi. Opportunity & Trends
"Data, Machine Learning, and AI: 2023 Opportunities and Trends" è una rassegna annuale completa sugli sviluppi emergenti nel mondo dei dati e dell'intelligenza artificiale. E’ realizzata da tre esperti mondiali come Ben Lorica, Mikio Braun e Jenn Webb che sono gli animatori del progetto Gradient Flow, di cui ti ho suggerito in passato altri approfondimenti. Il rapporto è suddiviso in 10 sezioni, ognuna delle quali si concentra su un diverso aspetto del nostro mondo, che secondo gli autori avrà un grande impatto in termini di investimenti e di occupazione. Quindi sia che tu faccia investimenti direttamente o che voglia investire tempo con un buon ritorno per il tuo futuro lavorativo ti consiglio di leggere con attenzione tutte le 16 pagine del report. Se poi vuoi sapere quali tra questi 10 vedo più interessanti eccoti i miei quattro preferiti:
La generative AI vista da tre angolature diverse: le start-up che costruiscono applicazioni su di essa, la capacità di valutare le performance (dei large language modeling) nei vari contesti di uso e le regolamentazioni connesse alla generative AI che ci sono e che verranno (vedi approfondimento che ti propongo nella sezione impatto sulla società).
La deriva delle attività dei data-engineer verso processi più operativi e di governance dei dati, visto che le infrastrutture ci sono già e il cloud rende sempre più semplici crearle e farle evolvere.
La crescita degli strumenti low-code no-code per democratizzare l’accesso al mondo dei dati e degli algoritmi a sempre più persone. E insieme a questo sarà molto importante la parte di formazione per la comprensione di quello che non si dovrà quasi più programmare ma comunque capire per poterne trarne valore.
L’importanza dei ricavi per la valutazione e sostenibilità delle start-up in questo ambito. Concetto espresso dagli autori dalla lista di quelle che loro definiscono Pegacorns cioè aziende che hanno almeno 100 milioni di ricavi all’anno.
👅Etica & regolamentazione & impatto sulla società. Stable Diffusion litigation: AI needs to be fair & ethical for everyone.
Nella sezione dedicata all’impatto dell’AI sulla società oggi ti propongo qualcosa che, nell’euforia che ci circonda sull’AI Generative, ti potresti essere perso e cioè la class-action in corso, negli Stati Uniti, contro Stability AI, DeviantArt, and Midjourney, alcuni tra più importanti servizi di generazione di immagini da testo. La Class-Action e il relativo sito è stata realizzata da Matthew Butterick: uno scrittore, un designer, un programmatore e un avvocato che nel novembre 2022 ha collaborato con gli avvocati Joseph Saveri, Cadio Zirpoli e Travis Manfredi per intentare una causa contro GitHub Copilot e ora contro la generative AI creatrice di immagini.
Quello che mi ha colpito del sito è il dettaglio e la precisione con cui affronta, anche dal punto di vista tecnico, il problema sia provando a quantificarlo in termini economici sia andando a spiegare perché l’utilizzo delle immagini, che sono tutelate da copyright, configura una violazione paragonabile, secondo Matthew, a quella di utilizzo/ascolto di un file Mp3 di tipo musicale piratato. Il sito, spiegando i razionali della class-action, ti aiuta anche a capire alcune logiche che stanno dietro il funzionamento di questi sistemi di intelligenza artificiale. Se poi vuoi approfondire anche la class-action in corso contro Copilot ti consiglio l’altro sito, che spiega le logiche abbastanza diverse, sempre realizzato da Butterick. Matthew Butterick è un personaggio veramente poliedrico che opera all'intersezione tra AI, copyright, e software. Dare un’occhiata al suo sito personale può valerne la pena, soprattutto se sei così nerd :-) da essere interessato al suo progetto/libro su racket, un linguaggio di programmazione che è di fatto una piattaforma per la progettazione, creazione e implementazione di nuovi linguaggi di programmazione.
E per finire:
🙏🙏🙏 Ringraziamenti a:
Dataninja, che ha una vision magnifica (“aiutiamo le persone a vivere meglio usando i dati), che ha citato la nostra newsletter per i temi che affronta riguardo l’edtech e che fa lei stessa ottimi corsi e grandi iniziative di divulgazione sui dati che ti invito a seguire!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!