For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il cinquantaduesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Prima di cominciare con i cinque argomenti di oggi prendiamoci un momento per celebrare il primo compleanno di questa newsletter: il 12 marzo 2022 era uscito il numero zero inviato a 2 iscritti. Questo numero verrà inviato a una community di 2072 data-lovers. Grazie per aver contribuito a rendere vivace e partecipato questa prima tappa del nostro viaggio nel mondo dei dati e degli algoritmi.
Per festeggiare in maniera coerente ho raccolto qualche numero di queste 52 newsletter:
105 data & tech gurus “incontrati” negli argomenti trattati
377 link condivisi
73 fonti “qualificate” da cui sono (anche) tratti gli argomenti
98 tipologie di argomenti affrontati secondo una classificazione fatta da me nel database della newsletter. Argomenti che appartengono ai 5 ambiti in cui è suddivisa la newsletter e cioè: 👀 Data Science, 🖐️Tecnologia (data engineering), 👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni, 👃Investimenti in ambito dati e algoritmi
E per finire i festeggiamenti ti chiedo un parere visto che mi sono accorto di una deriva piuttosto importante nel corso del tempo relativamente alla lunghezza della newsletter …
Ecco i cinque spunti del cinquantaduesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Data Centric AI Crash Course
“I tipici corsi di machine learning insegnano le tecniche per produrre modelli efficaci per un set di dati. Nelle applicazioni reali, i dati sono disordinati e migliorare i modelli non è l'unico modo per ottenere prestazioni migliori. È anche possibile migliorare il set di dati stesso, anziché trattarlo come fisso. La Data-Centric AI (DCAI) è una scienza emergente che studia le tecniche per migliorare i dataset, che spesso è il modo migliore per migliorare le prestazioni nelle applicazioni pratiche di Machine Learning. Mentre i bravi data scientist hanno a lungo praticato questa attività manualmente attraverso prove/errori ad hoc e l'intuizione, la DCAI considera il miglioramento dei dati come una disciplina ingegneristica sistematica.”
Questo è il primo corso in assoluto sulla Data-Centric AI. E’ realizzato dal MIT Open Learning group. E’ fatto molto bene ed è anche molto completo sia a livello di argomenti trattati sia di materiali a disposizione: lezione videoregistrate, notebook Jupyter, esercitazioni e slide del corso. E’ diviso in 9 parti e si completa in 8 ore di lezioni più circa 20 ore di studio, partendo da una conoscenza di base di Python, Pandas e Jupyter.
Iniziative come questa possono avere un impatto enorme sul futuro della cultura del dato in tutte le organizzazioni.
👀 Data Science. Generative AI (not only) for News Media
“Ho realizzato questo Notebook Jupyter per i giornalisti che stanno pensando di utilizzare ChatGPT nella produzione di notizie. Alcuni consigli su prompt, limiti, capacità ed esempi per rewriting, summarization, brainstorming, classification, extraction, data-to-text”. Con questo breve tweet Nick Diakopoulos, Professore associato in Scienze della Comunicazione e Informatica presso la Northwestern University, mette a disposizioni di tutti noi un piccolo gioiello che ci consente di provare direttamente come si ottimizzano alcuni processi tipici del giornalismo moderno: per esempio, come sintetizzare un articolo, evitando il gergo scientifico pesante e utilizzando un vocabolario più semplice. Ma anche generando, al contrario, testo, che approfondisce alcune parti dell’articolo piuttosto che estraendo parti chiave del testo. Il tutto in maniera massiva e in pochissimo tempo. In ciascuna delle sei parti/processi che sono approfonditi, nel notebook, Nick fornisce consigli utilissimi di Prompt Design and Engineering. Per usarlo efficacemente ti servirà una API Key di Open AI ottenibile facilmente attivando un contratto dove, ti tranquillizzo, puoi settare limiti di spesa bassissimi: con solo 2 euro potrai fare diversi test. Se poi non vuoi attivare il contratto puoi fare alcuni prove anche nel playground di open AI in modo completamente gratuito ma è più complesso e non ha la stessa efficacia. Dimenticavo di dirti che Nick Diakopoulos non è proprio un novellino in questo campo, essendo direttore del Computational Journalism Lab sempre nell’università di Chicago e avendo scritto nel 2019 un bellissimo libro “Automating the News: How Algorithms Are Rewriting the Media”, di cui mi è stato molto utile leggere alcuni capitoli. E anche se non sei un giornalista allenarti con il notebook di Nick non è affatto tempo perso!
👃Investimenti in ambito dati e algoritmi. Edtech Funding Slowdown & Slow Learning
Il funding nell’EdTech si è dimezzato nel 2022 rispetto al 2021 passando da 20.8 a 10.6 miliardi di dollari. Questa è l’informazione più eclatante che emerge dal report sul Edtech realizzato da Holon IQ, una delle più importanti e moderne società di analisi dei trend. Ma non è l’unica informazione importante a cui prestare attenzione. In fondo i 10.6 miliardi del 2023 sono comunque molto superiori ai 7 miliardi del 2019 e agli 8.6 del 2020. E la diminuzione non è omogenea in tutte le geografie ma concentrata in Cina dove si è assistito a un quasi azzeramento degli investimenti dopo il picco toccato nel 2020 con oltre 10 miliardi di dollari. Più fisiologico il calo nel mondo occidentale ed in India: 15 dei 30 unicorni in questo ambito sono concentrati negli Stati Uniti ed altri 7 proprio in India. Anche in Europa gli investimenti continuano ad essere robusti, con un calo solo del 25%. Calo che è fisiologico e forse salutare poiché il ciclo di adozione di questo tipo di prodotti e servizi non può essere veloce come un comune prodotto tecnologico. La formazione ha a che vedere con i complessi meccanismi della mente umana e non sempre la rapidità di apprendimento è una caratteristica vincente come questa splendida mostra a Torino ne ha illustrato il concetto attraverso illustrazioni di quasi 2000 artisti da tutto il mondo.
Le immagini sopra sono le mie 6 opere preferite, tra le 40 vincitrici, dell’edizione 2022 di Posterheroes.org. Rispettivamente dall'alto a sinistra le opere sono di Matteo Bozzo, Ana Fazli, Sergio Bohada & Mauricio Gaitán, Eugenio Bini & Giulia Canala,Mark Mones, Nicole Becker.
🖐️Tecnologia (data engineering). Time & Space Complexity of an Algorithm
La complessità temporale e spaziale, cioè la quantità di risorse necessarie per l'elaborazione di un algoritmo, sono due parametri molto importanti quando devi valutare quale algoritmo scegliere. Entrambi sono importanti per non trovarti a non poter scalare quando cresce il numero di elementi a cui applichi l’algoritmo stesso. In realtà il contributo, su questo tema, che ti consiglio nasce da una necessità relativa ai processi di selezione. Infatti Eric Rowell dice di aver costruito questo bigino delle complessità perché “in passato, quando mi preparavo per i colloqui tecnici, mi ritrovavo a passare ore e ore a spulciare Internet per mettere insieme le complessità migliori, medie e peggiori degli algoritmi di ricerca e di ordinamento, in modo da non rimanere perplesso quando mi veniva chiesto di parlarne.” Se poi ti appassiona il tema e sei un utilizzatore avanzato di Python ti consiglio questo approfondimento sulla complessità delle operazioni sulle principali strutture dati (liste, set e dizionari).
👅Etica & regolamentazione & impatto sulla società. The World Data Visualization Prize
E’ uno dei premi più importanti a livello mondiale per la data-visualization. E’ organizzato da “Information is Beautiful”, il magnifico progetto di David McCandless, e il World Government Summit, un'organizzazione internazionale che serve come piattaforma per il dialogo globale e come centro di scambio di conoscenze tra governi, tecnologia e innovazione. Nella sua giuria ci sono i migliori esperti di data-visualization a livello mondiale, compreso uno dei miei preferiti: Alberto Cairo. Il premio di quest'anno ha avuto come tema il passato, il presente e il futuro della società e dei governi nel tentativo di facilitarne, attraverso la data-viz, le innovazioni, le decisioni e le metriche che possono essere utilizzate per guidarne e misurarne il progresso. Non guardare solo l’infografica della vincitrice finale, la bravissima Lindsey Poulter ma spendi tempo a vedere i cataloghi delle due categorie di premi, quella relativa alla dataviz interattiva e quella relativa alla visualizzazione a poster. Anche tra i non premiati ci sono lavori favolosi: uno dei miei preferiti, per esempio, è quello di Roman Bunin dal titolo “Divided World”. Buona visualizzazione!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!
Auguri!
E' sempre una lettura piacevole e nel contempo sfidante.