For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centodiciottesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Se la settimana scorsa non hai avuto 60 secondi per aiutarmi a migliorare la newsletter magari riesci questa settimana ...
Ecco i cinque spunti del centodiciottesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Trasparenza e educazione: la visione di Virginia Padovese sul futuro di dati, algoritmi e informazione
Presentati
Virginia Padovese. Mi occupo di lotta alla misinformazione e disinformazione online dal 2018. Poco dopo la laurea in Scienze della Comunicazione a Trieste sono andata a vivere a Melbourne, dove per 10 anni ho lavorato come giornalista radiofonica dell’emittente nazionale multilinguistica e multiculturale SBS.
Nel 2018 mi sono trasferita dall’Australia a New York. Appena arrivata in USA ho scoperto quasi per caso NewsGuard e ne ho abbracciato immediatamente la missione: combattere la disinformazione con il giornalismo. Credo che proprio partendo dal giornalismo possiamo intraprendere azioni che abbiano un impatto positivo tra gli individui che si informano, scelgono e agiscono per costruire il futuro dei nostri Paesi.
Il mio ruolo tra 10 anni sarà… (continua la frase come fossi GPT-10)
… al servizio dei giovani nell’educazione ai nuovi media. Credo che sia fondamentale offrire presto alle nuove generazioni conoscenze e competenze affinché possano orientarsi con consapevolezza nella quotidiana ricerca di informazioni. Oggi non si tratta più soltanto di educare ai nuovi media, ma anche di introdurre la “cultura del dato” e gli strumenti basati sull’intelligenza artificiale. Quando entro nelle scuole sento nei giovani desiderio di conoscere e capire, vedo curiosità e apertura al nuovo. Dobbiamo cogliere questa disponibilità e iniziare dai più piccoli, non solo perché capiscano e usino in modo intelligente gli strumenti a disposizione, ma anche perché diventino desiderosi e capaci di modificarli e di renderli migliori. Giovani, informazione e istruzione: c’è campo di impegno più arricchente e stimolante?
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a
sé oggi?
La trasparenza. È l’unico modo per non sentirsi dominati dai dati e per non vederli come un nemico o qualcosa da temere. Trasparenza nelle modalità in cui vengono raccolti e nel modo in cui vengono usati; trasparenza nella costruzione e nel funzionamento degli algoritmi. E non sto parlando di tecnicismi, di formule statistiche o matematiche: parlo di meccanismi che devono essere chiari ai singoli individui e che vanno spiegati in modo comprensibile per permettere a ognuno di capire. Se rendiamo tutto più trasparente, avremo meno paura e diffidenza, e diventerà più facile anche individuare dove e come intervenire per migliorare.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Qui sono di parte, ma convintamente dico: l’estensione del browser di NewsGuard.
La possibilità di navigare online avendo a disposizione informazioni aggiuntive di contesto sulle fonti che usiamo per informarci è una risorsa preziosissima. Ci aiuta a capire chi finanzia il sito che stiamo leggendo, se ha un’agenda dichiarata o nascosta, se è trasparente nell’indicare proprietà e direzione editoriale, se segnala in modo chiaro i contenuti di opinione, se presenta i contenuti sponsorizzati come tali, distinguendoli da quelli editoriali. È uno strumento che rende la navigazione online più consapevole e sviluppa capacità di analisi quando, prima di iniziare a leggere, ci invita a fermarci, pensare e scegliere, e ancora quando, dopo la lettura, ci sollecita a riflettere, confrontare e approfondire.
🖐️Tecnologia (data engineering). CPU, GPU e NPU: La trinità della computazione
Le GPU sono diventate, un po’ come l’intelligenza artificiale 🙂, molto famose dopo l’uscita sul mercato di Chat-GPT. Nonostante fossero già presenti in molti dei nostri computer, ci siamo accorti di quanto siano importanti e di come siano diventate un bene scarso con la diffusione dell’utilizzo degli LLM. Anche chi ha fatto percorsi tecnici è più probabile che abbia studiato più da vicino l’architettura delle CPU. L’approfondimento di oggi è proprio dedicato a capire un po’ più in profondità la differenza.
“La differenza principale tra CPU e GPU sta negli obiettivi di progettazione. Le CPU sono state progettate per eseguire istruzioni sequenziali. Per migliorare le prestazioni dell'esecuzione sequenziale, nel corso degli anni sono state introdotte molte caratteristiche nella progettazione delle CPU. L'accento è stato posto sulla riduzione della latenza di esecuzione delle istruzioni, in modo che le CPU possano eseguire una sequenza di istruzioni il più velocemente possibile. Questo include caratteristiche come l'architettura a pipeline, l'esecuzione fuori ordine, l'esecuzione speculativa e le cache multilivello (solo per elencarne alcune).
Le GPU, invece, sono state progettate per ottenere livelli massicci di parallelismo e un elevato throughput, al costo di una latenza delle istruzioni medio-alta. Questa direzione progettuale è stata influenzata dall'uso nei videogiochi, nella grafica, nel calcolo numerico e ora nel deep learning. Tutte queste applicazioni devono eseguire molta algebra lineare e tantissimi calcoli numerici a una velocità molto elevata, per cui si è prestata molta attenzione al miglioramento del throughput di questi dispositivi.”
Questo è l’inizio dell’approfondimento che ti consiglio oggi, che va veramente in dettaglio per capire il diverso tipo di funzionamento di queste due tecnologie.
Una volta chiarita la differenza tra CPU e GPU, è importante sapere che esistono altre architetture di calcolatori molto efficaci per applicazioni che fanno uso intensivo di intelligenza artificiale generativa: le NPU (Neural Processing Unit). Per esempio, i nuovi processori Snapdragon X Elite e X Plus presenti in una varietà di nuovi computer Windows Copilot+ in uscita affiancano alle CPU proprio le NPU, per dare ancora maggiore velocità ai nostri utilizzi di intelligenze artificiali 🙂
👀 Data Science. Impara divertendoti: Il potere delle competizioni nella data science e non solo …
Come probabilmente sai, sono un convinto sostenitore dell'idea che per imparare bisogna (anche) divertirsi e che a volte un po’ di competizione aggiunge stimoli e la giusta priorità a tutto il ciclo di apprendimento. Ho sperimentato personalmente questo sia in prima persona sia nelle attività di volontariato, come Coderdojo. Ma anche all’interno delle organizzazioni in cui ho lavorato, diversi eventi quali hackathon o giornate dedicate alla formazione come i data retreat si sono dimostrati eventi ad alto ritorno sull’investimento nel medio periodo. Inoltre, lavoro da tanto tempo e ho scritto un libro con un professionista come Alberto Danese, la cui carriera ha avuto una positiva progressione grazie a Kaggle, dove è diventato nel 2018 il primo Kaggle Grandmaster italiano, come ha raccontato anche qui.
L’approfondimento che ti consiglio oggi, per capire anche la grande importanza che le competizioni stanno avendo, è il report più completo sul tema a mia conoscenza. Il report fa un punto esaustivo sulle principali competizioni esistenti e deriva da esse molte informazioni anche sui trend tecnologici in corso.
Se sei un data scientist o un machine learning engineer, non puoi fare a meno di scorrere tutto il documento 🙂. Per gli altri, segnalo alcune delle informazioni più interessanti che emergono:
- Kaggle si conferma la piattaforma di punta come mix di estensione di piattaforma in termini di utenti attivi, numero e qualità delle competizioni e totale dei premi erogati.
- il fenomeno delle competizioni sta crescendo in maniera molto significativa: più del 40% 2022 vs 2023 misurato in termini di premi totali messi in palio.
- Python è di gran lunga il linguaggio più usato e puoi trovare lungo tutto il documento dettagli delle librerie e framework più utilizzati: PyTorch nel deep learning sta vincendo il suo derby con TensorFlow.
- Le Convolutional Neural Network, nella computer vision, sono ancora (nel 2023) più utilizzate dei Transformer, che invece dominano nelle competizioni in ambito Natural Language Processing. Ma ci sono dettagli sui modelli più utilizzati per tutte le tipologie di classi algoritmiche.
- Last but not least, una competizione ospitata anche da Kaggle, la Vesuvian Challenge, è servita a decifrare quanto scritto su un papiro carbonizzato nell’eruzione del Vesuvio nel 79 a.C. Se sei curioso, puoi vedere come hanno fatto su GitHub.
👃Investimenti in ambito dati e algoritmi. Investimenti e survival sias: come essere consapevoli delle trappole del successo
Trarre troppe conclusioni dai casi di successo, anche nel business, potrebbe non essere (sempre) una buona idea. Questo a causa di un effetto chiamato "survival bias", di cui forse hai già sentito parlare, ma che non è assolutamente facile da neutralizzare, anche se ne sei consapevole. Questo fenomeno è particolarmente insidioso quando si fanno valutazioni di investimento, perché è molto difficile per un founder avere così tante casistiche di successo da essere sicuri che la fortuna e il survival bias non abbiano giocato un ruolo importante a suo favore. E questo è tanto più vero perché il successo e le esperienze positive tendono a far crescere la confidenza nelle proprie capacità. E questo non è comunque sempre un male!
Per approfondire con leggerezza ma con esempi molto precisi questo concetto, ti consiglio di leggere questo post di Jason Cohen. Da buon imprenditore di successo, proprio nell’articolo, in maniera ricorsiva, mette in guardia il lettore che l’articolo stesso e i consigli frequenti che dispensa ai suoi lettori non siano essi stessi affetti dal survival bias. Se non altro per ripassare (o conoscere) uno dei casi storici e più evidenti di survival bias successo durante la seconda guerra mondiale, il pezzo merita la tua lettura 🙂.
👅Etica & regolamentazione & impatto sulla società. Bilancio domestico europeo: confronta le tue spese con il resto d'Europa
Se, come me, alla fine di ogni anno fai un bilancio delle spese domestiche categorizzandole, l'approfondimento che ti consiglio oggi potrebbe essere utile per adottare una tassonomia standard e confrontare le tue spese con la media delle famiglie italiane ed europee. Lo studio "Understanding family spending through data analysis", redatto dalla Commissione Europea, ha lo scopo principale di capire “la complessità del processo decisionale finanziario delle famiglie e identificare le principali tendenze della spesa familiare. Ogni spesa, che si tratti di beni di prima necessità o discrezionali, contribuisce alla comprensione di un panorama economico più ampio, mostrando le disparità tra i diversi gruppi socioeconomici. Questi dati appartengono alla categoria "statistiche ad alto valore" stabiliti dalla Commissione Europea, per il loro ruolo a beneficio della società e dell'economia. In questa analisi, ci proponiamo di esplorare vari set di dati all'interno di questa categoria, offrendo una prospettiva a livello europeo. Inoltre, usiamo i dati nazionali e locali per scoprire informazioni specifiche e dettagliate, fornendo una comprensione più sfumata dei modelli di spesa delle famiglie.”
Purtroppo, i dati raccolti hanno un certo ritardo temporale, per cui il documento è molto utile soprattutto per avere trend di lungo periodo (1995-2015) anche a livello nazionale.
A livello italiano, questo è l’ultimo documento con un buon livello di dettaglio che copre temporalmente fino alla prima parte del 2020.
Oltre ai trend di variazione delle spese, ritengo molto interessante, nel documento europeo, l’analisi della differenza delle spese divise per classe di reddito. Quella riportata graficamente sotto è l’analisi sull’Olanda, ma questi pattern, con piccole differenze, si confermano su scala europea.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!