For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il sessantatreesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del sessantresimo numero:
👀 Data Science. Chatting with Luca Massaron: Data Science, Books, and Future Tech
Presentati
Sono Luca Massaron, un data scientist. Ho maturato la mia esperienza nel corso del tempo, operando in diversi contesti aziendali, sia come dipendente sia come consulente indipendente, in startup e in aziende multinazionali. Ho sviluppato prodotti innovativi basati sui dati e ho assistito le aziende in cui ho lavorato nella formulazione di problemi e opportunità strategiche, utilizzando tecnologie e metodi quantitativi. Attualmente, lavoro presso Illimity Bank. Appassionato di divulgazione, ho scritto oltre 15 libri su data science e AI (l'ultimo è il Kaggle book), tradotti in molte lingue. Ho avuto l'opportunità di partecipare a numerosi meetup, conferenze e lezioni in corsi universitari e di business school. Sono anche un Google Developer Expert e ho ottenuto posizioni di spicco in varie competizioni di data science.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10)
Proviamoci! Immagino di proseguire la mia carriera nel campo della data science, continuando a scrivere libri e a fare divulgazione, sfruttando sempre le opportunità offerte dalla tecnologia. È inevitabile che le tecnologie che userò cambieranno, ma alla fine il mio ruolo sarà sempre quello di creare valore per le persone coinvolte e interessate ai progetti che realizzerò.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
Credo che la sfida più grande sia principalmente sul lato umano, non tecnologico, ovvero far comprendere alle persone come sfruttare al meglio gli algoritmi e l'intelligenza artificiale per trasformarli in un'opportunità, non un pericolo o una minaccia. Ci saranno grandi e inevitabili cambiamenti per tutti e per tutto, come è già successo con Internet. La sfida sarà non perdere l'opportunità di far diventare tutto ciò un miglioramento per la maggioranza, non solo per una minoranza.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Quale che sia l'esatta percentuale sul totale, è indubbio che la maggior parte dei problemi nel mondo dei dati sia di tipo tabulare, cioè basata su tabelle di database o fogli elettronici. Senza progetti come Scikit-learn avviato e gestito dall'Istituto Nazionale di Ricerca Francese Inria, oggi non sarebbe possibile fare molto in termini di analisi e modellazione in Python per questo tipo di problemi. Parte della rivoluzione del machine learning e dell'AI è resa possibile proprio grazie a strumenti open-source di alta qualità, come Scikit-learn.
👃Investimenti in ambito dati e algoritmi. Start of the Month - April 2023: HeartFlow - Unleashing AI on Coronary Disease: The HeartFlow Revolution in Cardiac Care
Come ogni mese, approfitto di un'attività che sto svolgendo per studiare il mercato dell'innovazione e degli investimenti per segnalarti la startup internazionale che più mi ha colpito e che ha ricevuto finanziamenti nel mese. Questa startup deve operare nel campo dei dati e degli algoritmi o o ne deve fare un utilizzo intensivo, avendo al suo interno o nelle selezioni in corso un numero significativo di data-expert. Tra le 80 startup classificate come "data & algorithms" a Aprile (su 528 visionate, ovvero circa il 15%, dato stabile rispetto ai mesi precedenti), ti segnalo Heartflow, già un Unicorno e che ha avuto in Aprile un ulteriore round di 215 milioni di dollari. Heartflow usa l’intelligenza artificiale, in particolare il deep learning, per migliorare le diagnosi di malattie coronariche elaborando i dati provenienti da una TAC coronarica fornendo nel giro di poche ore una analisi visuale e numerica del flusso di sangue nei vasi arteriosi che riforniscono di ossigeno il muscolo cardiaco. Utilizzando algoritmi avanzati, HeartFlow crea un modello 3D dettagliato delle arterie coronarie del paziente. HeartFlow utilizza questo modello per calcolare il flusso sanguigno e la pressione in varie parti delle arterie. Questo viene fatto utilizzando una tecnica chiamata "Fractional Flow Reserve computed from CT" (FFRct), che può aiutare a identificare le aree dove il flusso sanguigno potrebbe essere ridotto a causa di un restringimento dell'arteria. La tecnologia HeartFlow può fornire informazioni più dettagliate rispetto a una TAC coronarica standard da sola e può aiutare a identificare i pazienti che potrebbero beneficiare di ulteriori test o trattamenti, come la angioplastica o la chirurgia di bypass. Se sei un appassionato di biohacking e ci tieni alla longevità del tuo cuore, c’è comunque un esame di tipo preventivo ma molto importante che puoi fare e che ha un livello di esposizioni alle radiazioni decisamente più basso (circa un quinto) e che è il calcolo del Calcium Score. Qui trovi una sua spiegazione non troppo tecnica ma molto esaustiva del mio biohacker preferito Nicola Triglione, di cui ti consiglio il bellissimo libro da poco uscito “Stanco di sentirti stanco?” 🙂
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Beyond Performance: Tackling Bias with Equality of Odds in Machine Learning Models
“I modelli di machine learning imparano a fare previsioni esaminando i dati con l'aiuto di algoritmi. Questi, però, possono commettere errori che riguardano diversi gruppi di persone. I pregiudizi indesiderati nel machine learning possono, inavvertitamente, danneggiare e stereotipare negativamente i gruppi sottorappresentati o (storicamente e in altro modo) sfavoriti. Pertanto, è fondamentale valutare e controllare i dati e le previsioni dei modelli non solo per le prestazioni generali dei modelli, ma anche per i pregiudizi.” Questo è l'incipit di un eccellente articolo che affronta concretamente uno dei principali strumenti, chiamato Equality of Odds (EO), usato per equiparare l'errore che un modello commette nel predire esiti categoriali per gruppi diversi. Quando si discute della cultura del dato e degli algoritmi in azienda, lo si fa in termini troppo astratti. Questo accade anche quando si parla di spiegabilità e polarizzazione dei modelli di machine learning. E questo succede perché questi argomenti sono spesso confinati a piccoli gruppi di esperti, prevalentemente data scientist, che lavorano sulle metriche degli algoritmi. È tempo di invertire la tendenza e, non mi stancherò mai di dirlo, anche i non data-expert devono cominciare a rispolverare un minimo di statistica e, soprattutto, capire le metriche che hanno un impatto sulla calibrazione dei modelli e, di conseguenza, sul business. Siti come MLU-Explain, che ti avevo già segnalato in precedenza, hanno la capacità di rendere comprensibili queste metriche senza banalizzarle. Ne è un esempio l’articolo che ti suggerisco oggi, il quale spiega come agire se vuoi realmente evitare la polarizzazione di un tuo modello verso alcuni gruppi di persone, illustrandoti come devi calibrarlo bilanciando performance e equità, lavorando su concetti quali la “soglia del modello” e l'equilibrio tra falsi positivi e falsi negativi tra i diversi gruppi.
🖐️Tecnologia (data engineering). Unraveling the Complexity of URLs: A Deep Dive into Semantics and Security
Credo che ti sia capitato di maneggiare una tabella di un database o magari un file CSV, in cui un campo o una colonna contenesse una URL. Quest'ultima potrebbe identificare un sito web o addirittura rappresentare la parte digitale di un'entità fisica, come un'azienda o una persona. Bene, l'approfondimento che ti consiglio questa settimana riguarda la semantica di questa sequenza di caratteri. È importante anche capire perché una possibile interpretazione differente di questa stringa di caratteri, da parte delle varie librerie, utilizzate nei diversi linguaggi di programmazione, possa essere delicata in termini di sicurezza. Se vuoi andare oltre la definizione di Wikipedia, che spiega che “un Uniform Resource Locator, noto con l'acronimo URL (lett. "localizzatore uniforme di risorse"), è una sequenza di caratteri che identifica univocamente l'indirizzo di una risorsa su una rete di computer, come un documento, un'immagine, un video, tipicamente presente su un host server e resa accessibile a un client”, allora questo ottimo articolo di Azeem Bande-Ali, software engineer di Bloomberg, fa al caso tuo! Buona lettura.
👅Etica & regolamentazione & impatto sulla società. Will A.I. Become the New McKinsey?
Il contributo che ti propongo oggi parte da una domanda, che è appunto il titolo dell’articolo stesso e che è molto provocatoria: “Diventerà l’intelligenza artificiale la nuova McKinsey?”. L’autore non è un giornalista ma Ted Chiang, un famoso scrittore statunitense di narrativa fantastico-fantascientifica, e la testata è il “The New Yorker”. Ed infatti, a prescindere da quanto si possa essere d’accordo sulle sue posizioni, l’articolo è a mio giudizio fatto molto bene e soprattutto capace di porre domande decisamente attuali. Preferisco non provare a farti, come altre volte, una sintesi ma piuttosto proporre dei passaggi chiave che possono fornirti lo spunto per riflessioni e che spero ti spingano a leggere l’articolo per intero.
“Un ex dipendente di McKinsey ha descritto la società come "capital’s willing executioners": se volete fare qualcosa ma non volete sporcarvi le mani, McKinsey lo farà per voi. … I manager delle aziende hanno determinati obiettivi, ma non vogliono essere incolpati di aver fatto ciò che è necessario per raggiungerli; assumendo dei consulenti, i dirigenti possono dire che stanno solo seguendo i consigli di esperti indipendenti. Anche nella sua attuale forma rudimentale, l'AI è diventata un modo per un'azienda di sfuggire alle responsabilità dicendo che sta solo facendo ciò che "l'algoritmo" dice, anche se è stata l'azienda stessa a commissionare l'algoritmo in primo luogo.” Questo è il drastico incipit che contiene sicuramente aspetti realistici ma è decisamente riduzionista. Tuttavia la domanda che scaturisce da ciò è comunque rilevante: “Se si pensa all'AI come a un ampio insieme di tecnologie che vengono commercializzate alle aziende per aiutarle a ridurre i costi, la domanda diventa: come possiamo evitare che queste tecnologie lavorino come "capital’s willing executioners"?”. E il passaggio successivo molto crudo coglie a pieno l’opportunità finora mancata del sogno americano: “negli Stati Uniti, il PIL pro capite è quasi raddoppiato dal 1980, mentre il reddito familiare mediano è rimasto molto indietro. Questo periodo copre la rivoluzione delle tecnologie dell'informazione. Ciò significa che il valore economico creato dal personal computer e da Internet è servito per lo più ad aumentare la ricchezza dell'uno per cento dell'uno per cento, invece di aumentare il tenore di vita dei cittadini statunitensi nel loro complesso.” Tutto … quasi vero perché il PIL, in realtà, non rileva tutti i miglioramenti della qualità della vita (per esempio i social goods come Wikipedia oppure l’allungamento della vita media). Certamente “l'affermazione secondo cui una migliore tecnologia migliorerà necessariamente il tenore di vita delle persone non è più credibile “ perché “l'Intelligenza Artificiale ridurrà certamente il costo del lavoro e aumenterà i profitti delle aziende, ma questo è completamente diverso dal migliorare il nostro standard di vita.” E il finale non è, come si potrebbe in alcuni momenti temere, neo-luddista perché non invoca un utopico stop alla ricerca e allo sviluppo in questo ambito ma una richiesta perché le “persone che stanno costruendo tecnologie rivoluzionarie si impegnino … a guardare senza remore al proprio ruolo nel sistema. Sarà questo che determinerà se l'AI porterà a un mondo migliore o peggiore”. Se sei riuscito ad arrivare fino a qui 😀, ti aggiungo una riflessione finale. Lo scenario attuale, nonostante i miglioramenti recenti dell’AI, sarà ancora più complicato se, come scrive Federico Faggin, le macchine non riusciranno ad avere la capacità di pensiero controfattuale (cioè la capacità a creare possibili alternative a eventi che si sono già verificati; il pensiero controfattuale è, come afferma l'aggettivo: "contrario ai fatti" e cioè ai dati …). Certo, lavorando da un po’ con Chat-GPT 4, se qualche tempo fa ero certo della convinzione di Federico … ora non ne sono così più sicuro!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!