Ciao,
sono Stefano Gatti e questo è il ventottesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del ventottesimo numero:
👅Etica & regolamentazione & impatto sulla società. The wikipedia for protein structures: a key factor for our future health
E’ un successo, nell’applicazione dell’AI, di difficile percezione per tutti quelli che, come il sottoscritto, non hanno conoscenza specifica di biologia o medicina. Parlo in particolare di AlphaFold, strumento di intelligenza artificiale sviluppato da DeepMind (del gruppo Alphabet) che è riuscito a prevedere la struttura di quasi tutte le proteine conosciute dalla scienza. Nell’ultima release AlphaFold offre gratuitamente il suo database di oltre 200 milioni di proteine (214.684.311 per l'esattezza). Il valore del progetto sta proprio nell’averne previsto la struttura, attività molto complessa, che permette di capire molto meglio rispetto al passato il comportamento di ciascuna proteina e la sua influenza sulla nostra salute facilitando lo sviluppo di farmaci specifici. Mettendo a fattor comune a livello mondiale queste informazioni si è creata, di fatto, una piattaforma di informazioni, una wikipedia delle strutture delle proteine che sta portando grande innovazione nel settore della ricerca medica. Navigare nel database del progetto è una esperienza che ho trovato emozionante!
🖐️Tecnologia (data engineering). Task Machine Learning Engineer, Platform Machine Learning & more.
Shreya Shanka ha fatto il machine learning engineer in Viaduct, Google e il software engineer in Facebook e ora sta facendo ricerca sul tema attraverso un PhD a UC Berkeley. In questo interessante post traccia la differenza tra due tipi di machine learning engineer che sono complementari all’interno di un team di data-expert. Questa differenza, sottolinea Shreya, non è importante solo per le FAANG (Facebook, Apple, Amazon, Netflix e Google) ma lo sta diventando anche per molte altre realtà in giro per il mondo e su questo sono molto d'accordo con lei! In estrema sintesi il task-engineer è la persona che affianca il datascientist e perfezionando il suo codice lo mette in produzione e ne monitora le prestazioni seguendone le evoluzioni. Il platform-engineer “è responsabile di aiutare i task engineer ad automatizzare le parti più noiose del loro lavoro. I platform-engineer costruiscono pipeline (compresi i modelli) che supportano più task, mentre i task-engineer risolvono task specifici”. Ma ci sono nell'articolo altri interessanti spunti che mi hanno sorpreso , per esempio, sul chi che dovrebbe avere in carico la parte di data validation …
👀 Data Science. The myth of unbiased data
“La realtà è che i dati imparziali sono un mito. Durante l'intero processo analitico - dall'identificazione, al reperimento, alla pulizia, all'organizzazione e all'analisi dei dati - introduciamo intrinsecamente dei pregiudizi proprio per la natura delle decisioni che prendiamo in ogni fase.” Questo è in estrema sintesi il messaggio di questo post, di cui condivido anche la punteggiatura, di storytellingwithdata che evidenzia anche l’importanza e il valore di esprimere un parere soprattutto quando stai portando un’analisi esplicativa e non esplorativa, differenza di cui avevo già parlato nell’edizione 6 di questa Newsletter. Dopo tutto, lo scopo del tuo lavoro di analisi dei dati, è anche definire e supportare azioni che portano ad un cambiamento positivo nella tua organizzazione. E il futuro della datascience è più nell’azione che nell’analisi …
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Italian Kaggle
Questa settimana ti suggerisco, soprattutto se lavori nelle risorse umane o comunque supporti l’ingaggio di talentuosi data-expert, una piattaforma italiana che sta muovendo i primi passi nella creazione di un ambiente molto simile al più conosciuto Kaggle, il tutto in lingua italiana. In Open Data Playground, come suggerisce in parte il nome, puoi organizzare competizioni per selezionare data expert ma anche per provare a migliorare sfide di datascience che ti stanno particolarmente a cuore. Da non trascurare, come è stato per l’evoluzione di Kaggle stesso, l’aspetto formativo della piattaforma. La creazione di una community che fa uso anche di open data lascia spazio a Open Data Playground per diventare un punto dove si possono aggregare esperti dati. Esperti dati che possono collaborare e supportarsi vicendevolmente nel trovare nuove soluzione e condividere spunti che emergono all’interno delle competizioni e che non si esauriscono alla fine della competizione stessa. Formazione, selezione di risorse e community sono il giusto mix per creare un incubatore e acceleratore di idee, in un momento in cui i dati sono sempre più un driver di innovazione in tutte le aree aziendali.
👃Investimenti in ambito dati e algoritmi. The importance of creating scenarios rather than predictions
La segnalazione di un importante round estivo nel edtech italiano e cioè i 7.65 milioni di euro andati a Treccani Futura mi permette di sottolineare l’importanza, soprattutto all’interno delle organizzazioni moderne di riuscire a disegnare e comunicare molto bene scenari piuttosto che previsioni. Nonostante la grande mole di dati che il machine learning riesce a digerire quando si lavora con la datascience ai fini di scelte strategiche è più importante riuscire a definire dinamicamente scenari piuttosto che cercare precise previsioni. “La competenza chiave del XXI secolo consiste nel saper leggere i futuri, non il futuro”: queste sono le parole di Andrea Dusi, founder di Treccani Futura, nell’intervista che vi consiglio di leggere e che vi ho segnalato sopra. E nella formazione di Treccani Futura ci sono e ci saranno tante offerte formative legate ai dati e agli algoritmi. Sempre con lo spirito di democratizzare la conoscenza, perché come dice Andrea: “Parlare ai talenti è facile, ma bisogna parlare a tutti, andare nelle periferie, raggiungere chi non ha speranza e non vede prospettive nel proprio futuro”. Sperando, da innovatori come siamo, che il futuro non sia più quello di una volta …
Come ogni quattro puntate della newsletter ho aggiornato, nella mia casa digitale, i link finora condivisi, nel caso te ne sia perso qualcuno!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!