For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il cinquantunesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Prima di partire con gli argomenti di oggi … un piccolo momento di celebrazione a 7 giorni dal primo compleanno di questa newsletter: dalla scorsa settimana siamo più di 2000 iscritti! Sì più di 2000 persone che, ogni sabato, leggono, condividono e commentano informazioni su vari aspetti del mondo dei dati e algoritmi. Grazie a tutti per averla fatta crescere, grazie per gli spunti e i consigli che mi date ogni settimana. Senza il vostro supporto il mio lavoro di facilitazione e sintesi sarebbe impossibile!
Ecco il cinquantunesimo numero:
👅Etica & regolamentazione & impatto sulla società. A Pleasant Journey to the Land of Qubit
Un piacevole viaggio verso la terra dei Qubit è la sintesi che ti farei, dopo averlo letto per la seconda volta, del libro di Simone Severini, professore di fisica dell’informazione alla University College London e direttore dell’unità di quantum computing di Amazon Web Services. Te ne parlo oggi, in questa sezione della newsletter, perchè il quantum computing avrà probabilmente un impatto su come risolveremo alcuni problemi di data science in futuro, anche se non sappiamo ancora bene quali o meglio ne abbiamo solo una sfocata intuizione.
Sì, un piacevole viaggio, perché il libro non è il percorso più diretto che si possa fare per avvicinare la computazione quantistica ma è il migliore che abbia finora provato. Il migliore perché, oggi, la cosa più importante non è capire la computazione quantistica, in alcuni casi complessa anche per i talenti che ci stanno lavorando, ma comprendere il perché dobbiamo intraprendere questo viaggio e quali sono le sue difficoltà. Non è il viaggio più diretto perché Simone lo alleggerisce con deviazioni, al percorso principale, attraverso numerose discipline del sapere umano che rendono più piacevole il viaggio stesso e più facile la sua intuizione. Non è il più diretto perché Simone parte affrontando tematiche relative ai limiti della computazione attuale, quella classica che usiamo tutti i giorni con i nostri laptop, raccontandoci la relazione tra la fisica e informazione piuttosto che la teoria della complessità computazionale attraverso la differenza tra problemi trattabili e (attualmente) intrattabili. E la lentezza con cui si viene introdotti alla computazione quantistica è una qualità (del viaggio) che apprezziamo nella seconda parte del libro dove intravediamo la terra dei Qubit. La intravediamo perché Simone non fa sconti ed è estremamente realista nel chiarire quanto non sia chiara ancora la tipologia precisa di tutti i problemi che riusciremo a risolvere con questa tecnologia e come riusciremo a costruire macchine adeguate a risolverli.
Preferisco però non farti tutta la mappa del viaggio ma consigliarti di seguire le indicazioni verso la terra dei Qubit facendoti guidare da Simone …
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Christian Racca - Data Space Explorer
Presentati
Dopo la laurea in ingegneria delle telecomunicazioni, ho maturato competenze tecniche nell’ambito dello streaming e del cloud computing. (Direi la mia “gavetta”)
Mi sono poi dedicato ad approfondire come sostenere la crescita delle startup digitali fornendo infrastruttura e supporto tecnico. (Al tempo Amazon era solo una libreria online e la componente infrastrutturale era un filo meno commodity rispetto ad ora!)
Oggi nel Consorzio TOP-IX gestisco l'unità BIG DIVE (dall’omonimo corso di formazione in ambito Data Science avviato nel 2012) ed il programma di accelerazione data-driven Impact Deal. Dal 2011 sono socio di PLUG, associazione culturale dedita a sviluppare iniziative di social design e nel 2015 ho co-fondato Print Club Torino, un laboratorio DIY per esplorare l'intersezione tra stampa analogica e digitale. Sono coautore di un libro sul Valore dei Dati ed ho co-organizzato per qualche anno il MeetUp DataBeers Torino.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10)
Darei per certo, e qui non serve GPT-10, che non sarò ancora in pensione! È anche abbastanza probabile che la mia vita lavorativa continui a gravitare intorno al tema dei “dati”, ma c’è da chiedersi quali e quante saranno le professioni che potranno dirsi realmente svincolate dal tema dati e IA. Ammetto infine che dopo quindici anni di progetti che potrei definire “di innovazione”, sono sempre più affascinato dalla dimensione del “Prodotto” e non disdegnerei di cimentarmi con una sfida in tal senso. In tutto ciò, trovatelo voi un modello predittivo che sia attendibile su un arco temporale così lungo!?!
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
Viviamo tempi talmente mutevoli e dinamici che le sfide sono decisamente superiori alle certezze. C’è l’imbarazzo della scelta! Provando a focalizzarmi, trovo (e lo pensano anche Gartner o McKinsey) che ci sia ancora un grande potenziale nei dati nella misura in cui questi vengano condivisi ed interconnessi, non necessariamente solo come Open Data. È una delle promesse dei BIG DATA, ad oggi parzialmente mantenuta. Da qualche tempo mi sono quindi interessato al concetto di Data Space, centrale nella Data Strategy Europea.
Data Space what? Ecosistemi “trusted”, abilitati da una tecnologica open, in cui soggetti eterogenei possono esporre cataloghi di dati e renderne possibile l’accesso/utilizzo tramite protocolli e modalità predefinite.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno … Se guardo alle applicazioni quotidianamente aperte sul mio Mac, sono rari i giorni in cui non ci sono Fogli di Calcolo. Ad oggi la ritengo ancora la forma più popolare e democratica per accedere al valore dei dati. Poi, giusto per sembrare meno “obsoleto”, da alcune settimane confesso di aver preso l’abitudine di mantenere sempre una finestra aperta su Chat GPT così da metterlo alla prova su task differenti. Devo dire che, con tutti i limiti di un sistema che sta evolvendo, il potenziale è impressionante e la modalità Prompt che restituisce risposte di senso, testi elaborati ed artefatti, è estremamente performante, soprattutto nella misura in cui ci fa risparmiare tempo o ci fornisce semilavorati di buona qualità.
👀 Data Science. “Knowing Machines” Starts from Data …
“Knowing Machines è un progetto di ricerca che ripercorre le storie, le pratiche e le politiche di come i sistemi di machine learning vengono addestrati a interpretare il mondo.” Il progetto ha un team molto qualificato di studiosi che arrivano prevalentemente dal mondo accademico americano tra i quali Kate Crawford autrice del bestseller “Nè intelligente nè artificiale”.
Non è ancora chiaro a sufficienza, anche per le persone che lavorano nel nostro settore, quanto sia pesante e intrenseco il legame tra i modelli alla base dei sistemi di intelligenza artificiale e le grandi moli di dati con le quali vengono creati e poi aggiornati.
In tale senso è particolarmente utile il lavoro di questo progetto che sta “sviluppando metodologie e strumenti critici per la comprensione, l'analisi e l'investigazione dei dataset di addestramento” studiando “il loro ruolo nella costruzione della "verità di base" per il machine learning. La ricerca si occupa di come gli insiemi di dati indicizzano il mondo, fanno previsioni e strutturano le culture della conoscenza … sostenendo il campo emergente degli studi critici sui dati e contribuendo con ricerche, liste di lettura, strumenti di ricerca … le indagini incentrate sulle epistemologie fondamentali del machine learning.”
E non pensare che sia un lavoro troppo accademico. Se ti sei fatto, lavorando con i dati, domande quali: in che modo i metodi di pre-elaborazione dei dati che ho scelto influiscono sui miei risultati? Oppure in che modo questo set di dati potrebbe contribuire a creare errori o causare danni? Ecco “non esistono risposte universali né azioni perfette, ma solo un groviglio di forme, formati, relazioni, comportamenti, storie, intenzioni e contesti dei dataset”. Il progetto può esserti molto utile. Ma come?
Direi in due modi:
Attraverso la guida, presente sul sito del progetto, dal titolo “A Critical Field Guide For Working With Machine Learning Datasets” che, con una certosina descrizione di tutte le tipologie e caratteristiche dei dataset, ci accompagna in tutto il loro ciclo di vita evidenziando le criticità in ogni fase.
Se invece non sei soddisfatto del documento di sintesi precedente puoi approfondire alcuni aspetti attraverso una carrellata dei più importanti studi e ricerche a livello mondiale. La sezione “Critical Dataset Studies Reading List” è quanto di meglio abbia visto su questo argomento!
👃Investimenti in ambito dati e algoritmi. Italian Venture Capital Growth with Some Recent Concerns …
Per avere una visione completa, in termini numerici, del mercato del Venture Capital italiano ti consiglio, senza dubbio, il report realizzato da Growth Capital che oltre a segnalare i dati dell’ultimo quarto fa un punto su tutto il 2022.
Il report mi piace molto sia per la chiarezza e trasparenza metodologica con cui viene realizzato, che trovi a pagina 4, sia per la classificazione degli investimenti in 10 categorie che consente una buona e leggibile comparazione con il passato.
Il numero più importante, il valore totale degli investimenti in Italia, è molto positivo con un incremento del 48% da 1243 a 1836 milioni di euro nel 2022. Quello che può preoccupare è la decelerazione significativa nell'ultimo quarto dell’anno, in negativo rispetto a tutti gli ultimi tre anni. Bisognerà vedere nel prossimo quarto se si tratta di una frenata transitoria o se la diminuzione degli investimenti in Italia sta arrivando con ritardo rispetto al resto del mondo. Cassa Depositi e Prestiti è l’investitore con frequenza più alta nei deal: faccio fatica a qualificarlo come segnale di forza o debolezza per il settore. Quanto alle singole aree di investimento, quelle a noi più vicine sono entrambe molto positive. La parte Education & HR, seppur piccola in termini assoluti, ha una crescita 6X rispetto al 2021 e alla media storica. Il mondo dei dati e dell’intelligenza artificiale lo puoi trovare all’interno dell’area software che cresce del 50% passando da 100 a circa 150 milioni di euro. Bene ma numeri veramente piccoli … paragonabili ad un round C americano!
🖐️Tecnologia (data engineering). Refactoring Guru
Anche il mondo dei dati e degli algoritmi non è affatto immune dal problema del debito tecnico, termine introdotto nel 1992 da Ward Cunningham, programmatore e coautore del Manifesto per lo sviluppo agile del software. Con debito tecnico, cito la voce italiana di wikipedia, “si intende un insieme di possibili complicazioni che subentrano in un progetto, tipicamente di sviluppo software, qualora non venissero adottate adeguate azioni volte a mantenerne bassa la complessità.” E questo succede, nei progetti, per i motivi più svariati che vanno dalle esigenze di andare velocemente sul mercato alla mancanza di conoscenza di chi sviluppa o semplicemente di collaborazione nel team.
Quanto ti accorgi che il debito tecnico diventa rilevante è questo il momento in cui devi intervenire per poter gestire al meglio il tuo codice. E lo puoi fare attraverso diverse tecniche.
Il progetto che ti consiglio “mostra come alcuni concetti quali refactoring, design patterns, SOLID principles e altri aspetti della programmazione lavorano insieme e sono ancora rilevanti a distanza di più di 20 anni dalla loro definizione”.
Esiste un’area a pagamento nel sito ma anche la parte aperta gratuita è fatta bene e offre contenuti pratici utili sia a principianti che a programmatori esperti, perché l’esperienza porta anche a dimenticare alcune buone pratiche e a rifare errori già fatti in passato 🙂.
L’area aperta a tutti è divisa in due parti.
La prima è dedicata alla descrizione dei concetti chiave legati al refactoring. Ti consiglio di partire da qui se non hai molta esperienza nello scrivere codice.
La seconda parte è invece dedicata ai design pattern, cioè soluzioni tipiche a problemi comuni nella progettazione del software. Ogni pattern è un piccolo progetto che si può personalizzare per risolvere un particolare problema di progettazione nel codice. Ho trovato particolarmente utile il catalogo dei 22 design pattern citati con esempi pratici nei principali linguaggi di programmazione, Python compreso.
Buona riduzione del debito … tecnico!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!