For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il sessantasettesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Visto che è la prima puntata dopo le vacanza estive ti propongo un piccolo “ripassino” delle puntate estive che ti potresti essere perso. Questa volta ti segnalo le puntate di luglio con indicazione dei due argomenti che sono piaciuti di più alla community di lettori:
#68 Uno strumento per imparare Python da zero e un modo nerd per “navigare” l’AI EU Act
#69 L'intervista a Donata Columbro e come visualizzare dati in maniera “frugale” ed efficace
#70 Un progetto per prepararsi ad un colloquio di lavoro come data-expert e una guida sul feature engineering
#71 L’intervista a Luca Foresti e tutto quello che vuoi sapere sugli embeddings
#72 Alcuni strumenti di data copiloting & l’introduzione a “In principio era ChatGPT”
Ed ora i cinque spunti del sessantasettesimo numero:
👅Etica & regolamentazione & impatto sulla società. From Classroom to Real-world: Bridging Data, Algorithms, and Life: An Interview with Irene Finocchi
Presentati
Irene Finocchi, Donna, classe '74, informatica, docente universitaria, amante degli algoritmi, del coding e dei problemi sfidanti. Dammi un rompicapo e ci penserò ad oltranza ... il che non vuol dire che lo risolverò necessariamente! Potrei anche aggiungere mamma di due figli adolescenti, amante del fitness, della musica e della moda: e lo aggiungo volentieri, tanto per dare un'idea che puoi essere "normale" come donna anche se lavori in ambito STEM, cosa per nulla scontata nell'immaginario informatico-nerd di tante ragazze (e non solo)!
Nasco in realtà come informatica teorica. Mi è sempre piaciuto studiare. Ricercatrice e poi professore associato alla Sapienza, ho svolto attività di ricerca e didattica incentrata principalmente su algoritmi e strutture dati, grafi in particolare, e problemi combinatorici. Trovo che quelli di facile formulazione ma con soluzioni complesse siano i migliori. Non ho mai disdegnato l'aspetto più ingegneristico ed implementativo: vedere un codice elegante mi piace, così come una bella dimostrazione matematica, o un algoritmo semplice ma sorprendentemente corretto ed efficiente (non a caso, tra i miei titoli nerd preferiti ci sono Beautiful code, Proofs from the book, e Programming pearls).
Negli ultimi tempi, e soprattutto dopo il trasferimento come professore ordinario alla Luiss - ateneo con un focus sulle scienze sociali in cui dirigo un Corso di Studi Triennale in Management and Computer Science – trovo sempre più interessanti vari aspetti legati alle ricadute dell'informatica nella società: analizzare reti con milioni di nodi continua ad affascinarmi e richiede un grande bagaglio scientifico e tecnologico. L'applicazione di queste analisi a contesti reali, in domini economico-sociali, aggiunge una dimensione multidisciplinare ed una possibilità di impatto molto stimolanti.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10)
Magari saperlo! La domanda è difficile non solo per ChatGPT, che tra l'altro Irene Finocchi non sa neppure chi sia, ma anche per me, che amo cambiare e interessarmi di cose nuove: è proprio questo uno degli aspetti più belli del lavoro di docente universitario, mai ripetitivo. Senza tralasciare che le mansioni cambiano abbastanza con le varie progressioni di carriera. Il che all'inizio mi preoccupava un po', per poi scoprire che non mi dispiace affatto, tutt'altro... Comunque, mi vedo certamente ancora ad insegnare, e devo dire che il contatto e il rapporto con i giovani diventa via via più importante: forse è un effetto del tempo che passa. È bello pensare di poter offrire qualcosa, a livello non solo scientifico, ma auspicabilmente anche umano. Fare ricerca sarà un altro tassello importante, ma anche su questo fronte è difficile fare previsioni: il mondo in cui mi muovo, quello degli algoritmi, dei dati, dell'intelligenza artificiale, evolve rapidamente e l'unica strada è tenersi aggiornati. I giovani, spesso inconsapevoli, aiutano moltissimo in questo: si impara anche insegnando. Oltre al fatto che la Luiss offre molte partnership industriali ed eventi (in fondo è così che ho conosciuto Stefano Gatti!) e anche questo ha innumerevoli vantaggi per capire dove soffia il vento e orientare un pochino le vele. Volando un po' più alto, qualche altro sogno nel cassetto c'è, ma i sogni non si rivelano ...
Qual è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
C'è in primis un sfida culturale: si sente spesso dire che i dati siano il nuovo petrolio e ci si aspetta di potersi avvantaggiare delle informazioni che contengono in modo quasi automatico. Ma il petrolio, se non raffinato, non serve a molto. Così per i dati: devono essere raffinati. Gli algoritmi e l'intelligenza artificiale sono le nuove raffinerie. Occorre innanzitutto partire da una buona materia prima, ovvero dati attendibili, puliti, senza bias, per poi poterli analizzare ed estrarne valore economico e sociale. Ciò richiede, oltre alla conoscenza delle tecnologie più moderne, soprattutto quando i dati hanno grandi dimensioni, una solida metodologia scientifica, a volte purtroppo un po' trascurata. Senza una cultura del dato, si possono commettere errori clamorosi, in modo più o meno consapevole, facendo dire ai dati quasi tutto quel che vogliamo. Occorre poi saper porre le domande giuste, senza pensare che valore e strategie emergano dai dati da sole. L'intuizione umana e la conoscenza di dominio sono cruciali in questo. Una formazione multidisciplinare, che coniughi un background informatico-statistico con la conoscenza di principi economici, è molto ricercata nel mondo aziendale, ma figure professionali con tali competenze sono ancora poco diffuse. Occorre poi sviluppare una narrativa e un meccanismo di divulgazione del digitale che evitino da un lato un eccessivo tecno-ottimismo (le macchine non possono fare tutto) e dall'altro facili allarmismi contro il potere o la tecnocrazia degli algoritmi e dell'intelligenza artificiale. Possibilità e limiti delle nuove tecnologie vanno comunicati in modo adeguato. Ci sono questioni etiche e legislative da affrontare, con una tecnologia che corre veloce, in mano a pochi leader del settore, senza lasciare alla macchina legislativa né all'uomo i tempi opportuni per adeguarsi. Ciò richiede una riflessione profonda, ma anche un grande equilibrio per non incorrere in punti di vista estremi.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno… "La cultura del dato," naturalmente! E non è uno scherzo: va esattamente nella direzione di insegnare ad usare i dati in modo corretto ed intelligente. Da docente, questa modalità di comunicazione e di ingaggio di un pubblico ampio, non necessariamente tecnico, non può che piacermi! Ritengo che saper divulgare la scienza e la tecnologia sia importante, anche per formare dei buoni cittadini digitali. Ampliando un po' lo scenario, direi che ci sono blog e risorse in rete che ormai fanno quasi parte del nostro bagaglio culturale. Pensiamo a Wikipedia: chi non la usa?
E volendo andare sul tecnico, al momento non potrei rinunciare a Python come linguaggio di programmazione, e soprattutto all'ampio ecosistema che mette a disposizione degli analisti di dati... Anche se con l'AI generativa e il no coding alle porte, credo che nei prossimi anni vedremo sicuramente novità entusiasmanti in questo ambito.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. From Blank Page Syndrome to Tech Strategy Pro: Taking Cues from Larson's Playbook
“Quando diventi un tech executive in un'azienda, un timer invisibile comincia a ticchettare in lontananza. Tic, tac, tic, tac. A un certo momento, il timer si ferma e qualcuno verrà da te, chiedendoti una strategia sul tema X. Forse non avrà chiaro cosa intende, ma la desidera ardentemente. "Se solo avessimo una strategia sul tema X," sembrano dire i suoi occhi, "tutto andrebbe meglio." Per lungo tempo, questi sguardi speranzosi mi hanno turbato, poiché non sapevo cosa rispondere: cos'è una strategia sul tema X?” Queste sono le parole iniziali di un post che oggi ti presento, dal quale ho tradotto e generalizzato l'introduzione, sostituendo "engineering" con un generico argomento tecnologico di cui potresti occuparti. Spesso nella mia carriera mi sono ritrovato in questa situazione, che riguardasse una strategia sui dati, sull'intelligenza artificiale, sul cloud, sugli strumenti ETL e su altro. Se avessi conosciuto il dettagliato e brillante articolo di Will Larson, mi sarei sentito meno spaesato, in particolare la prima volta che mi sono confrontato con l'argomento e con la sindrome da foglio bianco. Nel suo post, Larson elenca in modo pragmatico, con esempi concreti, come definire una strategia tecnica, dalla motivazione alla realizzazione in 10 passaggi. Ma il post ha molto altro da offrire. Verso la fine, Larson risponde a molte domande che mi sono spesso posto riguardo a questi documenti strategici, come questa: "La strategia non dovrebbe essere bottom-up?" Magari non concorderai con tutte le risposte e i suggerimenti di Larson, ma è fondamentale confrontarsi con chi ha maturato una vasta esperienza tecnica e manageriale. E se devo sottolineare due concetti con i quali sono completamente d'accordo, sono questi:
1. "Il motivo per cui molte strategie scritte non vengono applicate è perché sono visioni di come le cose potrebbero funzionare in un mondo ideale, invece di descrizioni realistiche del presente. Questo non aiuta a delineare un percorso attraverso le sfide attuali per raggiungere lo stato desiderato." Dunque, descrivi il presente senza perderti troppo nel futuro quando stai delineando una strategia. Può sembrare controintuitivo, ma è essenziale.
2. "Prenditi l'impegno di scriverla personalmente! La delega è un'abilità fondamentale per un leader, ma quando si tratta di strategia, darai forma all'intero funzionamento dell'organizzazione. Come leader, possiedi una prospettiva unica per scrivere questa strategia, che nessun altro avrà." I consulenti e i colleghi possono essere d'aiuto, ma farti sostituire in uno dei compiti fondamentali di un manager non invia un buon messaggio a te stesso e alla tua squadra!
🖐️Tecnologia (data engineering). From Kaggle to Hogwarts: Explore AI with Rafael Levy's Wizardly Tools
Se desideri esplorare e sperimentare direttamente alcuni dei componenti più interessanti della generative AI, ti suggerisco di dare un'occhiata a questo Notebook. È stato condiviso sulla piattaforma Kaggle dal data-expert Rafael Levy, ed è davvero notevole. Piuttosto che dilungarmi in lunghe descrizioni, ritengo che questa immagine, che illustra tutte le fasi e gli use cases possibili, possa parlare da sé.
Questa tipologie di use-case rappresentano una delle macro-categorie emergenti nell'uso della generative AI, spesso denominati "Talk to PDF/word files". Tuttavia, preferisco chiamarli "Talk to your written knowledge".
Il fatto che sia pura magia (#sischerza) è anche testimoniato dal fatto che il corpo di conoscenza su cui gira questo progetto è costituita dai 7 libri della saga di Harry Potter 🙂
In breve, con questo progetto avrai l'opportunità di:
Utilizzare Langchain, un framework di cui ti ho già parlato dedicato allo sviluppo di applicazioni basate su modelli linguistici, per creare un chatbot che risponda a domande riguardanti i libri di Harry Potter.
Sperimentare con diversi LLM (Large Language Models), tutti open source e utilizzabili senza chiave API (come ad esempio Llama).
Scoprire il vector database FAISS, che opera in GPU, per gestire il Text Embeddings.
Impiegare Retrieval Chain per estrarre i segmenti pertinenti dalla tua knowledge base.
Riassumere i passaggi cruciali.
Interagire con l'interfaccia chat di Gradio.
Buona magia!
👀 Data Science. Got a Data Problem? See How Big Names & GoFood Tackle Theirs!
Se ti interessa scoprire quali sono i casi pratici di utilizzo del Machine Learning, allora questo database con 200 casi di studio provenienti da 64 delle principali aziende mondiali è ciò che cerchi. Ciò che distingue questa risorsa è la sua capacità di non solo categorizzare le varie applicazioni, ma anche di fornire il link al blog aziendale o alla piattaforma di blogging dove il team che ha sviluppato lo specifico caso d'uso lo descrive con una prospettiva sia business che tecnica. Se stai affrontando una determinata sfida, potresti trovare ispirazione in questo database. Infatti, molte sfide possono essere adattate a diversi contesti, sia dal punto di vista metodologico che dei dati utilizzati. Un esempio è quello di GoFood, che effettua consegne di cibo a milioni di clienti in Indonesia. Una delle loro sfide è predire l’ETA (estimated time arrival) perché “I clienti vogliono capire alcuni parametri a livello commerciale prima di decidere di ordinare. I tempi di consegna sono uno dei fattori chiave che influenzano i tassi di conversione. Storicamente, abbiamo visto che i tempi di arrivo stimati (ETA) più bassi hanno tassi di conversione più elevati - lo dimostra un fattore di correlazione negativo del 53% tra ETA e tassi di conversione …”. La storia di come affrontano questa sfida è affascinante, anche se non viene usata la Generative AI ;-)
👃Investimenti in ambito dati e algoritmi. Euro Tech 2023: What's Hot, What's Not, and Why You Should Care!
Avendo superato la metà del 2023 e dato il tempo alle principali società di analisi dei mercati di raccogliere i dati, dedico questa sezione della newsletter a segnalarti le informazioni più rilevanti e gli approfondimenti salienti relativi al primo semestre dell'anno per quanto riguarda gli investimenti nel venture capital. Incominciamo dall’enciclopedico “State of the European Tech First Look 2023” (484 pagine se vuoi leggere tutta l’edizione annuale) che ci regala una sintesi dei primi 6 mesi. Sebbene l'edizione di metà anno sia più snella, con sole 19 pagine, è comunque densa di informazioni preziose. I punti chiave, a mio avviso, sono:
1. Una notevole resilienza degli investimenti nel mercato europeo. Questo si vede non tanto dai volumi totali, che hanno registrato un -50% rispetto al 2021-22 (come nelle altre aree geografiche), ma dalla numerosità degli investimento di tipo seed e dai capitali che provengono sempre più da investitori domestici piuttosto che dagli USA. Infatti, la percentuale degli investimenti provenienti dagli Stati Uniti si è dimezzata, rispetto ai due anni precedenti, nel 2023, risultando anche decisamente inferiore al periodo pre-covid.
2. Una distribuzione geografica degli investimenti più equilibrata. Paesi come il Regno Unito, la Francia e la Germania sono in forte calo, mentre altri, come l'Olanda e la Danimarca, registrano una crescita assoluta.
3. I multipli di valutazione sono drasticamente diminuiti, passando da una media pre-covid di 7.8 a 5.0, per esempio, nel rapporto Valore azienda/Ricavi per le grandi aziende di Saas (software as a service). Tuttavia, il valore combinato delle aziende tecnologiche europee, sia private che pubbliche, è tornato ai picchi del 2021, raggiungendo i 3 trilioni di dollari. E anche gli indicatori riguardanti i talenti dell'ecosistema europeo, come imprenditori e sviluppatori, mostrano una tendenza positiva.
Ci sono molte altre informazioni nel report, così come in un altro ottimo documento "creandum Dealroom 2023" che ti consiglio di leggere se hai tempo.
Se desideri approfondire due settori che mi stanno particolarmente a cuore, eccoti il report del più importante fondo europeo Brighteye venturesche offre una panoramica sull'Edtech: in deciso calo in tutto il mondo con segnali di resilienza (relativa) dall'Europa che guadagna qualche percentuale di quota a livello globale..
Per quanto riguarda il secondo settore e cioè la Generative AI, area di cui ti parlo regolarmente, noterai numeri in forte crescita in tutti i report che ti ho citato. In questo caso forse che ti suggerisco di leggere questo articolo, partendo dall'eclatante caso Mistral, di cui ti avevo parlato come start-up del mese di Giugno, in cui si tenta di rispondere ad una domanda “fondamentale”: “AI investment is booming. How much is hype?”. Troverai all'interno opinioni e dati stimolanti.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!