For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centottesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del centottesimo numero:
🖐️Tecnologia (data engineering). Stefano Fiorucci: visioni e sfide nel cuore del machine learning
Presentati
Stefano Fiorucci. Appassionato di informatica fin da bambino, ho studiato Ingegneria Civile, ma mi sono presto avvicinato al Machine Learning. Professionalmente, ho spaziato tra sviluppo software, Natural Language Processing e Information Retrieval, contribuendo anche a progetti open-source.
Attualmente, sono parte del team di Deepset, dove mi dedico allo sviluppo di Haystack: un framework open-source per l'orchestrazione di Large Language Models. Haystack semplifica la creazione di pipeline NLP, integrando componenti come convertitori di file, modelli e database. Permette di costruire applicazioni basate su RAG (Retrieval-Augmented Generation), Question Answering ed Agenti. Utilizzato internamente da aziende come Apple e Netflix, Haystack è anche il cuore di deepset Cloud, una piattaforma enterprise per team di AI.
Il mio ruolo tra 10 anni sarà …
Variegato :-)
Fino ad ora il mio percorso non è stato lineare. In pochi anni, ho visto la tecnologia evolversi velocemente e il mio lavoro cambiare. Al momento, mi muovo tra sviluppo software, NLP e, soprattutto nel tempo libero, divulgazione e condivisione.
È difficile azzardare delle previsioni a lungo termine, con delle variabili in gioco così mutevoli, sia a livello tecnologico, sia personale. Mi piacerebbe essere ancora guidato dalle mie passioni; mantenere lo spirito open-source in quello che faccio; abbracciare sempre di più il "learning in public".
Qual è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
Vedo tre sfide più vicine al mio ambito di lavoro, cioè i Large Language Models.
1) L'hype intorno a questa tecnologia sorprendente rende difficile distinguere il segnale dal rumore, soprattutto per i non addetti ai lavori.
2) Gli LLM sono una tecnologia notevole, ma anche una commodity linguistica (cit. Piero Savastano). Il loro pieno valore emerge nell'integrazione all'interno di sistemi software complessi.
3) Se è facile creare demo di effetto con i LLM, trasformarle in applicazioni funzionali richiede un lavoro ingegneristico significativo, dove il processo di valutazione riveste un ruolo fondamentale.
In queste ultime due sfide, Haystack offre un valido aiuto.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Fedele allo spirito open-source, segnalo 3 progetti.
1) Hugging Face: il GitHub del Machine Learning: un ecosistema dove trovare e condividere modelli, librerie, guide e demo.
2) Ollama: il Docker degli LLM. Un'ottima risorse per sperimentare con gli LLM in locale, su macchine standard. Lo ho analizzato in un post.
3) Mergekit: una libreria per combinare le capacità di diversi LLM, senza fare fine-tuning. Ne ho scritto qui.
👅Etica & regolamentazione & impatto sulla società. Un viaggio da Stanford alle scuole: trasformare l'educazione anche con la data science
“Il nostro obiettivo principale è ispirare, educare e responsabilizzare gli insegnanti di matematica, trasformando le ultime ricerche sulla matematica in forme accessibili e pratiche”. Così inizia la missione di Youcubed, un progetto affascinante guidato da Jo Boaler, Professoressa di Didattica della Matematica alla Stanford Graduate School of Education. Ma Youcubed non si limita alla matematica in senso stretto, che già di per sé sarebbe notevole; si spinge oltre, affrontando un ambito che ci appassiona moltissimo: la data science. Un’intera sezione del loro sito è dedicata a risorse su come insegnare e stimolare l’uso dei dati nell'intero ciclo di scuola primaria e secondaria, conosciuto negli Stati Uniti come K-12. Il materiale disponibile è vastissimo e offerto in modalità open-knowledge, creato dai principali esperti mondiali non solo in tecnologia ma, soprattutto, su come insegnarla in modo efficace e coinvolgente per i giovani. Tra le sezioni dell'area data science, ho trovato particolarmente interessanti i data talk, pensati per stimolare la curiosità degli studenti, anche di quelli della scuola primaria, guidandoli a sperimentare con i dati in modo concreto!
Non sappiamo se arriveremo presto e in modo produttivo all'uso di chatbot che assistano studenti e insegnanti, come prevede Sal Khan, CEO della Khan Academy, in questa 'intervista al New York Times. Ciò che conta è un percorso educativo che aiuti gli studenti ad utilizzare le tecnologie consapevolmente ed efficacemente.
Anche in Italia, nonostante la tendenza a lamentarci più che ad agire, ci sono iniziative molto valide che supportano questa visione, spesso con un approccio volontaristico. Vorrei menzionare, ad esempio, CD: 50/50 – Coding Diversity, un'associazione no profit volta a promuovere lo sviluppo delle competenze digitali in modo equo tra ragazze e ragazzi, rispettando le diversità individuali. Organizzano eccellenti PCTO (Percorsi per le Competenze Trasversali e l'Orientamento, precedentemente noti come “alternanza scuola-lavoro”), focalizzati sulla data science. L'anno scorso ho avuto il piacere di partecipare come ospite/contributore a un loro evento e ho potuto constatare di persona la loro grande competenza. Anche l'esperienza di CoderDojo ha trovato ampio seguito in Italia. Nel centro urbano dove vivo, siamo riusciti (nel corso di diversi anni) a coinvolgere in vari eventi più di 500 ragazzi del territorio, utilizzando il linguaggio di programmazione più semplice.
Per concludere, vorrei condividere un'immagine di cui sono molto orgoglioso: un momento in cui ho cercato di spiegare, nel modo meno noioso possibile, ad alcune classi del Liceo dove anche ho studiato, come i dati e l'intelligenza artificiale stiano cambiando, in modo forse troppo silenzioso, il nostro modo di lavorare (e di apprendere)!
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Decifrare i Ruoli Tecnici: Tra Tech Lead e Engineering Manager
Quando si discute di ruoli tecnici, il titolo assegnato varia spesso in modo significativo e manca di standardizzazione. Non c'è una tassonomia universalmente riconosciuta su questo tema, il che genera confusione sia nelle fasi di reclutamento sia nelle valutazioni, soprattutto in organizzazioni complesse con sedi in diverse nazioni. L'approfondimento che ti propongo oggi cerca di fare chiarezza su questo tema. Infatti, sebbene presenti un chiaro bias culturale americano, è utilizzabile anche in Europa, soprattutto in un'era post-Covid che ha visto, in particolare nei contesti tech, una riduzione di queste barriere anche tra continenti diversi.
"Nelle organizzazioni tecnologiche odierne, si distinguono due tipi di ruoli di leadership tecnica nei team: i Tech Lead e gli Engineering Manager. I Tech Lead sono chiaramente definiti in 'The Definition of a Tech Lead', mentre il ruolo di Engineering Manager (EM) rimane più nebuloso. In questo articolo esploreremo cinque archetipi di Engineering Manager comunemente incontrati nel settore." Così inizia il post di Pat Kua, un leader tecnologico con oltre vent'anni di esperienza in diverse organizzazioni, che oggi scrive su temi all'intersezione tra tecnologia e gestione delle risorse. Kua propone un framework pratico, suddividendo gli Engineering Manager in cinque categorie in base alle competenze in quattro aree specifiche: tecnica, gestione del team, gestione dei processi e conoscenza del product management. Ho trovato sia la descrizione sia la classificazione particolarmente convincenti.
Sullo stesso argomento, ma con un focus sul trade-off tra conoscenza tecnologica e competenze manageriali nel mondo dei dati, si posiziona il post di
Se lavori in ambito tecnologico o nel settore delle risorse umane con personale tecnico, questi due articoli ti saranno certamente di grande utilità ora o in futuro.
👃Investimenti in ambito dati e algoritmi. Start-up of the month Febbraio: Medical Microinstruments, Inc.
Come ogni mese, grazie alla mia attività di monitoraggio di innovazione e investimenti a livello mondiale, ho l'occasione di segnalarti una startup che ha catturato particolarmente la mia attenzione, distinguendosi per aver ottenuto finanziamenti significativi a febbraio 2024. Questa startup, che si muove nell'ambito dei dati e degli algoritmi, implementa tali tecnologie in modo sostanziale all'interno dei suoi prodotti destinati al mercato.
Cominciamo però con qualche dato su febbraio a livello globale: il numero e i valori degli investimenti hanno mostrato una stabilità rispetto a gennaio 2024, con un lieve aumento se confrontati a febbraio 2023. Per quanto concerne le startup nel campo dei dati e AI, c'è stata una notevole accelerazione, con un aumento del 20% di startup finanziate a febbraio rispetto al 15% di gennaio, e un valore di finanziamento più che duplicato. In particolare, i settori healthcare e robotica sono cresciuti molto questo mese.
E la startup del mese che desidero segnalarti è un gioiello italiano che opera all'intersezione di questi due ambiti. Parliamo di MMI (Medical Microinstruments, Inc.), un'impresa di robotica con sede a Pisa, fondata nel 2015, che a fine febbraio ha annunciato di aver raccolto 110 milioni di dollari in un finanziamento di serie C. Questo round, guidato da Fidelity Management & Research Company, rappresenta l'investimento più cospicuo mai realizzato nell'innovazione della microchirurgia fino ad oggi. I fondi raccolti supporteranno sia la commercializzazione sia lo sviluppo ulteriore del loro sistema chirurgico proprietario Symani. Questa piattaforma chirurgica robotica, la prima del suo genere, è dedicata alla microchirurgia aperta dei tessuti molli e può essere impiegata per interventi di riparazione microvascolare, linfatica e sui nervi periferici. Il sistema Symani vanta il marchio CE per l'uso commerciale in Europa.
Se la tua curiosità è stata stuzzicata e desideri approfondire, il sito dell'azienda offre video e documentazione molto interessanti e accessibili anche per chi non è specialista nel settore.
👀 Data Science. Less is more: la sfida della spiegabilità nei modelli di datascience
“Less is more!”. Questa frase l’avrai sentita varie volte in moltissimi contesti e, spesso, credo sia corretto sposarla senza indugi, soprattutto in una società che fa dell'abbondanza quasi una religione. Questo principio vale anche in alcuni contesti della data science, specialmente quando si tratta di scegliere le variabili da inserire nel nostro modello. Potresti pensare che sia una follia, dato che lo stream “Big Data” ci ha insegnato a inserire la maggior quantità di dati possibile (in termini di numerosità e varietà) per allenare un modello, poiché ciò porta, nella maggior parte dei casi, a migliorarne le capacità previsionali. Tuttavia, questo non è sempre vero, specialmente quando l'overfitting diventa un problema ben noto o quando la spiegabilità è un aspetto cruciale delle nostre previsioni. Avendo lavorato a lungo in mercati fortemente regolamentati, come quelli finanziari, ho affrontato direttamente questo problema. Rendere il più trasparente possibile, ad esempio, quali variabili possano negare il credito a un cliente rappresenta una sfida reale e tangibile. Gli approfondimenti di questa settimana in questa sezione sono dedicati a comprendere questo problema in modo molto pratico. Il primo affronta, attraverso un esempio molto chiaro, il problema della collinearità nella regressione logistica, ossia la dipendenza reciproca tra alcune variabili indipendenti. L'articolo è di Jim Frost, un guru mondiale della statistica, che ti ho già consigliato in passato. Frost evidenzia nel suo post che il problema delle collinearità non influisce sulla qualità della previsione, ma sulla capacità di interpretare i risultati. Proprio per questo motivo, mi è spesso capitato di eliminare alcune variabili per favorire la spiegabilità del risultato. Includerò sicuramente questo articolo nella bibliografia della seconda edizione del corso sulle decisioni aziendali che sto per iniziare in Università Cattolica per gli studenti del secondo anno della magistrale in economia. La collinearità tra variabili è uno degli argomenti più complessi da comprendere e da applicare nella pratica.
Per finire, sempre sull'argomento, se vuoi approfondire ulteriormente, ti suggerisco due risorse che ho trovato estremamente utili:
Questo libro, disponibile in versione open-knowledge, di Christoph Molnar che tratta in modo esaustivo il tema della spiegabilità nel machine learning. Era già stato suggerito da Eugenia Anello nella sua intervista nella puntata 91, e dopo averne utilizzato alcune parti, te lo raccomando caldamente 🙂.
Questo paper, “Explainable Deep Learning: A Field Guide for the Uninitiated”, che, sebbene non sia recentissimo (2021), rimane un ottimo punto di partenza tecnico sul tema della spiegabilità del deep learning.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!