For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centoquattresimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del centoquattresimo numero:
👃Investimenti in ambito dati e algoritmi. Innovazione e AI: Il percorso di Paola Bonomo fra formazione continua e il mondo del Venture Capital
Presentati:
Paola Bonomo. Dopo un master a Stanford e diversi anni nella consulenza di direzione, mi sono occupata per diversi anni di eCommerce e marketing digitale; tra le varie esperienze del mondo digitale, ho lavorato in Europa per due aziende della Silicon Valley. Oggi faccio parte del Comitato Investimenti di un fondo di venture capital (VC) e dedico la maggior parte del mio tempo al ruolo di consigliera di amministrazione in società quotate e non quotate: ciò che ho imparato nel digitale torna utile sia per le strategie di crescita, sia nell’area controlli e rischi (esempio: cybersecurity!). Da molti anni infine investo a titolo personale in startup nelle primissime fasi della loro vita, in gran parte insieme ad altri soci di Italian Angels for Growth.
Il mio ruolo tra 10 anni sarà …
Chissà quanto di quello che faccio oggi sarà automatizzato? Ci sono già fondi di VC che usano molto bene i dati per identificare startup promettenti; credo che il fattore umano (reputazione, fiducia) resterà importante, anche se di sicuro ci saranno strumenti più sofisticati a supporto delle decisioni di investimento e della gestione del portafoglio. Allo stesso modo la corporate governance e il lavoro nei consigli di amministrazione si evolveranno, ma la responsabilità tanto dei controlli quanto delle decisioni sarà sempre degli umani che decidono di mettere all’opera gli algoritmi.
Quale è la sfida più importante per chi investe nel mondo dei dati e degli algoritmi oggi?
I volumi di investimento dei VC nel mondo sono stati per due anni in calo, e l’unico settore che ha fatto eccezione è stato quello legato all’AI e in particolare alla Generative AI: siamo in realtà in una sorta di bolla, dove tutto quanto porta un’etichetta di quel tipo ha attirato le attenzioni dei fondi, anche se non era provata la capacità dei team di trovare il product-market fit e di costruire un vantaggio competitivo che non rischiasse di diventare obsoleto in tempi brevissimi. Passata questa fase si tornerà a valutare i fondamentali: stai costruendo qualcosa che risolve davvero un problema e per cui i clienti sono disposti a pagare?
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Non cito una risorsa in particolare, ma mi sono stati molto utili dei corsi che ho scelto, su diverse piattaforme, per approfondire temi caldi. Qualche anno fa ad esempio, attraverso Stanford Continuing Studies, ho frequentato un corso dal titolo Statistics for Artificial Intelligence, Machine Learning, and Data Science; di recente invece, sulla piattaforma Udemy, mi sono cimentata con Master LangChain with No-Code tools: Flowise and LangFlow. Ormai sappiamo che dovremo imparare in continuazione: tanto vale prendere l’abitudine di “tornare a scuola” con una certa frequenza!
PSS (Post Scriptum di Stefano): quando sento persone, come Paola, dalla grande esperienza ed impatto sul sistema economico, parlare con grande enfasi dell’importanza della formazione continua mi convinco sempre di più come investire a tutti i livelli: personale, aziendale e di sistema nazione sulla formazione e sulla sistema educativo è di strategica importanza per la qualità del nostro futuro prossimo.
👅Etica & regolamentazione & impatto sulla società. Trasparenza e Innovazione: l'Italia e il viaggio negli Open Data
Credo che gli Open Data siano uno strumento di democrazia, di equità e di giustizia sociale. Questi dati non solo favoriscono la trasparenza ma rappresentano anche una componente chiave del movimento più vasto dell'open source. Se sei interessato a esplorare i vari aspetti di questo fenomeno, ti consiglio di iniziare dalla voce di Wikipedia in inglese, prestando particolare attenzione alla sezione che tratta gli "Argomenti a favore e contro".
La mia esperienza con gli Open Data è stata profonda: ho avuto l'opportunità di lavorare con questi dati, sviluppare prodotti innovativi e investire in aziende che li utilizzavano. Tuttavia, ho notato che, nonostante l'entusiasmo della community italiana per gli Open Data, la consapevolezza del loro potenziale economico e il loro sfruttamento rimane limitato. Questi aspetti sono fondamentali per garantire la loro sostenibilità e crescita nel tempo.
È interessante notare che, nell'ultima classifica europea sull'adozione degli Open Data, l'Italia si colloca al nono posto tra 35 nazioni, con un livello di maturità del 92%. Oltre all'assenza della Gran Bretagna, che è molto avanzata in questo campo, emergono dubbi sulla valutazione complessiva dell'usabilità di questi dati per progetti su scala nazionale. La frammentazione geografica e i ritardi nella rappresentazione dei fenomeni sono tra le principali criticità nel contesto italiano.
Nonostante queste sfide, in Italia esiste una community attiva e dinamica che lavora senza sosta per superare questi ostacoli. L'
In chiusura, vorrei invitarti a esplorare l'Annuario Istat 2023, da poco uscito, una preziosa risorsa che offre un'ampia panoramica socio-economica dell'Italia. Questo documento, spesso trascurato, è essenziale per chiunque sia interessato agli Open Data e al loro impatto sulla società.
🖐️Tecnologia (data engineering) Quando l'AI incontra il codice: sfide e rivoluzioni nella programmazione
In molte organizzazioni si cerca ostinatamente di capire come l'intelligenza artificiale generativa possa migliorare l'efficienza dei programmatori, in modalità “tempi e metodi” degli anni ‘80, un concetto ben noto a chi, come me, non è più così giovane e lo ha visto applicato in altri contesti. È un po' come cercare di prevedere il tempo che farà un aspirante runner nella sua prima maratona basandosi sui suoi primi tre allenamenti dopo anni di sedentarismo! Non sto dicendo che sia inutile raccogliere dati su questo, ma sicuramente non è l'unica cosa che si può fare. Per questo ti suggerisco due approfondimenti che possono aiutarci a fare qualche passo avanti nella comprensione di quanto effettivamente gli assistenti AI possano migliorare la vita di chi scrive codice.
Il primo è un paper non recentissimo, datato fine aprile 2023, che esamina su un campione di programmatori le conseguenze in Italia del ban di ChatGPT da parte del Garante della Privacy. Condotta da due ricercatori australiani della Monash University di Melbourne, questa ricerca ha utilizzato i dati di GitHub (con le Release come KPI principale per misurare la produttività). Ecco una sintesi delle conclusioni anche se ti consiglio la lettura completa dello studio perché ci sono considerazioni e metodologie utilizzate che si appiattiscono nelle conclusioni:
"Abbiamo analizzato l'attività di GitHub di oltre 8.000 utenti italiani e di altri paesi europei per misurare la produzione individuale di software e codice. Abbiamo scoperto che il divieto improvviso di ChatGPT ha ridotto la produttività degli utenti italiani di circa il 50% nei primi due giorni successivi al divieto, per poi non mostrare ulteriori effetti. Questo andamento suggerisce che gli utenti hanno trovato modi per aggirare il divieto, come evidenziato dall'aumento delle ricerche di VPN di circa il 52% e dall'uso dei ponti Tor del 9,4% nei giorni successivi al divieto. Questi risultati indicano che i blocchi tecnologici possono avere effetti negativi sull'economia, pur avendo buone intenzioni, spesso risultano inefficaci e possono causare decrementi di produttività almeno a breve termine…"
Il secondo approfondimento che voglio suggerirti si concentra sull'approccio che ritengo più promettente in questo momento storico, in cui stiamo tutti cercando di capire come utilizzare al meglio questi strumenti. Credo infatti che la scrittura di codice sarà sempre più orientata verso un approccio test-driven, e quello che il team di CodiumAI, una start-up attiva in questo settore, ha recentemente pubblicato sembra confermare questa direzione. Questo non si limita a un semplice cambio di metodo, ma rappresenta un approccio radicalmente diverso e, per certi versi, più complesso rispetto a quello attualmente offerto da strumenti come GitHub Copilot. Questo nuovo metodo, descritto da CodiumAI nell'articolo "State-of-the-art Code Generation with AlphaCodium – From Prompt Engineering to Flow Engineering", è molto di più della mia semplificazione ed un nuovo modo di programmare con gli LLMs. È, a mio avviso, uno degli approcci più interessanti al momento per la scrittura di codice assistita dagli LLMs. Se non riesci a leggere leggere l'intero articolo di CodiumAI, le riflessioni del solito "Data Machina" su questo argomento offrono un'ottima sintesi e alcune considerazioni aggiuntive che ritengo significative.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Numeri e imprese: uno sguardo sull'economia europea
“Nel 2021, l'UE contava 31 milioni di imprese, con 156 milioni di dipendenti. Di queste, il 98% (30,3 milioni) erano micro e piccole imprese, ognuna delle quali impiegava fino a 49 persone. Complessivamente, le micro e le piccole imprese occupano 75,8 milioni di persone, ovvero il 49% del numero totale di persone impiegate nelle imprese. Hanno generato 3.300 miliardi di euro di valore aggiunto, pari al 35% del valore aggiunto totale (9.300 miliardi di euro).” Questo estratto è una sintesi del report di fine anno pubblicato da Eurostat, che riporta dati interessanti sulla distribuzione delle aziende a livello europeo. Sebbene questi dati risalgano a due anni fa, la lentezza di questi cambiamenti rende le informazioni ancora molto rilevanti. Se desideri approfondire, ti suggerisco di esplorare il database di Eurostat, dove trovi dettagli per nazione, numero di dipendenti, settore tramite il codice Nace (l’equivalente dell codice ATECO nazionale) e anno.
Ho analizzato la distribuzione per numero di dipendenti delle aziende italiane rispetto a quelle europee e, in effetti, in Italia abbiamo una maggiore presenza di aziende piccole (da 0 a 9 dipendenti) rispetto agli altri cluster (dal -8% nel gruppo da 9 a 19 dipendenti fino a quasi il 50% in meno di aziende con più di 249 dipendenti) il tutto rispetto alla media europea.
Per dati più recenti sull'Italia, ti consiglio di visitare Movimprese di Infocamere, con aggiornamenti a fine 2023. Anche se non è presente la stessa suddivisione per numero di dipendenti, il dettaglio è comunque interessante.
Per deformazione professionale storica, ho confrontato il totale delle aziende italiane secondo Eurostat nel 2021, circa 4,466 milioni, con quelle attive segnalate attive da Infocamere nello stesso periodo, 5,164 milioni, notando una differenza sostanziale di circa 700.000 aziende. La ragione di questa discrepanza non è chiara, forse mi sfugge qualcosa, dato che non sono più nel settore da oltre cinque anni 😊.
👀 Data Science.. Parole in numeri: esplorando gli embeddings nell'NLP e nell'AI generativa
Un concetto fondamentale nell'elaborazione del linguaggio naturale (NLP) e centrale nell'evoluzione attuale della generative AI è quello degli "embeddings". In termini semplici, un embedding è una tecnica che converte parole o frasi in vettori numerici, cioè in sequenze di numeri che ne rappresentano il significato. Prendiamo come esempio le parole "cane" e "gatto". Entrambe indicano animali domestici, ma con caratteristiche distinte. Un embedding potrebbe rappresentare "cane" con [1, 0, 0, 1] e "gatto" con [0, 1, 0, 1]. Qui, il primo "1" in entrambi i vettori segnala che si tratta di un animale domestico, mentre il secondo "1" in "gatto" sottolinea che è un felino. I vettori di embedding non solo riflettono il significato basilare delle parole ma anche le loro relazioni semantiche, dentro uno spazio le cui dimensioni corrispondono al numero delle componenti del vettore. Ad esempio, il vettore di "cane" potrebbe essere più vicino a quello di "lupo" rispetto a quello di "gatto", poiché cani e lupi condividono più somiglianze in termini di caratteristiche e comportamento.
Gli embeddings giocano un ruolo cruciale in NLP per vari motivi:
- Sono un elemento essenziale dei modelli Transformer e stanno all'inizio del processo di elaborazione, funzionando da collegamento tra il linguaggio umano e la rappresentazione numerica comprensibile al modello.
- Facilitano l'analisi delle relazioni semantiche: Gli embeddings permettono di visualizzare le connessioni tra parole e concetti, generando mappe semantiche o reti di parole.
- Comprimono la dimensionalità: Gli embeddings riducono la dimensionalità a una quantità più maneggevole.
Recentemente, gli embeddings hanno fatto passi da gigante, evolvendosi verso rappresentazioni contestuali più sofisticate, come quelle impiegate nei modelli BERT e GPT, che permettono di catturare il significato delle parole in base al contesto in cui vengono utilizzate, offrendo una comprensione ancora più profonda del linguaggio naturale.
Avevo parlato di embeddings anche nel numero 71 della newsletter, ma questa volta voglio proporti un approfondimento davvero interessante che ti aiuterà a comprendere in modo pratico, esaustivo e visuale i concetti introdotti. Si tratta di un post del solito eclettico Simon Willison che ti guida, passo dopo passo, nell'esplorazione della tecnica degli embeddings in Python. Se desideri capire a fondo un aspetto della tecnologia che sta contribuendo a rivoluzionare il mondo, questo è un ottimo punto di partenza.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!
Ciao Stefano ... sul tema 700mila ... credo che la discrepanza risieda nel computo del settore Agricolo ... Eurostat credo usi quanto al processo che determina Asia Imprese di Istat che esclude appunto quel settore ... Movimprese invece ha anche stock attive e saldo natimortalità anche per l'agricoltura e la differenza è ~700mila