For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centoquarantottesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del centoquarantottesimo numero:
👃Investimenti in ambito dati e algoritmi. Dall’AI alla robotica: Il viaggio di Simone Di Somma tra innovazione e consulenza
Presentati.
Simone Di Somma. Sono partner in KPMG dove guido l'implementazione di soluzioni di AI per trasformare i processi aziendali cross-industry. Ho un background da imprenditore tech: ho fondato Askdata, startup di AI finanziata da Y Combinator e acquisita da SAP, dove ho guidato l'integrazione della GenAI nei prodotti di Planning & Analytics. Prima ancora, ho creato INNAAS nel settore big data e ricoperto ruoli chiave in Philip Morris e HP. Oggi affianco l'attività di consulenza con la docenza su tematiche legate all’intelligenza artificiale in Luiss e Luiss Business School e investo come angel investor in startup AI innovative, contribuendo attivamente alla crescita dell'ecosistema tecnologico italiano.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10) … continuare ad essere un costruttore di ponti tra tecnologia e persone. Nel tempo ho capito che sono poche le persone che combinano una sensibilità tecnologica profonda con un forte business acumen. Per una serie di coincidenze nella mia vita, ho avuto l’opportunità di fondare la mia prima azienda tech a 14 anni, crescendo così immerso in questi due mondi, sviluppo ed imprenditorialità. Il mio obiettivo rimarrà quello di aiutare le persone a sfruttare a pieno il potenziale tecnologico facilitando e anticipando pezzi di futuro.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
... colmare il divario tra il mondo digitale e quello fisico, permettendo ai robot di realizzare ciò che un tempo sembrava fantascienza. Questo obiettivo assume un’importanza particolare se si considerano macro-trend come l’invecchiamento demografico, soprattutto in Italia, dove le tecnologie robotiche possono supportare sia la società che il business. Gli algoritmi avanzati non solo abilitano nuove imprese, ma possono anche rilanciare settori ormai scomparsi, distribuendo benessere e opportunità in modo più equo es. come una democratizzazione del manufacturing.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Direi Jupyter e la distribuzione Google Colab. Questi strumenti non solo democratizzano l’accesso alla data science e all’intelligenza artificiale, ma accelerano anche lo sviluppo collaborativo, offrendo ambienti interattivi, scalabili e integrati. Google Colab, in particolare, permette di sfruttare risorse computazionali avanzate come GPU e TPU, rendendo accessibile a tutti ciò che fino a poco tempo fa era appannaggio di pochi.
🖐️Tecnologia (data engineering). Simon Willison e le 20 lezioni sugli LLMs del 2024
Non amo particolarmente i bilanci e i riassunti di fine anno. Non perché non creda nell'importanza di momenti di riflessione e analisi, ma perché sono convinto che dovrebbero essere distribuiti in modo più costante durante l’anno. Se facciamo un’analogia, il bilancio economico e la fase di budgeting annuale che quasi tutte le aziende adottano rappresentano, a mio avviso, una perdita eccessiva di tempo concentrata in un solo periodo. Sarebbe meglio diluire questi sforzi lungo tutto l’anno, come propone l’approccio agile al budget chiamato “beyond budgeting”. Peccato che, almeno per ora, questo metodo non sia ancora diventato mainstream 🙂.
Fatta questa premessa, devo fare un’eccezione ai bilanci di fine anno per un articolo che vale assolutamente la pena leggere: “Cose che abbiamo imparato nel 2024 sugli LLMs” di Simon Willison. Se sei appassionato di tecnologia e AI, questo pezzo non può mancare nella tua lista. Non serve necessariamente leggerlo tutto; puoi semplicemente scorrere i titoli dei paragrafi per farti un’idea. Ti inserisco il link in apertura per facilitarne la consultazione puntuale. Ecco le 20 lezioni …
I prezzi degli LLM sono crollati grazie alla concorrenza e a una maggiore efficienza.
La visione multimodale è diventata comune, e audio e video stanno emergendo.
Modalità voce e live camera: la fantascienza è diventata realtà.
La generazione di app guidata dai prompt è già una commodity.
L’accesso universale ai migliori modelli è durato solo pochi mesi.
La valutazione dei modelli e di quello che fa l’AI è davvero importante.
L’intelligenza di Apple è scarsa, ma la libreria MLX è eccellente.
Il miglior LLM disponibile è stato addestrato in Cina per meno di 6 milioni di dollari?
La conoscenza è distribuita in modo incredibilmente disomogeneo.
Tutto ciò che è stato taggato come “LLMs” nel blog del 2024.
Se vuoi sfruttare gli LLM in modo nerd ma davvero efficiente, ti consiglio di dare un’occhiata alla libreria Python creata dallo stesso Simon Willison, che spiega in dettaglio in questo post. Un altro motivo per seguirlo! 😊
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Dati UE a portata di click: esplora lo European Statistical Monitor
Se non conosci o non hai mai dato un’occhiata allo European Statistical Monitor, credo sia arrivato il momento di dedicarci qualche minuto. Questo strumento può tornarti utile per ottenere dati relativi all’Unione Europea o alle sue nazioni. Io ci passo qualche minuto ogni mese: l’aggiornamento è mensile, e trovo interessante seguire l’evoluzione dei dati e leggere il report che li sintetizza.
Lo European Statistical Monitor è un tool interattivo sviluppato da Eurostat, l'ufficio statistico dell'Unione Europea. Offre un accesso rapido e intuitivo ai principali indicatori statistici europei. Si presenta come una dashboard dinamica che ti permette di esplorare dati suddivisi in tre aree tematiche: Economia ed Ambiente, Business e Commercio, Popolazione e Lavoro. Gli indicatori disponibili sono 29, tutti molto utili, soprattutto se vuoi una visione indipendente — lontana dalla polarizzazione che a volte trovi nei media — e desideri confrontare l’andamento di due paesi o di un paese rispetto alla media europea.
Visto che sei in zona 🙂, ti consiglio di dare un’occhiata anche al sito principale di Eurostat. È una vera miniera d'oro per chiunque sia interessato a dati e alle statistiche sull’Unione Europea. Oltre a includere i principali indicatori aggiornati, come quelli presenti nell’European Statistical Monitor, il sito offre numerose informazioni e dati. Una delle sezioni più interessanti è dedicata ai database statistici: se stai facendo ricerche su quasi qualunque argomento legato all’UE, questo è il posto giusto da esplorare.
Personalmente, mi è capitato più volte di usare questi dati come base di partenza per poi approfondire con dataset più specifici o locali. Il sito di Eurostat, come anche quello di Istat, ti mette a disposizione dataset dettagliati e scaricabili in diversi formati (CSV, XLS, ecc.). Tra i punti di forza ci sono anche gli strumenti interattivi, i report e le pubblicazioni. Ci sarebbe anche qualcosa da migliorare: l’accessibilità non è ottimale per i non esperti, e il design istituzionale potrebbe essere reso più accattivante e user-friendly.
👀 Data Science. P-value, test statistici e inferenza: ripassiamo le basi (che spesso dimentichiamo)
“I test statistici sono procedure matematiche utilizzate per determinare se esiste una relazione significativa tra le variabili o una differenza significativa tra i gruppi. Questi test aiutano i ricercatori a fare inferenze sulle popolazioni sulla base di dati campionari.” Così inizia il post di Ajit Jaokar, direttore di corsi per diversi programmi di IA presso l'Università di Oxford, che ti consiglio oggi per ripassare o approfondire un argomento fondamentale: l'inferenza statistica. Si tratta di un tema molto importante, delicato e che, nonostante sia ancora largamente utilizzato, spesso trascuriamo di capirne il significato reale.
Troppo spesso, ad esempio, sento confondere il p-value con i test statistici. In realtà, il p-value non è un test statistico, ma una misura utilizzata nei test (statistici) di ipotesi per valutare la significatività dei risultati. Il p-value rappresenta la probabilità di osservare un risultato almeno altrettanto estremo di quello ottenuto, assumendo che l'ipotesi nulla sia vera (cioè che non sia vera la relazione ipotizzata). Un p-value basso, tipicamente minore di 0.05, indica che i dati osservati sono improbabili sotto l'ipotesi nulla, suggerendo che questa potrebbe essere falsa (e la relazione ipotizzata sia vera).
Per questo motivo, scorrere la lista dei test statistici nel post di Ajit è molto utile. Ti renderai conto di quanto sia vasta la gamma di test disponibili: dalla verifica della normalità di una distribuzione dei dati, alle differenze tra media e varianza di due o più gruppi, passando per l'analisi della relazione o associazione tra variabili, fino ad arrivare alla relazione tra variabile indipendente e dipendente, come avviene con la "famosa" regressione lineare.
Un ambito in cui i test statistici e lo strumento del p-value trovano largo impiego è quello dei trial clinici. E non è difficile capirne il motivo. Sempre Ajit ne descrive molto bene il caso d'uso in questo post, spiegando come vengono eseguiti e perché rappresentano un tipico esempio di inferenza statistica.
Nel numero 144 della newsletter, se vuoi fare un ripasso o se te lo sei perso, avevo parlato proprio della differenza tra inferenza statistica e machine learning, finendo con un mio recente cavallo di battaglia: il concetto di Hybrid AI. Questo approccio, sempre più presente tra noi, rimane ancora troppo silente, forse (o grazie?) alla diffusione della generative AI. 😊
👅Etica & regolamentazione & impatto sulla società. Airbnb e città: dai dati alle soluzioni (im)possibili
Già tre anni fa, il tema dell’impatto del modello di affitto di Airbnb sullo spopolamento dei centri urbani (Venezia è un caso emblematico) e sulla scarsità di case in affitto a lungo termine era al centro del dibattito. Oggi la questione si è ulteriormente complicata: in molte grandi città occidentali è sempre più difficile utilizzare Airbnb (vedi New York) e le prospettive future non sembrano migliorare (vedi Barcellona).
Ti ripropongo per questo il progetto/sito Inside Airbnb, che già nella puntata 27 della newsletter era stato uno degli approfondimenti più apprezzati.
Il progetto si descrive così: “In che modo Airbnb viene realmente utilizzato e influisce sui quartieri della più importanti città? Airbnb sostiene di essere parte della "sharing economy" e di aver sconvolto l'industria alberghiera. Tuttavia, i dati dimostrano che la maggior parte degli annunci Airbnb nella maggior parte delle città sono case intere, molte delle quali vengono affittate tutto l'anno - sconvolgendo le abitazioni e le comunità”.
Nel frattempo il progetto si è notevolmente ampliato, coprendo 36 nazioni e 127 città/aree geografiche, tra cui 10 italiane. I dati, scaricabili in formato grezzo qui, vengono aggiornati regolarmente (a fine 2024 gli ultimi aggiornamenti risalivano al periodo tra settembre e novembre). Inoltre, puoi esplorare i dati su mappa in modo puntuale e analitico grazie all’ottima accoppiata tecnologica usata dal progetto: Mapbox e OpenStreetMap.
Come scrivevo tre anni fa, non sono sicuro che tutta questa regolamentazione e, in certi casi, la proibizione di Airbnb abbiano esclusivamente effetti positivi. Bisogna infatti considerare anche i benefici: la maggiore competizione nel settore turistico e il recupero di immobili che, altrimenti, resterebbero vuoti. Tuttavia, analizzare i dati e, in questo caso, le mappe, ci aiuta a formarci un'opinione su un problema complesso, che non ha una soluzione unica per ogni area geografica né, probabilmente, una soluzione perfetta.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!
Grazie Stefano per la tua newsletter. È sempre preziosa, ogni sua parte.
Il commento di Willison sugli agenti mi ha colpito - perchè la mia esperienza aneddotica è che (persino in italia) siano sperimentati sempre più di frequente, con reazioni più positive che negative. Mi domando quanto del suo commento sia semplice "irritazione" per il fatto che il concetto di agente artificiale venga menzionato a sproposito e alludendo a una intelligenza completamente autonoma (che non è per niente). Per quello che vedo sinora, mi sembra che gli agenti siano semmai delle applicazioni che eseguono un worflow, facendolo però a) in maniera molto più flessibile, versatile e aperta a fonti esterne, rispetto alle precedenti applicazioni simili; b) in maniera infinitamente più semplice da programmare e modificare. Forse meno glam rispetto alla nozione di agente completamente autonomo; ma comunque tanta tanta roba.
Sbaglio ?