For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il novantatreesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Prima di cominciare un augurio di buon Natale 🎄e di buone feste ai più di 3000 (da questa settimana) lettori della newsletter che non va in vacanza neppure quest’anno🏃.
Ecco i cinque spunti del novantatreesimo numero:
👅Etica & regolamentazione & impatto sulla società.
: Advocating for Ethical AI and Social EquityPresentati
Sono Diletta Huyskes, una ricercatrice che si dedica con passione all'etica delle tecnologie e all'impatto sociale degli algoritmi e dell'intelligenza artificiale, in particolare nel settore pubblico e nelle disuguaglianze sociali. Dal 2019, come responsabile Advocacy & Policy di Privacy Network, ho guidato iniziative significative nel campo dei diritti digitali, tra cui il lancio del primo osservatorio nazionale sugli algoritmi utilizzati dalla pubblica amministrazione. Nel 2023, ho co-fondato Immanence, una società benefit che valuta gli impatti e i rischi delle tecnologie digitali, con l'obiettivo di promuovere etica, non discriminazione e responsabilità. Il mio percorso accademico include studi in Filosofia e un dottorato in Sociologia presso l’Università degli Studi di Milano e l'Università di Utrecht, dove mi concentro sull’uso di algoritmi e sistemi di intelligenza artificiale da parte delle autorità pubbliche, sui valori socio-culturali coinvolti nella loro progettazione e sulle conseguenze che hanno sulla società. Attualmente sto scrivendo un libro sul rapporto storico tra genere, femminismo e tecnologia, che uscirà nel 2024.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10)
Non posso prevedere con certezza il mio ruolo futuro, dato che ho sempre trovato difficile essere sintetica e sicura riguardo alle mie capacità e al futuro. Tuttavia, in una visione ottimista, mi piacerebbe essere in un mondo che ha abbracciato seriamente la sfida della cultura dell'innovazione. Aspiro a essere sempre più coinvolta nella gestione dell'equilibrio tra sviluppo tecnologico, benessere sociale e rispetto dei diritti fondamentali. Mi vedo occuparmi di questi temi a un livello sempre maggiore , perché vorrà dire che questa sfida è stata presa sul serio e con coraggio anche anche in ambiti politici o istituzionali in qualche modo. La mia speranza è di continuare il mio lavoro di valutazione e consulenza, ma anche di advocacy per dare voce a chi rimane fuori dai dibattiti sui diritti fondamentali e la non-discriminazione, contribuendo a rendere possibile questa sinergia con l’ innovazione ,e di avanzare nella ricerca, in particolare quella empirica, sull'impatto reale che le tecnologie hanno sulla società per continuare a orientare le nostre scelte verso il bene comune.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
La sfida più grande per il mondo dei dati e delle tecnologie, a mio avviso, è garantire il rispetto dei diritti fondamentali delle persone e dei valori sociali ed etici. Questa sfida non è nuova; esiste da quando sono iniziate le rivoluzioni industriali. Tuttavia, non è mai stata completamente affrontata. La mia speranza e il mio impegno sono di trattare la tecnologia come un servizio essenziale, quasi vitale, considerando il suo uso ormai indispensabile sia a livello personale che pubblico. In particolare, penso sia cruciale iniziare a trattare la tecnologia come trattiamo altri aspetti fondamentali della vita, come il cibo o i farmaci, riconoscendo il suo sviluppo in un contesto privato ma evitando di ridurla a una mera questione economica. L'innovazione e la tecnologia hanno spesso avuto un rapporto esclusivo con l'economia, a scapito di altri aspetti importanti. Pertanto, è essenziale aggiungere a questo rapporto uno strato di consapevolezza sociale, culturale e di rispetto dei diritti, per mitigare i danni e promuovere uno sviluppo più equilibrato e responsabile.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno!
Fino a qualche giorno fa avrei risposto sicuramente la newsletter di Laureline Lemoine che seguiva l’AI Act e il processo legislativo con update settimanali. In questi due anni è stata utilissima a me e tante colleghe/i per rimanere aggiornate/i su cosa stava accadendo in Europa e nel negoziato più rilevante per noi in questo momento, ma mi rendo conto possa sembrare un feticismo eccessivo! Le risorse a cui sono più affezionata sono Automating Society, un report annuale dell’ong tedesca Algorithm Watch che ai suoi inizi ha fortemente influenzato la direzione della mia professione e che viene portato avanti durante l’anno con una newsletter sull’impatto sociale di algoritmi e processi decisionali automatizzati. E poi, anche se non è legata al mondo dei dati ma al modo in cui io mi interfaccio con questa materia, seguo Aeon, una vera chicca filosofica, un magazine digitale che produce decine di articoli interessanti e molto stimolanti che spesso toccano anche il nostro rapporto con la tecnologia.
PSS (Post scriptum di Stefano): Se ti sei incuriosito di quello che fa e scrive Diletta e pensi che “nessuna tecnologia sia inevitabile” ti consiglio di vedere il Tedx Ferrara in cui Diletta, recentemente, ha parlato molto bene di questo con esempi decisamente concreti!
🖐️Tecnologia (data engineering). Innovating AI Thought Processes: A Glimpse into AoT's Potential
Per ora è soltanto agli albori, ma visto il team dietro a questo paper, costituito da professionisti di Microsoft e della Virginia Technical University, questo nuovo approccio merita attenzione. Potrebbero aver posto le fondamenta per una nuova era dei Large Language Models (LLMs).
La metodologia 'Algorithm of Thoughts' (AoT) si presenta come una novità promettente, mirando a perfezionare il ragionamento degli LLMs in modo più simile all'intuizione umana, distinguendosi dalla tecnica 'Chain of Thought' (CoT). CoT, che decompone richieste o domande in passaggi più semplici e lineari, può talvolta causare quelle frustranti 'allucinazioni' che tutti conosciamo. Invece, AoT valuta e guida i primi 'pensieri' o passaggi per assicurarne la validità, evitando risultati illogici e migliorando la qualità delle risposte. Quest'immagine, tratta dal paper originale, fornisce un'esemplificazione chiara di questo approccio.
AoT integra il ragionamento umano con metodi algoritmici, superando i limiti di CoT e della tecnica 'Tree of Thoughts' (ToT). Il suo vantaggio principale è la capacità di considerare diverse opzioni per affrontare i sottoproblemi, diversamente dal percorso lineare di CoT o ToT. Questa flessibilità consente ad AoT di mantenere un'efficienza 'con il minimo sforzo', proponendosi come una soluzione competitiva che equilibra efficacemente anche i costi computazionali.
In termini molto semplici (scusate l'ipersemplificazione), AoT potrebbe essere paragonato a un 'gradient descent' applicato al ragionamento su problemi complessi. Per un approfondimento, l'esempio nel paper sulle diverse strategie utilizzate da queste metodologie nel gioco '24' è estremamente chiarificatore.
Pubblicato a fine agosto, ora siamo in attesa di vedere se, nella pratica, AoT si rivelerà efficace come sembra.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Navigating the Data Seas: Insights from GitHub's Latest Trends
GitHub è una piattaforma di hosting per il controllo di versione del codice e la collaborazione, che permette agli sviluppatori di lavorare insieme su progetti di sviluppo software. Fondamentalmente, è un servizio web basato sul software di controllo di versione Git, che aiuta i team di sviluppo a gestire i cambiamenti nel loro codice sorgente nel corso del tempo. Non esiste, a mia conoscenza, una classifica mondiale delle quote di mercato, ma probabilmente GitHub è la più diffusa o, almeno, tra le prime tre insieme a GitLab e Bitbucket, sebbene ce ne siano molte altre. Ti ho introdotto GitHub perché l’approfondimento di oggi, in questa sezione della newsletter, arriva proprio da questa importante piattaforma che mette a disposizione trimestralmente dati molto interessanti sull’uso dei propri servizi, e le analisi che ne escono sono un'ottima fotografia, anzi un film, di come si muove lo sviluppo del software e anche dell’innovazione in tutte le aree mondiali. Un buon punto di partenza è il sito del progetto, molto ben realizzato, e nella parte dedicata alle metodologie spiega cosa è il GitHub Innovation Graph, “che raccoglie le attività degli sviluppatori su GitHub in otto metriche principali, aggregate per economia”, nazioni o gruppi di esse.” ... Sono incluse solo le attività pubbliche. Questo perché GitHub può essere usato dalle aziende senza rendere pubblici i propri progetti.”
Ti consiglio di analizzare le otto metriche una ad una, così come raccontate dallo stesso team di progetto dai dati “quasi grezzi” aggregati a livello di singola nazione. Che tu sia uno sviluppatore, un data-expert o un manager, se il tuo ruolo ha a che vedere con la tecnologia, non puoi non trovare questi dati interessanti. Le crescite in termini di codice scritto (git pushes e repositories), il numero di persone che scrivono codice (developers e organizations), l’evoluzione della diffusione dei linguaggi di programmazione (languages) e il modo in cui le varie aree del mondo collaborano insieme (Economy collaborators) sono tutti gruppi di dati utilissimi.
Se poi devo segnalarti le tre cose che mi hanno più colpito, queste sono: trovare JavaScript prima di Python tra i linguaggi più utilizzati (anche se questo può dipendere dalla tipologia di utilizzatori di questi prodotti), una crescita ancora molto importante in quasi tutte le geografie sia in termini di volumi (di codice) che di risorse umane, e una decrescita significativa delle metriche cinesi. Quest’ultimo fenomeno è talmente evidente che, più che dipendere dalla crisi, peraltro esistente, in questa area del mondo, mi sembra essere un indicatore di scarsa apertura, per non dire mancanza di libertà, come si può vedere da questi fatti accaduti proprio ad inizio 2023.
Se invece vuoi vedere un report già fatto che ti faccia una sintesi (non completa) di questi dati ma che evidenza molto bene anche come l’AI e la generative AI abbia grande impatto su tutto il mondo dello sviluppo software, esiste anche un report che li sintetizza.
👀 Data Science. Kaggle's Journey: Unpacking the Latest in AI and Machine Learning
Kaggle è la community e la piattaforma online per data scientists e appassionati di machine learning più importante e più grande al mondo. Oggi conta più di 15 milioni di utenti che possono accedere a dataset, partecipare a competizioni di data science, collaborare a progetti di analisi dati e modellazione predittiva, e imparare sia in maniera strutturata che attraverso le progettualità stesse. È un ambiente ideale per lo sviluppo e il testing di algoritmi di machine learning in un contesto competitivo e collaborativo. Te ne avevo parlato anche un anno fa in occasione del The State of Data Science and Machine Learning 2022, realizzato attraverso una survey mondiale, e su cui ti avevo condiviso alcune analisi dati. Quest’anno, il 2023 Kaggle AI Report è nato da una competizione di Kaggle stessa. Ho trovato questa scelta particolarmente azzeccata e il risultato raggiunto è veramente unico. È interessante soprattutto il punto da cui si è partiti, ben spiegato nell’introduzione del documento: “Negli ultimi anni, il mondo dell'intelligenza artificiale ha registrato progressi incredibili, con rapidi avanzamenti nelle capacità di modelli grandi come ChatGPT, Llama e PaLM, e piccoli come quelli che possono essere inseriti in un dispositivo o in un browser web... abbiamo assistito anche a un'incredibile diffusione di conoscenze e competenze in tutto il mondo... con esperti di IA che partecipano da ogni angolo del mondo... la nostra comunità lavora insieme per imparare, condividere, competere, collaborare, testare e valutare ciò che funziona davvero nell'AI e nel ML. È con grande piacere che vi diamo il benvenuto al Rapporto Kaggle AI 2023, creato dalla nostra comunità e selezionato tra centinaia di proposte. Il Kaggle AI Report è una raccolta di saggi scritti e inviati dalla comunità di Kaggle nell'ambito di una competizione suddivisa in sette sezioni, che riteniamo rappresentino aree significative nell'ambito della ricerca e della pratica del ML moderno. I contributi sono stati valutati e redatti dai membri della nostra comunità con più esperienza nell'area di appartenenza.”
I sette argomenti trattati nel report sono: AI generativa, dati testuali, dati di immagini e/o video, dati tabellari e/o serie temporali, competizioni Kaggle, etica dell'AI, altro (tutto ciò che non rientra in nessun'altra categoria). La cosa che lo rende unico, oltre alla descrizione dell’evoluzione di ciascun ambito, è la presenza di notebook Python che rendono il report molto pratico e uno strumento formativo unico!
👃Investimenti in ambito dati e algoritmi. Beyond the Hype: Unveiling Real AI Trends in YC's Latest Batch
Y Combinator (YC) è uno degli incubatori di startup più importanti al mondo, se non il più importante, con sede nella Silicon Valley, in California. Fondato nel 2004, YC ha contribuito a lanciare molte startup di successo, tra cui Airbnb, Dropbox e Reddit. Ogni anno ci sono due gruppi (batch) di startup che vengono selezionati, con un numero di partecipanti tra le 200 e le 300 per batch. Il processo di Y Combinator si svolge in diverse fasi:
1. Candidatura, Selezione e Intervista: la fase di selezione vera e propria avviene attraverso un funnel molto selettivo.
2. Accettazione, Finanziamento e Accelerazione: le startup ricevono un investimento di circa $500.000 e partecipano a un programma di accelerazione di tre mesi, lavorando intensamente su prodotto/servizio, strategia aziendale, crescita e ricevendo mentoring da imprenditori esperti.
3. Al termine del programma arriva il Demo Day, un evento in cui le startup presentano i loro progressi e piani aziendali a un'ampia platea di investitori e media, un momento cruciale per attrarre ulteriori investimenti e stabilire contatti significativi nell'ecosistema delle startup.
Per gli investitori, YC rappresenta un'opportunità unica per accedere a un flusso costante di imprese innovative in fase iniziale con un alto potenziale di crescita. Anche per gli investitori di tutto il mondo che non vi partecipano, YC è un palcoscenico importante per capire i settori e i temi più importanti del momento a livello di innovazione.
L’approfondimento che ti consiglio oggi è proprio una riflessione di un ex-alumno di YC e esperto investitore Charlie Guo che racconta in “Lessons from 139 YC AI startups (S23)” in maniera sintetica cosa ha appreso dal Demo Day del secondo batch 2023 delle Start-up di YC. Intanto, per la nostra community, un dato importante che Guo evidenzia è che ben 139 startup su 217 dell’intero batch hanno integrato l’intelligenza artificiale nel loro prodotto o servizio, più del 60%: un dato molto alto. E prosegue con i 5 punti chiave emersi nel Demo Day, te li riporto con un mio commento puntuale:
1. AI is (still) eating the world. Certo, con più del 60% di startup che la usano… I quattro temi/industrie più presenti in ordine di numerosità sono AI Ops, Developer tools, Healthcare + Biotech, Finance + Payments. Personalmente, scommetterei nel medio periodo più sul secondo e il terzo che sul primo e quarto…
2. Copilots are king. Soluzioni verticali per il supporto di qualunque attività umana. D’accordissimo e sarà il tema del decennio…
3. AI Ops is becoming a key sector. Vedi punto uno… ma su questo sono meno d’accordo, o meglio, rimarrà un settore di nicchia rispetto ad altri. Ma i numeri delle startup di questo batch giocano contro la mia osservazione!
4. Who owns the model? Does it matter? E certo che conta… anche se lo scenario tecnologico non è chiaro, ma essere aperti a diverse opzioni (di LLM) potrebbe essere un grosso vantaggio!
5. AI" isn't a silver bullet. E qui riporto il commento di Guo con cui sono assolutamente d’accordo: “Alla fine, forse la lezione più importante è che l'IA non è la panacea contro tutti i mali: bisogna comunque costruire un'azienda difendibile.”
Ah, dimenticavo: se non hai l’abbonamento alla newsletter di Charlie Guo non puoi accedere alle 139 aziende che lui cita come AI-driven, ma qui puoi vedere tutte le 217 dell’intero batch e, con opportuni filtri, puoi trovare quelle di tuo interesse.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!