For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il settantaquattresimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del settantaquattresimo numero:
👅Etica & regolamentazione & impatto sulla società. Your Geeky Reading Guide for the Summer Break
Poiché questa edizione esce proprio a ridosso di Ferragosto, un periodo particolarmente propizio per la lettura, il suggerimento di questa sezione della newsletter è insieme serendipico e rilevante. Infatti, il sito "ReadSomethingWonderful" attualmente offre 214 articoli, brevi saggi, racconti o post, tra i più iconici pubblicati, a occhio, negli ultimi 50 anni. L'elemento che accomuna queste letture è la loro marcata inclinazione "nerd", nel senso più autentico del termine. Gli argomenti proposti sono molto vari e finora nessuno di quelli che ho letto mi ha deluso, anche se occorrono, salvo rare eccezioni, almeno 20 minuti per leggerli e frequentemente più tempo per approfondire gli aspetti più tecnici.
Il miglior modo per fruire del sito è aggiungerlo ai preferiti e far scorrere la lista (che parte sempre da un punto casuale dell'elenco) fino a trovare l'argomento che più ti interessa al momento della ricerca. Ho già segnalato qualcuno di questi articoli nelle precedenti 73 edizioni, come per esempio quello di Wolfram Alpha.
Se però non ti piace l'idea della serendipità e preferisci i consigli, ecco alcuni dei miei preferiti:
- Asimov - The Relativity of Wrong
- Nintil - The Longevity FAQ (questo potrebbe richiederti tutta la vita per leggerlo 🙂)
👃Investimenti in ambito dati e algoritmi. Four Perspectives on Investing in the AI-driven Future
Per investire al meglio il nostro patrimonio - che sia tempo (la risorsa più scarsa che possediamo) o risorse economiche - ci troviamo spesso, nel corso della nostra vita, incapaci di fare previsioni precise a causa della complessità del mondo. Riusciamo soltanto a delineare, con fatica, scenari possibili. Ritengo che, al momento, ci troviamo in uno di quei periodi di alta complessità, soprattutto per quanto riguarda la tecnologia. In questi momenti, scegliere attentamente le fonti informative per disegnare tali scenari diventa ancora più fondamentale. Di recente, ho individuato quattro punti di riflessione che mi hanno particolarmente colpito e che potrebbero risultare utili per gestire al meglio il tuo patrimonio, sia in termini di tempo che di risorse economiche. Ti suggerisco, se puoi, di leggerli nell’ordine in cui te li presento 🙂
Per una volta, non ti segnalerò né la start-up del mese, né un elenco di start-up interessanti, né un settore specifico. Questo potrebbe sembrare uno spot per Microsoft, ma ti assicuro che non lo è. Semplicemente, ritengo che attualmente la compagnia di Redmond stia modellando il presente e il futuro dell'Intelligenza Artificiale (IA) più di chiunque altro, non solo da un punto di vista tecnologico.
Il primo spunto è l'intervista a Satya Nadella,CEO di Microsoft dal 2014, che narra in modo sobrio ma efficace il suo percorso in Microsoft, un percorso fatto non solo di successi, ma anche di molti momenti critici, come quando nel 2009 era a capo del progetto Bing, che si rivelò un clamoroso insuccesso. Tuttavia, è la continuità e la grande resilienza della cultura Microsoft, ancora fortemente influenzata dalla tenacia di Bill Gates, che lo ha portato a risollevarsi, avendo una visione di lungo termine sull'importanza dell'IA. Attraverso varie tappe e investimenti, splendidamente descritti nell’articolo, l'azienda ha raggiunto la sua attuale posizione di vantaggio. Nell'intervista emergono anche molti aspetti della cultura indiana, nazione di provenienza di Satya, sapientemente integrati in quella americana. Come questo a proposito di uno dei momenti in cui ha capito la vera potenza dei nuovi modelli generativi: “Crescendo a Hyderabad, in India, sognavo di poter leggere la poesia persiana, in particolare l'opera di Rumi, tradotta in urdu e poi in inglese. GPT-4 l'ha fatto, in un colpo solo. Non è stata una semplice traduzione automatica, ma qualcosa che ha preservato la sovranità della poesia attraverso due confini linguistici. E questo è molto bello.”
Il secondo spunto è il bellissimo post di Bill Gates, "The Age of AI has begun", che rappresenta uno dei migliori punti di vista, non apocalittici, sul presente e sul futuro dell'IA. È una lettura avvincente e fornisce una preziosa mappa del presente e del futuro dell'IA.
Gli ultimi due spunti sono molto più "specifici", in quanto descrivono due fenomeni che guideranno i cambiamenti nel nostro accesso alla conoscenza e nella nostra produttività.
Il terzo proviene dal mitico Valerio Bassani, di cui ti ho già parlato in passato. Il suo articolo "La fine del traffico?" descrive meglio di qualsiasi altro i prossimi snodi critici per arrivare ai motori di ricerca del futuro, che lui giustamente chiama "motori di creazione". Aggiungo che stiamo già iniziando a vedere, anzi a usare, i primi sviluppi di questo concetto...
Il quarto spunto è un'analisi molto dettagliata di Ark Invest, un fondo di investimento tecnologico americano, che esamina l'impressionante diminuzione dei costi dell'IA generativa. Lo fa confrontando i costi di creazione di 10.000 parole da parte di un creatore freelance nel 2022, di GPT-4 e di Claude 2, la risposta di Anthropic a OpenAI. Questi sono numeri e argomenti su cui riflettere in questo agosto 2023... per immaginare futuri possibili, forse probabili, sui quali investire!
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Benchmarking AI Progress in Banking: Insights from the Evident AI Index 2023
Evident è una piattaforma che monitora mensilmente le attività nell'area dell'intelligenza artificiale delle principali banche mondiali. Questo monitoraggio avviene in riferimento a quattro pilastri chiave dell'ecosistema di una banca: Talento, Innovazione, Leadership e IA Responsabile. Per farlo, estrae dati da milioni di documenti pubblici utilizzando tecniche di Machine Learning.
Ogni anno, di cui questo è il primo quindi non esiste una serie storica, Evident sintetizza questi dati nell'Indice IA. Quest'ultimo vorrebbe rappresentare il benchmark standard globale della maturità IA nel settore bancario. Il documento che ti suggerisco di approfondire questa settimana è l'Evident AI Index 2023, in cui sono presenti 23 banche Nordamericane ed Europee, tra cui due italiane: Intesa e Unicredit. Le banche europee non si collocano bene nella classifica, trovandosi quasi tutte nelle posizioni più basse. Intesa e Unicredit si trovano rispettivamente al diciannovesimo e ventesimo posto. Entrambe le banche italiane occupano posizioni basse in tre dei quattro pilastri: talenti, innovazione e trasparenza, e solo per quanto riguarda la comunicazione e definizione della strategia, si collocano sopra la media.
Piuttosto sorprendente non è tanto la leadership di JPMorgan Chase nella classifica, quanto la distanza in termini di punteggio dalle altre banche posizionate in alto nel ranking. Come ti ricordo spesso il valore di un report aumenta con il passare degli anni perché da una parte, con il tempo, consolida la metodologia e dall’altro fornisce un confronto periodo su periodo, che offre una migliore indicazione dei numeri assoluti.
Nonostante ciò, la lettura dell'intero report evidenzia una particolare attenzione e accuratezza nella scelta e nell'analisi dei dati, frutto del solido background scientifico delle due fondatrici Alexandra Mousavizadeh e Annabel Ayles, e dell'intero team di lavoro. Il team si pone l'obiettivo non solo di monitorare l'adozione degli strumenti di intelligenza artificiale nel settore bancario per aumentare la trasparenza, ma anche di coprire più di 1.000 aziende in diversi settori al fine di identificare le migliori pratiche e accelerare l'apprendimento tra i vari settori. Il progetto è sicuramente da seguire!
🖐️Tecnologia (data engineering). Starcoder Project: A Playground for Learning Python and Beyond
Il Progetto Starcoder è una raccolta di risorse online gratuite per gli studenti (e non solo) che vogliono imparare la programmazione (soprattutto partendo da Python), dall'inizio alla fine 🙂. Questa, parentesi a parte, è la descrizione che il progetto fa di sé. È molto figo, e ti suggerisco di darci un'occhiata. È stato creato e continua ad essere aggiornato da due ex-studenti nerd americani, cskitty e cryptobunny, i loro nomi in arte.
In realtà, è un parco giochi per chi vuole divertirsi imparando, perché la modalità di apprendimento è attraverso problemi e sfide che si risolvono scrivendo codice, principalmente in Python. Nato inizialmente per preparare gli studenti americani all'olimpiade dell’informatica (USACO è il nome del gara americana, ma esiste una versione equivalente anche in Italia, e entrambe portano i vincitori nazionali alla competizione mondiale), ha poi esteso il campo di sfide anche alla crittografia e a Project Euler, un progetto di cui ti ho già parlato. C’è anche un’area dedicata alla risoluzione di algoritmi complessi e una più semplice dedicata al mio amato Scratch, un linguaggio di programmazione visuale, ideato al MIT di Boston principalmente per l'istruzione dei giovani, che permette di creare giochi, animazioni e storie interattive in maniera intuitiva e divertente.
Se poi non ti bastano le sfide del progetto StarCoder, ti consiglio questo corso gratuito del mitico Andrej Karpathy sulla costruzione di reti neurali, partendo da zero, tutto in Python usando Jupyter Notebook: fatto davvero molto bene!
Se invece vuoi, avendo una chiave API di OpenAI, provare ad interagire con ChatGPT via Python (anche su Jupyter Notebook), questa libreria SimpleAIChat è veramente immediata!
👀 Data Science. DiffusionDB: The First Large-Scale Text-to-Image Prompt Dataset
"DiffusionDB è il primo dataset di grande dimensioni contenente prompt da testo a immagine. Include 14 milioni di immagini generate tramite Stable Diffusion, utilizzando prompt e iperparametri specificati da utenti reali. L'ampia e unica diversità di questo dataset, basato sull'interazione umana, offre interessanti opportunità di ricerca per capire l'interazione tra prompt e modelli generativi, identificare i deepfake e progettare strumenti di interazione uomo-IA che aiutino gli utenti ad utilizzare più facilmente questi modelli.”
Questa è la descrizione di DiffusionDB, che è disponibile pubblicamente sul sito 🤗 Hugging Face Dataset. Se sei un data scientist e lavori con le immagini, questo dataset potrebbe essere molto utile per una serie di motivi, non tutti strettamente legati all'Intelligenza Artificiale Generativa.
Se sei interessato a sapere come è stato costruito e vuoi leggere una serie di analisi dati relative a questo dataset, qui troverai l'interessante paper dei creatori del progetto, un team di sei ricercatori della Georgia Tech e di IBM Research. Da considerare, inoltre, che il dataset è stato rilasciato con la licenza Creative Commons CC0 1.0, una delle licenze più aperte disponibili. Questo è un bell'esempio di apertura da parte del team di Stable Diffusion!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!
Bellissimo il "read something wonderful"