For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il quarantottesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del quarantottesimo numero:
👃Investimenti in ambito dati e algoritmi. Who Owns the Generative AI Platform? And the General Landscape from an Investors' Perspective
E’ l’articolo che meglio inquadra la situazione di mercato delle aree della Generative AI. L’ immagine che ti riporto sotto, tratta proprio dall’articolo, ha una capacità unica di spiegare in maniera semplice ed esaustiva i vari attori presenti. Leggila con attenzione se devi valutare investimenti in questo mondo o se vuoi provare a capirlo per utilizzarlo al meglio.
“Siamo incredibilmente ottimisti sull'AI generativa e crediamo che avrà un impatto massiccio nel settore del software e non solo. L'obiettivo di questo post è quello di delineare le dinamiche di mercato e iniziare a rispondere alle domande più ampie sui modelli di business dell'AI generativa.” Questo è un po’ lo spirito di tutto il pezzo che ti consiglio vivamente di leggere in ogni suo dettaglio con anche i link di approfondimento che propone.
E nel finale gli autori, facenti parte del team del famoso fondo americano Andreessen Horowitz, provano a ipotizzare chi sarà il vincitore o i vincitori di questo mercato. Le conclusioni sono molto socratiche, cioè una presa di coscienza che oggi è molto difficile prevedere il prossimo futuro. Resta il fatto che l’analisi, in termini di posizioni attuali di mercato, è veramente completa e condivisibile: “Oggi non sembrano esistere barriere all’ingresso nell'AI generativa. In prima approssimazione, le applicazioni non presentano una forte differenziazione di prodotto perché utilizzano modelli simili; i modelli non presentano una chiara differenziazione a lungo termine perché vengono addestrati su set di dati simili con architetture simili; i fornitori di cloud non presentano una profonda differenziazione tecnica perché utilizzano le stesse GPU; e persino le aziende produttrici di hardware producono i loro chip negli stessi stabilimenti. Ci sono, naturalmente barriere all’ingresso piuttosto “standard”: di scala ("Ho o posso raccogliere più soldi di voi!"), barriere di fornitura ("Io ho le GPU, voi no!"), barriere di ecosistema ("Tutti usano già il mio software!"), barriere algoritmiche ("Siamo più intelligenti di voi!"), barriere di distribuzione ("Ho già un team di vendita e più clienti di voi!") e barriere di pipeline di dati ("Ho esplorato più Internet di voi!"). Ma nessuna di queste barriere tende a essere duratura nel lungo periodo. Ed è troppo presto per dire se effetti di rete forti e diretti stiano prendendo piede in qualsiasi livello dello stack. Sulla base dei dati disponibili, non è chiaro se ci sarà una dinamica winner-take-all nell'AI generativa.”
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Alex Komoreske, Ronald Coase & the Coordination Headwind
Alex Komoroske è, tra le altre cose, uno studioso di sistemi complessi e di organizzazioni, che poi esse stesse, quando hanno più di un dipendente, diventano sistemi molto complessi 🙂. Il contributo che ti suggerisco oggi è una sua presentazione che si chiama “Slime mold” (sì “muffa melmosa” ma la traduzione italiana non rende affatto) che spiega come, a prescindere dal tipo di impostazione organizzativa che ha sposato un’azienda (bottom-up o top- down), con il crescere della grandezza andiamo incontro alla “maledizione del coordinamento” (n.d.r. mia libera traduzione di “coordination headwind”). E chi lavora nel mondo dei dati e degli algoritmi, tematiche molto trasversali all’interno delle aziende, soffre all’ennesima potenza di questa maledizione. Alex nella sua presentazione, molto gradevole dal punto di vista grafico in stile emoji, racconta benissimo questo problema provando anche a misurarlo dal punto di vista matematico con un lodevole uso della probabilità. Non arriva a soluzioni ottime ma fornisce buoni strumenti per gestire questo problema e quindi vale assolutamente la pena arrivare alla duecentesima slide … Ti consiglio comunque di guardare, nel suo sito personale, anche altri contributi legati a tematiche organizzative che viviamo tutti i giorni e su cui offre un punto di vista pragmatico e autorevole.
Ti lascio uno spunto personale. Quello che dice Komoroske, e altri studiosi di organizzazioni moderne, ha un collegamento forte con quello a cui era arrivato nel 1937 Ronald Coase, premio Nobel per l’economia nel 1991, in un suo scritto sulla teoria dell’impresa. Coase, cito dalla voce italiana di Wikipedia, si chiede come “all'aumentare delle transazioni internalizzate dall'impresa, il conseguente incremento della dimensione dell'impresa può implicare rendimenti decrescenti per la funzione imprenditoriale e dunque rendere sempre più costoso organizzare ulteriori transazioni all'interno dell'impresa. La dimensione ottimale dell'impresa è dunque, per Coase, quella che consente, per converso, di ottenere anche la dimensione ottima del mercato: "abbiamo dunque una teoria dell'equilibrio mobile" tra i confini dell'impresa e quelli del mercato.”. Coase e Komoreske. partendo da due motivazioni completamente diverse. evidenziano un problema che viviamo tutti i giorni e cioè il bilanciamento tra svantaggi e vantaggi di realizzare progetti e prodotti all’interno delle aziende o comprarle all’esterno (dal mercato). Entrambi non offrono soluzioni facili e pronte all’uso ma spesso la consapevolezza che il problema non sta nelle persone e nel loro comportamento ma nel sistema può aiutarci a trovare soluzioni “abbastanza buone”.
👀 Data Science. The Bible of Feature Engineering and Feature Selection
“Feature engineering and selection" è l'arte/scienza di trasformare e scegliere i dati nel miglior modo possibile, che implica un'elegante miscela di esperienza di dominio, intuizione e matematica. Questa guida è un riferimento conciso per principianti con la maggior parte delle tecniche semplici ma ampiamente utilizzate per il Data Feature Engineering and Selection.” Questa è la presentazione, troppo modesta, di quella che è una guida completa formata da una parte di descrizione teorica di tutte le fasi e i processi operativi tipici della data analysis e delle fasi appena precedenti alla creazione di un modello, e da una seconda parte molto pratica dove Yimeng Zhang fa esempi concreti, codice python alla mano, su quanto visto in teoria. Il progetto è qualcosa non necessariamente dedicato ai principianti perché sono dettagliate diverse metodologie anche avanzate che possono fare la differenza quando poi si misura la performance di un modello di machine learning! Ti consiglio, se sei un data-expert, di metterlo tra i tuoi preferiti e di consultarlo quando hai qualche dubbio in tutte quelle fasi propedeutiche alla creazione di algoritmi.
🖐️Tecnologia (data engineering).The Technology Transforming AI 🙂
Se sei un appassionato di tecnologia e un data-lover non puoi ignorare la componente tecnologica protagonista dell’hype attuale e cioè i Transformers. Per fare questo non ti propongo una scorciatoia e neppure qualche slide di una società di consulenza famosa ma un post di un tecnologo Xavier Amatriain, VP of Engineering & Product AI Strategy di Linkedin. Xavier ha scritto questo post soprattutto per se stesso perché, scrive, ha “una pessima memoria per i nomi. Negli ultimi anni abbiamo assistito alla fulminea comparsa di decine di modelli della famiglia Transformer, tutti con nomi buffi, ma non esplicativi. L'obiettivo di questo post è quello di offrire un breve e semplice catalogo e classificazione dei modelli Transformer più popolari. In altre parole, avevo bisogno di una scheda informativa sui Transformer e non sono riuscito a trovarne una abbastanza buona online, così ho pensato di scriverne una mia. Spero che possa essere utile anche a voi.” E lo ha fatto molto bene sia che tu legga in un’oretta tutto il post sia che tu lo usi, quando ti serve per capire il tipo di Transformer che hai di fronte o di cui vuoi informazioni. Il progetto è diviso in due parti. Nella prima parte Xavier spiega cosa sono è un Transformer, le sue componenti e anche le sue differenti e recenti evoluzioni, come i Diffusion Model. Lo fa in maniera semplice ma con approfondimenti tecnici e collegamenti con i più importanti paper che hanno fatto la storia del deep learning. La seconda parte è un vero e proprio catalogo di tutte le diverse istanze di Transformer, da quello alla base di ChatGPT a DALL-E2. Ne ha catalogati più di 50 diversi con anche una magnifica categorizzazione per famiglia e un’utilissima timeline della loro evoluzione storica, dal 2018 ai giorni nostri!
👅Etica & regolamentazione & impatto sulla società. American Dream in Data
Il progetto che ti segnalo ha tutti gli ingredienti per essere degno della tua attenzione: un team di ricercatori importanti basati ad Harvard, un dataset primario importante: 21 miliardi di connessioni Facebook opportunamente anonimizzate e uno scopo molto nobile: capire quali possono essere i fattori sociali che possano favorire la mobilità sociale! Per dirla in altro modo quanto possa essere ancora vero il “sogno americano”. Infatti il gruppo di ricerca ha proprio come obiettivo “identificare le barriere che ostacolano le possibilità di emancipazione economica e anche sviluppare soluzioni scalabili che permettono alle persone di tutti gli Stati Uniti di uscire dalla povertà e di ottenere risultati di vita migliori”. Prima di andare alle conclusioni ti consiglio di esplorare in autonomia i dati attraverso l’ottima data-viz che il sito ti mette a disposizione. Scoprirai un’America molto divisa e differenziata nelle tre macro-metriche che vengono messe a disposizione: la connessione economica, la coesione sociale e l’impegno civico. Ma per ciascuna di queste metriche troverai una divisione geografica diversa. Se poi vuoi andare direttamente alle conclusioni: sì il sogno americano è un po’ in crisi ma il progetto offre anche suggerimenti e osservazioni interessanti per chi deve fare le scelte politiche anche se, in alcuni casi, queste osservazioni sono scontate. Ti cito quella che mi ha più sorpreso: il grado di affiatamento di una comunità e i livelli di impegno civico sembrano non avere una forte correlazione con la mobilità socio-economica. Ma anche quelle più scontate vanno lette per farci capire meglio su cosa si basa il sogno americano!
Come ogni quattro puntate della newsletter ho aggiornato, nella mia casa digitale, i link finora condivisi, nel caso te ne sia perso qualcuno!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!