For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centodiciannovesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Prima di cominciare una sintesi della survey, che ho lanciato nelle scorse settimane, per progettare l’evoluzione della newsletter.
Innanzitutto, GRAZIE!
Mi avete risposto in tantissimi e con osservazioni di ottima qualità. Ecco la sintesi di quello che mi avete detto con le azioni che metterò in campo:
1) La newsletter vi piace settimanale (92%) in questo formato ma qualcuno (il 30%) la preferirebbe anche un poco più corta. Cercherò di renderla più asciutta e credo che il punto successivo contribuirà in parte.
2) Vi piace l’idea di recuperare gli spunti più letti e più utili del passato (87%) ma con un mio commento (57%) che spieghi il perché sia (ancora) importante. Introdurrò questa consuetudine dalla prossima puntata, andando per ordine cronologico e unendo i dati di vostro gradimento a una mia lettura e analisi attuale.
3) Vi piace l’idea di AMA (Ask Me Anything) come la puntata 100 (92%) e mi suggerite (78%) di farlo ogni 20 Puntate. Nel frattempo mi avete cominciato a mandare un sacco di domande. Vi chiedo, se volete avere un AMA ogni 4 o 5 mesi di mandarmene ancora lasciandole nei commenti o a questo indirizzo mail st.gatti@gmail.com. Vi prometto un AMA per l’estate .. probabilmente il numero 125.
Grazie ancora anche per tutti i feedback che mi avete scritto e per gli apprezzamenti 🙏
Ecco i cinque spunti del centodiciannovesimo numero:
👃Investimenti in ambito dati e algoritmi. VC, Data & AI: una triade non ancora perfetta!
“Come i venture capitalist utilizzano l'intelligenza artificiale (e i dati) per investire in modo più efficace?”. Se questa è la domanda che ti stai facendo, come il sottoscritto, da qualche anno, gli approfondimenti di oggi fanno al caso tuo.
In effetti, la domanda è proprio (quasi) il titolo dell’articolo da cui ti consiglio di partire per avere una sintesi e diversi link per andare in profondità su alcuni casi di successo su questi temi. La persona più autorevole su questo argomento, soprattutto perché non si limita a ragionare sul tema strettamente intelligenza artificiale, ma lo allarga in maniera molto intelligente ai dati, è
Rimane ancora, quello del miglioramento dei processi del Venture Capital, a mio parere, un problema principalmente di dati e di loro qualità, come Andre non dimentica mai di ricordarci. Ho avuto esperienze anche in questo verticale nei miei ultimi 20 anni di lavoro e sottoscrivo quasi integralmente l’analisi e il paper del 2020 di Andre.
Per finire ti segnalo anche questo articolo/collezione di tools e ChatGpts che cercano di portare efficienza a molti processi del venture capital. Ne ho provati (superficialmente) alcuni e mi sembrano decisamente interessanti, per lo meno usati in lingua inglese. Ti lascio con una considerazione/domanda: quanto tutti questi strumenti si stanno concentrando troppo sull’efficienza e ottimizzazione dei processi di gestione di un VC e troppo poco sull'efficacia degli investimenti? Il caso virtuoso di Oberlo, scoperta da InReach Ventures, proprio grazie alla loro piattaforma innovativa data-driven, può insegnarci qualcosa...
🖐️Tecnologia (data engineering). Esperti in azione: la diffusione della architettura MoE degli LLM più recenti
L'architettura MoE (Mixture of Experts) è diventata piuttosto popolare tra gli LLM, soprattutto con il rilascio sul mercato a dicembre 2023 di Mixtral 8x7B da parte di Mistral AI, anche se non è una novità assoluta per le reti neurali. L'architettura Mixture of Experts (MoE) è una tecnica importante e diffusa, particolarmente per la gestione efficiente di modelli di grandi dimensioni. In questo sistema, il carico di lavoro è distribuito tra diversi "esperti", ognuno specializzato in tipi specifici di token o aspetti particolari di un task. Per esempio, un esperto potrebbe essere specializzato nel riconoscimento e nella gestione di nomi propri in vari contesti linguistici, mentre un altro potrebbe concentrarsi sui termini tecnici in documenti scientifici. Non si tratta, come a volte si sente dire, di esperti di un vasto corpo di conoscenza, ma la specializzazione rimane a livello di token.
Un controller intelligente (anche chiamato in inglese "gate network" o "router") dirige gli input verso l'esperto più adatto, ottimizzando sia il tempo di elaborazione sia la precisione del modello. Gli esperti, essendo focalizzati su specifiche nicchie, possono essere allenati più efficacemente su dati pertinenti, migliorando così la scalabilità e l'efficacia del sistema.
L’approfondimento che ti consiglio se vuoi andare oltre è il miglior articolo, pubblicato su Hugging Face, che ho trovato sull’argomento. È ben bilanciato tra (relativa) facilità di lettura e dettagli anche matematici sul funzionamento di questi sistemi.
Come riportato nella sintesi dell’articolo, ecco i 4 punti principali da sapere su questa architettura:
1. Sono pre-addestrati molto più velocemente rispetto ai modelli densi (non con architettura MoE).
2. Hanno un'inferenza più veloce rispetto a un modello (standard) con lo stesso numero di parametri.
3. Richiedono un'elevata quantità di VRAM, poiché tutti gli esperti sono caricati in memoria.
4. Esistono ancora molti aspetti da mettere a punto per queste architetture, ma si stanno facendo grandi passi.
Se poi vuoi vedere qualche esempio di implementazione, oltre quella che ti ho citato all’inizio dell’articolo di Mistral AI, questo post della solita meravigliosa newsletter Data Machina presenta alcuni modelli di Meta, A21Lab, xAi Grok, Databricks e Alibaba che usano MoE.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Non solo cultura del dato 🙂
Avendo scritto un libro che ha la parola "cultura" nel titolo, mi viene spesso chiesto cosa intendo per cultura, non solo del dato. Per rispondere a questa domanda, cito la definizione che preferisco di cultura, ovvero quella dell'antropologo ed esperto di organizzazioni Edgar Schein:
“La cultura organizzativa è l'insieme coerente di assunti fondamentali che un certo gruppo ha inventato, scoperto o sviluppato mentre imparava ad affrontare i problemi legati al suo adattamento esterno o alla sua integrazione interna, e che hanno funzionato in modo tale da essere considerati validi e quindi degni di essere insegnati ai nuovi membri come il modo corretto di percepire, pensare e sentire in relazione a tali problemi.”
Pongo, quando la cito, sempre l'accento sulla parte più pragmatica della definizione, cioè quegli assunti fondamentali e condivisi che hanno aiutato a risolvere problemi alle persone.
L'approfondimento di oggi è riferito ai principi e alla cultura di innovazione di Amazon. Non lo faccio per portarla come modello perché ci sono aspetti che mi piacciono e altri meno. Quello che trovo interessante è la chiarezza e la forza con cui vengono ripetuti e raccontati fuori dall'azienda. Credo che questa sia la loro specificità. Puoi trovare i loro 16 principi commentati qui e la loro definizione di cultura dell'innovazione qui.
Ho incontrato spesso team di Amazon e sono stato anche recentemente al loro quartier generale a Seattle. Quello che mi colpisce sempre è quanto e come vengono raccontati questi principi. L' altro aspetto che colpisce, oltre alla nota ossessione per il Cliente, è quanto sia forte l'accento sulla misurabilità e sui dati all’interno dei principi stessi.
Ma non ti lascio senza segnalarti il mio preferito, che è anche il mio mantra come leader e decision maker, quando ho l'occasione, al lavoro e nella vita, di esserlo: “Are right, a lot”. Cioè cercare di avere una buona statistica di decisioni vincenti, non l'ossessione di non sbagliare, e continuare a imparare senza ripetere gli errori decisionali fatti in passato. Forse la mia spiegazione è semplicistica, e qui trovi una spiegazione migliore di questo principio.
Se ti è piaciuto questo approfondimento sulle culture aziendali, scrivimelo nei commenti e farò altri “episodi” della serie culture aziendali (del dato).
👀 Data Science. Se non lo hai già fatto … dovresti dare un'occhiata alle API di Gemini …
Non ho trovato statistiche a livello globale o perlomeno del mondo occidentale sull'uso globale di API di Large Language Model, né qualcosa di quantitativo che potesse avere un significato simile. Se conosci statistiche accessibili pubblicamente, segnalamele nei commenti o scrivimi.
In assenza di dati quantitativi, una buona panoramica dei principali LLM in uso a livello globale la puoi trovare sul sito di uno dei più diffusi sistemi di integrazione e di automazione: Zapier. Ma non è questo l’approfondimento di questa sezione, bensì l’area su GitHub relativa a Gemini, la famiglia più avanzata di Google.
Sì, perché se OpenAI con la famiglia dei ChatGPT è probabilmente il LLM più utilizzato al mondo in progetti ad alto impatto industriale, tra i follower perlomeno in Europa, Gemini risulta a mio avviso troppo sottovalutato.
L’area su GitHub che ti ho segnalato, essendo anche ben integrata con Colab, ti consente in poco tempo di testare le API di Gemini e di provarle. Su diversi ambiti, l’esperienza è decisamente positiva. Personalmente ritengo che l’analisi di immagini e video sia particolarmente convincente.
Qui puoi trovare anche diversi casi d’uso di esempio implementati direttamente su Colab, pronti per essere provati o modificati a seconda delle tue esigenze.
👅Etica & regolamentazione & impatto sulla società. Dati e AI: il futuro del giornalismo è già qui!
L’intelligenza artificiale sta cominciando a cambiare il modo in cui si fa giornalismo in tutto il mondo e, ben prima dell’avvento della Generative AI, anche come ci informiamo e veniamo informati. Ma prima di suggerirti alcuni approfondimenti su questo tema, vorrei fare un esempio di un argomento altrettanto importante, legato all’informazione e ancora troppo sottovalutato: la consistenza dei dati usati nel giornalismo. Per capirlo a fondo, ti consiglio di leggere un articolo che la bravissima
ha scritto su Internazionale, trattando dei femminicidi e di come si contano. Al di là del tema, femminicidi, particolarmente importante, è cruciale capire l’importanza dei dati su molte tematiche legate all’informazione e sulle decisioni politiche che ne derivano dalla loro analisi. Scrive Donata Columbro:“Definire un fenomeno è il primo passo per capire come misurarlo e quali azioni intraprendere a livello politico … Contare in modo omogeneo e sistematico i casi di violenza contro le donne, e in particolare i casi di femminicidio, è uno degli impegni previsti anche dall’Agenda 2030 … Il database dell’osservatorio promosso dal basso dalle attiviste di Non Una Di Meno (NUDM), che conta ‘femminicidi, lesbicidi e transcidi’, è attualmente lo strumento migliore per monitorare la situazione in Italia … Si tratta di un lavoro di raccolta di ‘controdati’, come li ha definiti la ricercatrice e professoressa del Massachusetts Institute of Technology, Catherine D’Ignazio”.
Una volta condivisa l’importanza dei dati nell’informazione, passiamo a parlare di intelligenza artificiale che probabilmente ci aiuterà, e in parte lo sta già facendo, anche a lavorare meglio dalla definizione alla raccolta dei dati.
Per capire come l’AI sta trasformando il modo in cui si fa informazione, ecco alcuni approfondimenti che ho letto/visto di recente che lo spiegano in maniera molto realistica:
1. Il Webinar di Paul Bradshaw organizzato all’interno di un progetto dei bravissimi . Il webinar, registrato 6 mesi fa, è già datato, vista la velocità con cui evolve la tecnologia, ma come il vino buono è invecchiato molto bene, dimostrando che chi conosce e pratica queste tematiche riesce a costruire scenari d’uso di lungo periodo.
2. I percorsi di formazione di Open The Box. Semplici ma decisamente didattici.
3. Questo articolo di Zach Seward, un giornalista e imprenditore nel settore dei media, attualmente Direttore Editoriale delle Iniziative AI presso The New York Times.
4. Il resoconto di su come i giornalisti italiani percepiscono l'intelligenza artificiale nel giornalismo, emerso da un sondaggio con gli stessi giornalisti organizzato dalla sede lombarda dell'Ordine dei Giornalisti Italiani, il Consolato degli Stati Uniti a Milano, e Slow News.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!
Buongiorno Stefano, ho apprezzato molto l'articolo sui principi e vorrei molti più articoli data oriented e meno AI. Immagino perché ancora non me ne avvantaggio. Sarebbe perfetta una "la cultura dell'AI" separata :) :) a parte gli scherzi trovo ancora fondamentale la parte precedente l'addestramento e la tua esperienza sarebbe molto utile a tutti. Buon lavoro.
Grazie per aver citato quel pezzo sui femminicidi a cui tengo ancora molto.