Ciao,
sono Stefano Gatti e questo è il trentottesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del trentottesimo numero:
👅Etica & regolamentazione & impatto sulla società. Data on the unmeasurable: magic or reality?
Ti fornisco due motivi per ascoltare la prima puntata del nuovo Podcast di Istat “Dati alla Mano”:
Il primo è forse il più scontato ma non meno importante: questo podcast ha come obiettivo promuovere la cultura della statistica e direi, ascoltando la prima puntata, anche la cultura del dato. Quindi se leggi la mia newsletter non puoi non essere sensibile a questo tema. E il tutto è spiegato molto bene!
Il secondo è la curiosità di sapere come si può misurare il pil dell’economia non osservabile che è solo apparentemente non misurabile!
La prima puntata del podcast, in dodici minuti si addentra in maniera chiara e semplice nel concetto di NOE, not observable economy, raccontando le sue due componenti principali: l’economia sommersa (le varie tipologie di lavoro in nero) e le attività illegali (spaccio di droga, prostituzione ecc.) svelandoci, per esempio, come si calcola la stima del loro valore aggiunto (sì sembra un ossimoro!). Una parte dell’economia che in Italia vale più del 10% del pil totale e in cui l’economia sommersa la fa da padrone rispetto a quella delle attività illegali (rapporto tra loro poco meno di 10:1). Cristiana Conti e Federico Sallusti aprono alla grande un podcast che mette, come nella nostra community di data-lover, i dati al centro!
👃Investimenti in ambito dati e algoritmi. 6 new theories about AI (to mind for next investments)
Sia che tu sia interessato a fare investimenti in aziende in cui la recente evoluzione dei modelli generativi di AI ha avuto un impatto, sia che tu sia interessato a capire l’evoluzione del mercato del lavoro credo sia interessante leggere la visione su questo tema di Evan Amstrong, direttore di un importante fondo di investimenti: Tidemark.
Ti consiglio di leggere attentamente le 6 teorie su cui poggia la sua visione di futuro perché ciascuna ha il suo impatto potenziale. Come tutte le previsioni hanno un elevato grado di incertezza ma anche solo riflettere su questi temi credo sia molto importante. Ti “spoilero” le due che mi hanno fatto più pensare e che hanno più alta probabilità di accadimento
“Open source makes AI startups into consulting shops, not SaaS companies”
“Invisible AI will be the most valuable deployment of AI”
Entrambe queste teorie se effettivamente si concretizzeranno potrebbero cambiare il modo in cui le start-up in questa area saranno valutate sia in termini tecnici che di multipli rispetto ai ricavi.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. AI Shouldn’t Compete With Workers—It Should Supercharge Them: Artificial Intelligence Vs Augmented intelligence
Molte persone, il sottoscritto compreso, quando parlano di intelligenza artificiale pontificano spesso sull’importanza di usarla per potenziare le facoltà umane e non per sostituirle. Pochi però parlano del perché questo non è ancora successo in maniera così significativa da poter essere rilevato per esempio da un aumento di produttività (per lavoratore) nella maggior parte delle organizzazioni. Per riflettere sul presente (partendo dal passato) e su possibili azioni che potrebbero portare a farlo ti propongo un provocatorio ma pragmatico articolo di Clive Thompson, non proprio un novellino su queste tematiche, scritto su Wired. Partendo da quella che viene definita “la trappola di Turing", cioè la definizione di intelligenza artificiale che ha dominato almeno per tutto il secolo scorso, passando per alcune considerazioni a cavallo tra psicologia e filosofia si analizza perché il focus dell’AI finora sia stato basato sull’emulazione più che sul potenziamento delle facoltà umane. Decisamente più pratiche invece sono le considerazioni di carattere economico. Su questo tema Clive usa le considerazioni del preparatissimo Brynjolfsson, direttore del Digital Economy Lab di Stanford di cui ti lascio una piccola traduzione della parte più significativa: “per spingere le aziende ad abbandonare la trappola di Turing, Brynjolfsson suggerisce alcuni cambiamenti nelle politica governativa sulla tassazione delle imprese e dei lavoratori … Attualmente si tassa il lavoro più duramente del capitale, come ha rilevato un recente lavoro del Brookings Institution. Le aziende ottengono un trattamento fiscale migliore quando acquistano robot o software per sostituire gli esseri umani, grazie a svalutazioni come l'ammortamento del capitale. … le si incoraggia essenzialmente ad automatizzare i lavoratori, anziché mantenerli e aumentarli.”
E’ un ragionamento molto provocatorio ma forse qui ed ora neanche troppo! Forse più pragmatico di alcune forme di reddito di cittadinanza di oggi, o almeno molto complementare ad esse.
🖐️Tecnologia (data engineering). DuckDb and its mum :-) to query analytically the World!!
Oggi ti consiglio un progetto, anzi un database, che sta crescendo molto in termini di ecosistema e di utilizzo, che potrebbe esserti molto utile se hai bisogno di lavorare sui dati in modo analitico e non ti basta Pandas. Il suo nome è DuckDb ed è un progetto open source che si può, come SQLite, installare anche come libreria Python e che ha performance migliori, rispetto a SQLite, per quanto riguarda le query analitiche. Come viene spiegato chiaramente sul sito del progetto i suoi usi consigliati sono:
Elaborazione e archiviazione di insiemi di dati tabellari, ad esempio di file CSV o Parquet
Analisi interattiva dei dati, ad esempio unione e aggregazione di più tabelle di grandi dimensioni
Modifiche di tabelle di grandi dimensioni, ad esempio l'aggiunta di righe, la rimozione e l'aggiornamento di colonne e il trasferimento di set di risultati di grandi dimensioni al client
Non è, come ti dicevo, un database transazionale e quindi non è adatto quando più processi devono scrivere sul database in maniera concorrente.
Il tutto è reso ancora più interessante dal fatto che recentemente uno dei fondi di investimento più importanti al mondo, di cui ti parlo spesso, Andreessen Horowitz ha deciso di investire, insieme ad altri fondi, 47,5 milioni di dollari su questa azienda MotherDuck, che è come dice il nome, la madre del progetto di DuckDb.
Questo significa che il prodotto verrà ulteriormente migliorato con anche la possibilità di averlo disponibile nei public cloud.
👀 Data Science. Great pretrained AI model for a substantial human-made problem: CLIMATEBERT
Negli ultimi anni, i modelli linguistici (LM) pre-addestrati di grandi dimensioni hanno rivoluzionato il campo dell'elaborazione del linguaggio naturale (NLP). Ed è stata una rivoluzione i cui benefici possiamo toccare con mano quando per esempio utilizziamo una traduzione automatica da quasi tutte le lingue presenti sulla terra: il livello non è ancora perfetto ma il miglioramento rispetto a soli 5 anni fa è impressionante. Tuttavia, mentre è stato dimostrato che il pre-addestramento sul linguaggio generale funziona molto bene per il linguaggio comune, è stato osservato che il linguaggio di nicchia pone ancora problemi. In particolare, i testi legati al clima includono un linguaggio specifico che questi grandi modelli comuni non sono in grado di rappresentare in modo accurato. Per questo ti segnalo questo importante progetto a cui ha collaborato un amico Cristiano De Nobili che è anche un grande esperto proprio nell’ambito NLP.
CLIMATEBERT è infatti un modello linguistico basato sui Transformers, una particolare tipologia di modelli di deep learning che ha la sua caratteristica principale nel cosiddetto meccanismo di ’”auto-attenzione”, processando cioè tutti i dati in un unico blocco e differenziando il significato di ciascuna parte dei dati in ingresso. CLIMATEBERT è ulteriormente pre-addestrato su oltre 2 milioni di paragrafi di testi relativi al clima, prelevati da fonti da varie fonti, come notizie giornalistiche, articoli di ricerca e rapporti sul clima.
Questo porta a notevoli miglioramenti sulle performance per vari compiti come la classificazione di testi, la sentiment-analysis e il fact-checking. CLIMATEBERT è stato realizzato da una start-up berlinese Briink, che opera proprio nell’ambito della sostenibilità offrendo servizi per aziende e fondi di private equity, il tutto in collaborazione con PiCampus con cui collabora Cristiano.
Il progetto è open source e puoi trovare qui tutte le informazioni per approfondirlo e utilizzarlo.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!