For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il cinquantaquattresimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Nel numero 52 vi avevo chiesto se l’aumento di lunghezza della newsletter, nel corso del suo primo anno di vita, vi piaceva o era meglio tornare al suo formato originale. Nel 57% mi avete risposto che ok così. Sicuramente ascolterò anche quel 43% a cui piaceva più corta! Cercherò di sintetizzare più efficacemente ciascun argomento senza eliminare un minimo di commento alla segnalazione, cosa che tanti mi segnalano di gradire.
Ecco i cinque spunti del cinquantaquattresimo numero:
👅Etica & regolamentazione & impatto sulla società. Umberto Eco’s Antilibrary & the value of raw data
Qualche giorno fa mi è tornato in mente l’ “anti-libreria” di Umberto Eco, concetto ripreso in maniera gustosa da Nassim Taleb nel cigno nero, che sta a significare l’insieme delle conoscenze che non possediamo ma che dobbiamo avere a portata di mano e che per Eco era rappresentato da quella parte della sua sterminata biblioteca di libri non ancora letti. Come Eco amava sottolineare, rispondendo alle domande dei suoi ospiti sulla sua biblioteca, è molto importante che questi libri non letti, siano facilmente accessibili e che si abbia una buona mappa dei contenuti.
Ma cosa c’entra tutto questo con il mondo dei dati? Ecco riflettendo sul concetto dell’importanza dei libri non letti, pensavo che in tutte le nostre aziende, organizzazioni ma anche vite personali esistono un sacco di dati rilevati ma non usati e che sono, a volte, più importanti di quelli che stiamo usando. Credo che sia altrettanto importante riuscire, come segnala Eco per i suoi libri non letti, mappare questi dati, sapere dove sono e farne una corretta manutenzione perché al momento giusto potrebbero servirci e saperli usare correttamente e velocemente spesso fa la differenza! Da qui l’importanza, troppo sottovalutata, dei metadati e anche delle mappe (o delle liste per usare uno strumento sempre caro a Eco) dei dati (database) presenti in azienda e nelle nostre vite.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. A data-driven analysis of the Work From Home Culture Shift
Il Covid ha sicuramente provocato un cambiamento abbastanza strutturale nella cultura del lavoro in quasi tutte le organizzazioni, offrendo ai dipendenti orari di lavoro più flessibili e un maggiore benessere generale. Ma questo fenomeno, come sta succedendo sempre più frequentemente, non è equamente distribuito. Questa analisi, guidata da molti dati pubblici e altri provenienti da Google, mette in correlazione reddito e capacità di beneficiare del lavoro remoto. Lo fa molto puntualmente in UK e USA ma se scorri fino alla fine una delle due analisi troverai i risultati anche per altre dieci nazioni, Italia compresa. Quello che mi ha sorpreso non è tanto la correlazione positiva tra reddito e capacità di beneficiare ma la pendenza diversa di questa correlazione tra le diverse nazioni. Se poi sei un amante della dataviz ti consiglio di dare un’occhiata al sito e ai lavori di uno dei due autori dello studio: Leonardo Nicoletti.
👀 Data Science. A Great “Free Culture” Work (about statistics)
”Statistical analysis is the best way to predict events we do not know using information we do know”. Questo è l’incipit di un ottimo manuale di statistica di Carlo Occhiena che è tra l’altro distribuito secondo la licenza Free Culture, un sottoinsieme di licenze creative commons molto aperto e utile a favorire la diffusione della conoscenza. Il lavoro di Carlo è un'ottima introduzione alla statistica, quella parte di statistica che dovrebbe essere conosciuta da tutte le persone che lavorano con i dati, non solo dai data scientist. Semplicità di esposizione delle varie tematiche e rigore di trattazione formale sono i suoi principali punti di forza. “Ogni decisione che prendiamo” scrive Carlo nell’introduzione “ può essere ricondotta a fenomeni statistici, innati (come la paura del buio, perché al buio aumenta la probabilità di incontrare animali pericolosi) o coscienti (oggi penso che probabilmente pioverà, quindi prenderò l'ombrello). D'altra parte, avvicinarsi anche a calcoli statistici di base (per esempio, la famigerata probabilità di vincere alla lotteria) richiede competenze non banali per applicare concetti e formule non sempre complessi, ma che certamente hanno risultati diversi se usate in modo sconsiderato. Sostengo con certezza che peggio della mancanza di pensiero matematico è l'uso improprio del pensiero matematico. Questo mio lavoro vuole infatti combattere i miei limiti attraverso lo studio e le applicazioni.” Sono completamente d’accordo con Carlo visto che un corretto approccio statistico alla vita aiuta a vivere meglio. Buono studio e/o ripasso 🙂
👃Investimenti in ambito dati e algoritmi. TAM: How and Why it is so important if you are start-upping a new business
“Il dimensionamento del mercato ti aiuta a creare una narrazione olistica e convincente della tua attività, che risuoni con gli investitori e ti aiuti a perfezionare il modo in cui parli e pensi all'evoluzione del tuo prodotto. Prendersi il tempo necessario per valutare a fondo le dimensioni del mercato con una metodologia solida può essere una parte fondamentale della creazione di una narrazione forte.” Questa è la sintesi finale di un bell'articolo sul blog di Bling Capital, uno dei più importanti fondi di investimento californiani. Il TAM (Total Addressable Market) è una delle cose che vengono presentate più di frequente dalle start-up in cerca di investimenti ed è anche una delle cose che ho sentito, in questi meeting, raccontate e stimate in maniera molto approssimativa e con grossolani errori che squalificano anche molti ragionamenti successivi. Questo articolo è veramente pragmatico, esemplificando i comuni errori e fornendo anche esempi pratici e fogli di lavoro per guidare il tuo processo di stima. Ti sarà molto utile in qualunque momento della tua vita avrai una idea di business!
🖐️Tecnologia (data engineering).Maximizing the Potential of Large Language Models: The Three-Pronged Strategy
Ottimizzare, per il proprio caso d’uso, i Large Language Model, che sono alla base della generative AI, è un trend sempre più importante. Questo articolo, che ti suggerisco perché molto chiaro e con ampi rimandi ad ulteriori approfondimenti, spiega quali sono le tre tecniche attualmente più diffuse. Quella più immediata e più facile è il Prompt Engineering, che prevede l'attenta selezione e disposizione delle parole all'interno di un prompt o di una domanda, al fine di guidare il modello verso la produzione della risposta desiderata. Ti ho segnalato diversi corsi, nelle scorsa settimane per approfondirlo. E’ un buon metodo ma non consente la creazione di un modello affidabile e ottimizzato per compiti e domini specifici. Per fare questo servono le altre due tecniche. La più complessa e ancora poco utilizzata è il Reinforcement Learning from Human Feedback (RLHF), un approccio che si rivela più efficace quando il modello deve essere addestrato su una serie di input e richiede la massima precisione. E’ utilizzata per addestrare proprio ChatGPT. Ma come scrive Gradient Flow nell’articolo “la sua accessibilità rimane limitata a causa della mancanza di strumenti disponibili. Inoltre, RHLF richiede lo sviluppo di una funzione di ricompensa che è vulnerabile al disallineamento e ad altri problemi, e rimane una tecnica specializzata che solo pochi team hanno imparato a padroneggiare.” La tecnica che sta andando per la maggiore, anche per i diversi tool disponibili, è il Fine- Tuning, che consiste in una serie di step che, attraverso l’uso di un dataset di dominio, portano a specializzare il modello più generale nell'ambito specifico di utilizzo. Se sei interessato a vedere come funziona il fine-tuning nel mondo di Open-Ai ecco il link migliore: buono studio!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!