For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è l'ottantaduesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti dell’ottantaduesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Mastering the Data: The Unsung Heroes of Your Database
Quando si discute di data-governance e di complessità nel mondo dei dati all'interno delle grandi organizzazioni, spesso non si attribuisce abbastanza importanza al concetto di Master Data e alla sua gestione. Quest'ultima è più conosciuta con il suo acronimo, MDM, ovvero Master Data Management. I Master Data sono quei dati fondamentali e strutturati che definiscono entità chiave dell'organizzazione, quali clienti, fornitori o prodotti, e che forniscono un punto di riferimento univoco e condiviso per garantire coerenza e accuratezza informativa in ambito aziendale. L'importanza dei master data è chiara in termini qualitativi, essendo spesso lo scheletro dei modelli dei dati dei nostri database, un po’ meno , sorprendentemente, in termini quantitativi. A questo proposito, voglio condividere con te un'analisi proposta da Malcolm Chisholm, un'autorità nel campo della data governance e profondo conoscitore del modello DAMA. In un suo post su Linkedin, divenuto virale, Malcolm illustra visivamente i dati presenti in uno scontrino di un pagamento digitale. Da questa analisi si evince che il 20% dei dati sono Master Data! E se aggiungiamo che il 26% sono Metadata e un altro 20% sono Reference Data, comprendiamo facilmente come gli Event Data, ovvero i dati degli eventi, seppur essenziali, rappresentano solo una porzione dei dati che dobbiamo gestire in azienda per ottenere un risultato finale efficace.
Aggiungo due osservazioni che potrebbero arricchire ulteriormente la tua riflessione su questo argomento:
1. Una delle principali difficoltà nella gestione dei Master Data deriva dal fatto che spesso provengono da diverse aree e flussi all'interno dell'azienda e vengono aggiornati con frequenze differenti. Questo rende la loro gestione ancor più complessa.
2. La rappresentazione visuale della semantica del dato, come realizzata da Malcolm, è estremamente efficace nella creazione di cataloghi di dati destinati a un pubblico variegato (tecnico e business) poiché collega in modo intuitivo il mondo reale (dove si verifica l'evento) con quello dei dati. L’ho sperimentata con successo in diversi momenti della mia vita professionale.
🖐️Tecnologia (data engineering). Talking Without Borders: How AudioPaLM is Shaping the Future of Global Communication
Il sacro Graal della traduzione in tempo reale per tutte le lingue del mondo sembra non essere più un miraggio lontano. Questo rappresenta un passaggio epocale per avvicinare ulteriormente culture profondamente diverse, per le quali la barriera linguistica rappresenta ancora forse il principale ostacolo. Non è un mistero che molte relazioni, ad esempio tra il mondo occidentale e quello orientale, siano rese più lente e difficoltose dal gap comunicativo. Prendiamo per esempio il Giappone, uno dei paesi in Oriente più vicini ai modelli socio-economici occidentali; anche qui le relazioni, solo dal punto di vista culturale e turistico, sono complicate dal fattore linguistico. Superare questi ostacoli ci porrebbe probabilmente di fronte ad una nuova fase dell’evoluzione delle relazioni internazionali o in una nuova fase della globalizzazione. Non siamo ancora a quel punto, ma l’evoluzione recente dei LLMs ci sta avvicinando.
L’approfondimento che ti suggerisco oggi riguarda proprio un modello linguistico, AudioPaLM, un modello di grandi dimensioni per la comprensione e la generazione del parlato. AudioPaLM, come potresti aver intuito dal nome, è stato sviluppato da Google ed ha prestazioni veramente sorprendenti.
Il processo di traduzione speech-to-speech, in maniera un po' meccanicistica ma funzionale all’analisi, si può di fatto dividere in tre passaggi: il riconoscimento dell’audio e la sua trascrizione in testo, la traduzione da una lingua all’altra e la generazione dell’audio finale. Se vuoi capire in dettaglio tutti i passaggi dal punto di vista tecnico di come funziona AudioPaLM, ti consiglio il paper originale, mentre per una sintesi di come funziona ed esempi concreti delle principali funzionalità che già oggi è capace di realizzare, ti consiglio questa pagina dove puoi provare esempi reali. Puoi provare esempi di traduzioni speech-to-speech anche dall’italiano con conservazione del tono della voce, vedere esempi efficaci di traduzione speech-to-text e anche più semplici ma molto accurate trascrizioni audio. Esiste poi un tema più pratico che algoritmico su come rendere agevole e senza barriere la comunicazione con rumore di fondo (immagina una comunicazione in un bar affollato con un cinese) che potrebbe rendere il tutto più complesso. Ma per la comunicazione in tempo reale in ambiente controllato (penso ad una video-call sul web) AudioPaLM e i suoi "fratelli" sono molto vicini all’obiettivo, con tutte le conseguenze sul piano culturale che ne deriveranno. E nel frattempo Spotify annuncia una nuova funzionalità che ti permetterà di sentire qualunque podcast nella tua lingua preferita …
👀 Data Science. Unlocking the Secrets of Time Series with Python and TimeScale
Le time series sono sequenze di dati raccolti in ordine cronologico, come il valore di un'azione ogni giorno o la temperatura ogni ora. Non si tratta solo di una raccolta di numeri, ma di un tesoro di informazioni che ci permette di analizzare il passato, comprendere il presente e prevedere il futuro. L'alta dinamicità del mondo moderno mette alla prova l'analisi di questi dati. Ce ne siamo tutti resi conto durante la pandemia da Covid-19, che ha rappresentato un vero e proprio terremoto per le analisi temporali, rendendo difficile prevedere il breve termine e interrompendo la continuità dei trend annuali di molti fenomeni. Ancora oggi, molte analisi temporali utilizzano il 2019 come punto di riferimento, essendo l'ultimo anno privo di Covid. Probabilmente più di altri tipi di dati, le time series richiedono una profonda conoscenza del fenomeno in esame. Sul fronte tecnologico, Python offre un eccellente ecosistema di librerie per gestire al meglio i principali modelli di analisi. Se vuoi approfondire o semplicemente fare una ripasso, ti consiglio un articolo che parte dalle basi e offre esempi molto concreti. È ospitato da blog di TimeScale, un database open-source specifico per le serie temporali, scritto in C e compatibile con PostgreSQL. TimeScale arricchisce il linguaggio SQL con funzioni aggiuntive per supportare l'analisi delle serie temporali. E se, una volta apprese le basi, ti senti pigro 🙂 e non vuoi scrivere tutto il codice necessario, ti suggerisco di dare un'occhiata a un interessante progetto su GitHub, che è di fatto l'implementazione open-source di ChatGPT Code Interpreter. E non è utile solo per il codice delle serie temporali!
👃Investimenti in ambito dati e algoritmi. Navigating Tomorrow's Terrain: Rex Woodbury's Insightful Trends
"Ho sempre appreso in modo visivo, e i grafici mi aiutano a elaborare le informazioni. Inoltre, sono un modo efficace per descrivere il modo in cui il mondo sta cambiando. L'obiettivo è condividere i grafici che trovo interessanti ed emblematici di temi più ampi.” Questa è la forma dell’approfondimento che ti suggerisco oggi, ovvero 10 “temi” evidenziati con dati e grafici molto efficaci sulle tendenze in corso che stanno cambiando il mondo, soprattutto quello occidentale.
Il tutto è realizzato da Rex Woodbury, Founder & Managing Partner di Daybreak, un fondo di investimento in fase di creazione focalizzato sulle prime fasi di finanziamento di start-up (early-stage funding, per dirla all’americana). Se sei interessato in particolare a questo tipo di iniziative, ti stra-consiglio di leggere il manifesto attorno al quale Rex sta costruendo la sua iniziativa. Ma tornando all’argomento principale dell’approfondimento di oggi, i dieci grafici sulle tendenze in corso nel mondo sono decisamente interessanti.
Sono tendenze, a mio modo di vedere, molto focalizzate sui cambiamenti che stanno portando le nuove generazioni, soprattutto la Gen Z (quella dei nati tra 1997 e il 2012), ma sicuramente influenzeranno la creazione di tantissime iniziative imprenditoriali negli anni a venire, rafforzando e in alcuni casi distruggendo interi settori industriali.
Tra le 10, ti segnalo non la più importante, non sarei in grado di farlo, ma quella che mi appassiona di più, e cioè la (diminuita) fiducia nell’educazione secondaria e universitaria, quella che in inglese si definisce “higher education”. È vero, i dati sono riferiti agli USA, e sono conscio che la scuola USA non sia né quella europea né quella italiana, ma i segnali sono così forti e le tendenze che arrivano anche dalla tecnologia sono così chiare che non possiamo ignorarla, sia come investitori, sia come privati cittadini, e perché no, come genitori. Ma non fermarti al primo trend e leggili tutti: sono convinto che ti saranno molto di aiuto per immaginare scenari a supporto degli investimenti, non solo in termini economici, ma di tempo (di formazione) e di preparazione del tuo futuro lavorativo.
E se non credi all’importanza dei dati americani, come suggerisco sempre a molti amici, colleghi e studenti, dai un’occhiata ai troppo sottovalutati dati dell’Istat. Qui potrai per esempio analizzare le principali tendenze della popolazione italiana, in primis i “drammatici” scenari demografici di fronte a noi, con un dettaglio di distribuzione geografica su celle di 1 km quadrato. E non perderti, se sei abituato ad analizzare i fenomeni attraverso i dati e non attraverso la percezione dei media, le periodiche infografiche Istat come questa sugli incidenti stradali, abbastanza rassicurante soprattutto se hai una cultura di base delle serie storiche, come si parlava nel punto precedente di questa newsletter!
👅Etica & regolamentazione & impatto sulla società. Fast & Accurate: MIT Tech Review on AI's Role in Weather Forecasting
L'accuratezza delle previsioni meteo non è più un semplice argomento di curiosità o utile per pianificare il prossimo weekend. Purtroppo, le ondate di calore e gli eventi meteorologici estremi, come uragani e inondazioni, stanno diventando sempre più frequenti a causa del peggioramento della crisi climatica. Questo rende la produzione di previsioni meteo accurate più importante che mai. Un approfondimento realizzato dal MIT Technology Review esplora come l'intelligenza artificiale stia rivoluzionando anche il settore delle previsioni meteorologiche. Qui, la questione non riguarda solo la qualità delle previsioni, ma anche la loro rapidità. Sapere in anticipo è cruciale per evacuare un'area abitata, un passo fondamentale per salvare vite e risorse economiche. Nell'articolo, troverai i link per ulteriori approfondimenti su tre dei progetti più interessanti in questo campo. Pangu-Weather di Huawei sembra essere in grado di prevedere non solo il tempo, ma anche il percorso dei cicloni tropicali mentre FourcastNet di Nvidia e GraphCast di Google sembrano avere performance già superiori rispetto al modello di previsione meteorologica di ECMWF (European Centre for Medium-Range Weather Forecasts), considerato il gold standard per le previsioni meteorologiche a medio termine (fino a 15 giorni di anticipo).
Se ti appassionano le previsioni in generale, e non solo quelle meteorologiche, ti segnalo questo post. Parla in dettaglio dei progressi dell'AI, utilizzando come riferimento Metaculus, un affascinante progetto lanciato nel 2015 da un data scientist e due fisici. Questo progetto sta guadagnando popolarità, anche grazie al principio della "saggezza della folla (selezionata)”. 🙂
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!