For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il sessantaseiesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del sessantaseiesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Everything You've Always Wanted to Know About Data Governance But Were Afraid to Ask...
“Tutto quello che avreste voluto sapere sulla data governance e non avete mai osato chiedere …” Questa potrebbe essere la presentazione perfetta del libro appena pubblicato da Mauro Tuvo. Mauro è uno dei professionisti più stimati nel campo della data governance a livello italiano e, senza esagerare con i complimenti, lo è anche a livello mondiale. Infatti possiede quella rara capacità, non sempre presente in tutti gli esperti di dominio, di immergersi nei dettagli tecnici con competenza mantenendo, al contempo, una notevole capacità di astrazione contestuale e strategica. Come dicono gli americani, è veramente T-shaped! Così, nel libro, riesce sapientemente a raccontarci la sua visione della data governance, partendo dalle definizioni principali e dal modello Dama, per dare ampio spazio all'oggetto della data governance, agli attori, ai processi, alle sue varie declinazioni e a molto altro. Qualificato maestro e abile playmaker, Mauro si fa accompagnare in questo viaggio da 20 professionisti che hanno vissuto il mondo dei dati e della governance in vari contesti e ruoli. Tra questi 20, ho avuto l'onore di essere incluso anch'io. Mauro ritiene (e come potrei non essere d'accordo) che la cultura del dato è qualcosa da governare e su cui puntare. Ho cercato di fornire la mia visione, cercando di essere provocatorio e non scontato. Spero di esserci riuscito. Buona lettura!
🖐️Tecnologia (data engineering). Unlocking Data: A Playful Journey into Efficient Data Access with SQL and Pandas
Saper accedere in maniera efficiente ai dati, sia che abbiate a che fare con un vero database, sia se lavorate con strutture dati in Python con Pandas, è una delle competenze più importanti che, come data expert, potete avere e conservare negli anni. Vi farà risparmiare tanto tempo e, soprattutto, eviterete molti problemi, anche nelle fasi più analitiche del processo di analisi dei dati. Per questo, i due suggerimenti di oggi valgono sia se siete esperti ma volete essere sicuri di non avere lacune in questo ambito, sia se siete alle prime armi.
Il primo suggerimento è un approfondimento sulle basi del linguaggio di programmazione più importante per chi lavora con i dati, e il titolo "Cose importanti che tutti dovrebbero conoscere sul SQL" descrive perfettamente il contenuto. Si legge in 7 minuti e, anche se siete esperti, non è tempo buttato: mal che vada, ripercorrerete un po' di storia dell'informatica!
Il secondo suggerimento, almeno per il sottoscritto, è qualcosa che tutte le volte che non mi tengo allenato usando Pandas, mi fa perdere un sacco di tempo. Riguarda infatti le varie modalità di accesso ai dati tramite Pandas: nel modo più semplice, usando le parentesi standard [], ma anche nelle modalità più efficienti con .loc, .iloc e approcci alternativi, ma a volte molto utili, come df.where(), df.query(), df.get(), df.at(), df.iat(). È un argomento molto ostico, sia per programmatori esperti che per i più giovani, come hanno avuto modo di sperimentare i miei bravissimi studenti economisti della Cattolica in questo semestre. Quindi, se qualcuno di voi, non stanco delle mie lezioni primaverili, mi sta leggendo questo approfondimento, sarà molto utile, soprattutto se non avete ancora superato l'esame, e lo inserirò nelle dispense del prossimo anno 🙂!
👀 Data Science. Decoding the Open Data Impact: The Future is Now
In un mondo in cui il codice è sempre più generato automaticamente, e dove l'intelligenza artificiale accelererà tale tendenza, la differenza sarà sempre più determinata dai dati. Questa è un'affermazione sostenuta a lungo da Andrew Ng, il cui concetto di Data Centric AI è stato citato più volte nella nostra newsletter. Infatti, abbiamo visto che anche l'efficacia dei nuovi sistemi generativi dipende dalla quantità e qualità dei dati utilizzati per l'addestramento. Di conseguenza, l'accesso ai dati e la conoscenza delle fonti di dati disponibili in ogni campo diventa una competenza fondamentale per ogni esperto di dati, indipendentemente dal fatto che egli svolga o meno al ruolo di data-scouter 🙂. Questa settimana, ti propongo un approfondimento che rappresenta una sorta di "bigino" dei siti dove puoi trovare dati accessibili e, nella maggior parte dei casi, gratuiti. Questo non è un elenco esaustivo, ma è un ottimo punto di partenza. Salvati questo approfondimento tra i preferiti: sicuramente ci sarà un momento in cui ti sarà utile. Inoltre, vorrei segnalarti la pubblicazione del settimo rapporto annuale "The State of Open Data", uno studio quantitativo sulle attitudini dei ricercatori verso i dati aperti di tipo accademico. Non si parla quindi di Open Data della pubblica amministrazione, ma di un tipo specifico di dati che possono essere pubblicati insieme a una ricerca scientifica. Il report è realizzato da FigShare, un archivio online ad accesso aperto dove i ricercatori possono conservare e condividere i risultati della loro ricerca, compresi grafici, dataset, immagini e video. FigShare è di proprietà di Digital Science, che a sua volta appartiene al Holtzbrinck Publishing Group, uno dei giganti globali dell'editoria scientifica. Ciò non sminuisce il valore e l'interesse per la survey, ma è importante avere chiaro chi ha realizzato il report e potenziali conflitti di interesse. Il documento merita di essere letto, almeno l'abstract ("key takeaways from the State of Open Data 2022"), perché la consistenza, la solidità e la ripetibilità degli studi scientifici sono temi attuali e critici per la credibilità e l'evoluzione della scienza. Se dovessi riassumere ciò che è emerso (ancora una volta), direi che quasi tutti ritengono fondamentali gli open data associati alle ricerche scientifiche, ma gli incentivi per realizzarlo su larga scala sono ancora troppo bassi... tuttavia, la survey rivela anche tanto altro. E se non ti ho ancora convinto dell'importanza dei dati e dei numeri, guarda cosa può succedere se ti fidi solo dei tuoi sensi 🙂.
👃Investimenti in ambito dati e algoritmi. Cracking the Due Diligence Code: Revealing the Secrets of Successful Acquisitions
Pur non avendo esperienza continuativa, diverse volte nella mia vita professionale mi sono trovato coinvolto in una due diligence, che rappresenta un'analisi approfondita delle informazioni finanziarie, legali e operative di una azienda target, al fine di valutarne la solidità e l'adeguatezza prima di procedere all'operazione di acquisto. Ho vissuto la due diligence da diverse prospettive, sia come acquirente che come acquisito, e posso affermare che è un processo complesso, non facilmente ripetibile, in cui l'esperienza e l'arte sono più utili della scienza. Tuttavia, per sfruttare l'esperienza di coloro che ne hanno compiute molte, compresi gli inevitabili errori, ti consiglio questa ottima check-list che si focalizza sugli aspetti importanti da approfondire durante la gestione di una due diligence.
L'incipit recita: "La due diligence è apparentemente un controllo accurato di un potenziale investimento da parte di un investitore per assicurarsi che tutto sia in ordine, ma poiché le tesi di investimento partono già da dati reali che portano a una tesi, l'obiettivo reale è un esame incrociato ostile del proprio processo di pensiero. Alcune parti di questo elenco sono nate su foglietti adesivi che ho appeso al monitor, ma ho iniziato a rendermi conto che avrei presto esaurito lo spazio disponibile ... L'obiettivo è avere un'euristica che si applichi in generale agli investimenti pubblici e privati in tutta la struttura del capitale, ma l'accento è posto soprattutto sugli investimenti azionari lunghi, pubblici e privati... Non si tratta di un elenco completo, ma dovrebbe essere sufficiente per ottenere una comprensione molto approfondita di una società e del suo contesto più ampio."
A seguire, sono presenti 100 domande suddivise in 7 ambiti:
1. Economics: non solo dati economici, ma anche informazioni complementari per definire scenari futuri dell'azienda e del suo mercato.
2. Incentives: valutazione di come tutti gli stakeholder dell'azienda sono incentivati e allineati al suo successo, non solo i founder.
3. Competitors: analisi della struttura di mercato con una vista dettagliata sui competitor.
4. Internals: un'analisi dettagliata del funzionamento interno dell'azienda, che arriva persino a considerare le opinioni espresse su Glassdoor.
5. External, Internal Cash & Evaluation: approfondimento degli aspetti economici e dei dati finanziari dell'azienda.
6. Timing & Psychology: una parte meno scontata e con un'approccio più americano. Anche se hai esperienza di due diligence ti consiglio di leggerla. Mi sarebbe stato molto utile averla letta qualche anno fa 🙂
7. Misc & Meta: un'ulteriore parte da non tralasciare, che comprende domande non scontate sia per gli investitori sia per chi sta effettuando l'investimento.
👅Etica & regolamentazione & impatto sulla società. Navigating a Homogenized World: AI, the Age of Average, and the Middle Class Dream
Questa settimana ti suggerisco due letture apparentemente in contraddizione, ma che descrivono in maniera molto particolare alcuni fenomeni in corso nella società, a cui la tecnologia e il mondo dell'intelligenza artificiale hanno dato una grossa spinta. Il primo dei due è “The Age of Average”, scritto da Alex Murrell, Strategy Director di una brand agency inglese. Nel suo articolo, Murrell sostiene che sia in atto da diversi decenni una “normalizzazione” dei gusti e delle preferenze in tutti i paesi del mondo. Il suo argomento prende le mosse da un curioso esperimento che due artisti russi fecero all'inizio degli anni '90 per capire i gusti degli Americani, esperimento poi esteso in altri paesi. La conclusione a cui arriva è abbastanza chiara: "Ecco, quindi, che gli interni delle nostre case, dei caffè e dei ristoranti sono tutti uguali. Gli edifici in cui viviamo e lavoriamo sono tutti uguali. Le auto che guidiamo, i loro colori e i loro loghi sono tutti uguali. Il nostro aspetto e il nostro modo di vestire sono tutti uguali. I nostri film, libri e videogiochi sono tutti uguali. E i marchi che acquistiamo, le loro pubblicità, le loro identità e i loro slogan sono tutti uguali. Ma non finisce qui. Nell'era della media, l'omogeneità può essere trovata in un numero quasi indefinito di ambiti."
Collego queste osservazioni al momento che stiamo vivendo, in cui la generative AI potrebbe accentuare ulteriormente questo fenomeno già in atto. Gli LLMs sono costruiti e addestrati sulla base dei dati e della conoscenza che arriva dal web. Di fatto, sono un grande mixer su scala globale, probabilmente ancora più pervasivo di quello che sono stati i social e in generale il web 2.0 negli ultimi 20 anni.
Non è detto che tutto questo sia un male, però ... e questo è quanto sostiene Greg Rosalsky, ricercatore e giornalista americano, nel secondo suggerimento di lettura di questa area della newsletter. Greg, riprendendo il lavoro di David Autor del MIT, uno dei migliori economisti del lavoro al mondo, sostiene che questa nuova età dell'oro dell'intelligenza artificiale potrebbe portare a quella ricostruzione della classe media (americana ma non solo) che è un po' il sacro Graal dei politici del mondo occidentale da diversi decenni.
Rosalsky sviluppa questa idea in maniera decisamente strutturata, partendo dalla storia delle precedenti rivoluzioni industriali e lo fa con molta cura e dettaglio. Non sono comunque completamente convinto dalle sue argomentazioni, poiché credo che la storia vada studiata con attenzione, ma si ripete meno di quanto siamo tentati a credere. Aggiungo inoltre che l'evoluzione della tecnologia informatica e del web stesso non ha portato, fino ad ora anche per i più ottimisti, a quella distribuzione dei benefici sperata. Ma proprio perché 'il futuro non è più quello di una volta', ti suggerisco di leggere l'articolo 🙂
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!