For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è l’ottantottesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti dell’ottantottesimo numero:
👅Etica & regolamentazione & impatto sulla società. AI's Creative Curveball: Simone Aliprandi Unpacks Intellectual Property
Gli approfondimenti di oggi, in questa sezione della newsletter, ci portano a riflettere su un argomento che, con l’evoluzione della generative AI, si è fatto strada nella nostra realtà quotidiana, rendendosi più evidente e, diciamolo, anche piuttosto stimolante. Prendendo spunto dalle parole dell’amico Simone Aliprandi, parliamo di “come ripensare il concetto di creatività in un mondo in cui questa è quasi sempre filtrata da un algoritmo o da una macchina”. Simone, che è avvocato con un PhD in Società dell’informazione, si dedica a consulenza, ricerca e formazione nel campo dei diritti d'autore e più ampiamente nel diritto delle nuove tecnologie. Nel suo ultimo lavoro, "L’autore artificiale", che ho avuto il piacere di leggere, Simone tratta la creatività e la proprietà intellettuale con un approccio molto incisivo, fornendo spunti di riflessione molto penetranti e, soprattutto nella prima parte del libro, con uno stile accessibile anche per chi non mastica il “legalese”. Trovo geniali, in questa sezione, gli excursus storici, i parallelismi con le opere create dagli animali e i riferimenti ad Asimov. E per chi si diletta nel diritto più puro, la seconda parte del libro sazia la sete di tecnicismi. Se la curiosità ti stuzzica, ecco dove puoi trovare presentazione e sommario.
E se il libro di Simone ti lascia con la voglia di scoprire di più sull’argomento, ti segnalo questo post di Benedict Evans che esplora ulteriormente i dilemmi sollevati dall'IA generativa in termini di proprietà intellettuale. Anche lui, seguendo l'esempio di Simone, porta alla luce episodi storici (quello di Dürer e Raimondi su tutti) e situazioni complesse che inducono a profonde riflessioni che fanno riflettere a fondo senza, francamente, lasciare intravedere una soluzione imminente al problema.
🖐️Tecnologia (data engineering). Norvigs Notes: Composing Algorithms in the Key of Python
““Un étude (parola francese che significa studio) è una composizione musicale strumentale, di solito breve e di notevole difficoltà, concepita per fornire materiale di esercitazione al fine di perfezionare una particolare abilità musicale" - Wikipedia. Questo progetto racchiude i pytudes, programmi in Python generalmente brevi, creati per affinare specifiche capacità di programmazione.” Questa vera chicca ci viene regalata da Peter Norvig, uno dei massimi esperti di informatica, noto per il suo lavoro pionieristico nel campo dell'intelligenza artificiale e della programmazione. Da oltre due decenni ricopre il ruolo di Engineering Director presso Google e, prima di questo, ha lavorato alla NASA, ricevendo il NASA Exceptional Achievement Award. Insieme a Stuart Russell, Norvig è co-autore di "Artificial Intelligence: A Modern Approach", un testo fondamentale per l'apprendimento dell'IA a livello universitario, riconosciuto globalmente. Ammiro in Norvig l'abilità unica di combinare contributi accademici e ricerca applicata nel campo dell'IA, influenzando lo sviluppo di algoritmi e tecniche di machine learning per applicazioni su larga scala.
Questa raccolta eccezionale di quesiti risolti, utilizzando Python, spazia in ambiti molto vari: dalla risoluzione di problemi con AlphaCode a questioni di probabilità e incertezza, fino ad arrivare a soluzioni eleganti e didattiche di contest come Advent of Code e Project Euler. La competenza didattica di Peter Norvig traspare con evidenza cristallina.
L'accessibilità è garantita: accanto alle quasi 100 aree tematiche, trovi un pulsante che attiva il notebook in uno dei 6 ambienti più popolari quali Colab, Deepnote, Github, Mybinder, Sagemaker o NBViewer.
Mi ha particolarmente affascinato la soluzione proposta per il Conway's Game of Life nella sezione “Programming Examples”. Termino con una citazione dello stesso Norvig: “Se pensi alla programmazione come al pianoforte, un'arte che può richiedere anni per essere perfezionata, spero che questa raccolta possa esserti d'aiuto.”
👀 Data Science. Decoding Data: Navigating Normalization and Generative AI
La qualità dei dati e dei relativi metadati era centrale nella creazione di valore e nella riduzione degli sprechi più di tre decenni fa, quando si iniziava a lavorare sui DBMS relazionali, ed è ancora fondamentale oggi per utilizzare efficacemente i modelli più sofisticati di AI generativa. Per sostenere questa mia affermazione, ti suggerisco due approfondimenti attuali, molto diversi per livello di complessità e innovazione. La prima riguarda la sindrome del Chihuahua, un problema che tutti noi esperti di dati abbiamo affrontato in modi forse diversi quando ci siamo trovati davanti a dati poco "normalizzati". Un'immagine vale più di mille parole: in questo caso, quel genio (Jono Hey) dietro al progetto Sketchplanations ed Edward Tufte, che ha coniato il termine per il problema della mancata normalizzazione dei dati in un elenco (o colonna), lo spiegano magnificamente con le immagini.
Chi non ha perso ore normalizzando manualmente (o attraverso complesse regex) dati a causa di problemi legati all'inserimento dei dati o a regole di normalizzazione diverse provenienti da più sistemi? Che ti sia capitato o meno (ma ne dubito 🙂), potresti trovare interessante quello che si sta sperimentando oggi nell'uso degli LLM più recenti per attività di ricerca e estrazione di risposte in ampi corpus documentali aziendali. Il post "Takeaways & lessons from 250k+ LLM calls on 100k corporate docs" è una lettura obbligatoria se nella tua organizzazione prevedi di utilizzare l'AI generativa su vasti domini di conoscenza. Leggilo anche se non sei un esperto di tecnologia, perché le sfide affrontate sono raccontate con un livello di astrazione comprensibile. Una delle sfide più affascinanti riguarda la qualità dei dati e, soprattutto, la scelta dei metadati per un funzionamento più efficace ed economico dei modelli generativi. Ecco un estratto delle lezioni apprese a questo proposito: "Gli LLM necessitano di dati formattati molto puliti per rispondere a domande su fonti di dati complesse. In particolare, non dimenticare che:
I dati del mondo reale presentano una serie di strutture sfumate che spesso non vengono catturate in modo ordinato dal testo o dai caricatori di dati di Langchain. Dedicare tempo alla formattazione dei dati in modo che siano comprensibili per gli LLM è essenziale per ottenere prestazioni di alta qualità nell'ultimo 30-40% delle domande.
È utile etichettare i documenti o le sezioni dei documenti con i concetti o le idee chiave che contengono.
Gli LLM faticano a ragionare correttamente sulle date."
Ma non trascurare le altre parti del post: meritano davvero la tua attenzione!
👃Investimenti in ambito dati e algoritmi. Data Dive: Unpacking Italy's Venture Capital Slowdown in 2023
Il primo semestre del 2023 si è rivelato particolarmente difficile per il settore del venture capital in Italia. Ho voluto attendere prima di parlartene per ottenere conferme aggiuntive, oltre ai dati forniti a luglio dal Venture Capital Monitor (VeM), coordinato dalla Liuc e promosso da Aifi. Si è osservata una riduzione sia nel numero di operazioni che nei capitali investiti, con quasi un dimezzamento dei valori rispetto allo stesso periodo dell'anno precedente. Puoi trovare analisi dettagliate e dati per cluster in questo documento.
È vero, la diminuzione del valore degli investimenti è in gran parte dovuta all'assenza di mega-deal rispetto al 2022. Tuttavia, esaminando i dati storici (slide 8), si nota che il numero e il valore degli investimenti per le imprese con sede in Italia sono scesi ai livelli del 2020, leggermente superiori a quelli del 2019, delineando un quadro piuttosto grigio.
Analizzare le cause e andare oltre la questione dei mega-deal è complesso, ma non si può ignorare una debolezza strutturale del nostro mercato. Una riflessione interessante sul venture capital in Italia, la sua storia, i protagonisti e le organizzazioni è fornita da questo articolo di EconomyUp.
Non esiste una singola causa alla base di questa situazione, che ci colloca in una posizione di svantaggio anche rispetto al panorama europeo. Tra i fattori storici che contribuiscono a questa debolezza ci sono una tradizionale riluttanza verso investimenti finanziari e la mancanza di politiche a sostegno della crescita dell'innovazione tecnologica, inclusi gli investimenti in questo settore. Si aggiunge anche una cronica incapacità del sistema nazionale di spingere su argomenti come la digitalizzazione e di accumulare le competenze tecniche necessarie per sfruttare appieno l'intelligenza artificiale e, in particolare, il Generative AI. A questo proposito, il documento "AI 4 Italy: Impatti e prospettive dell’Intelligenza Artificiale Generativa per l’Italia e il Made in Italy", realizzato da The European House – Ambrosetti in collaborazione con Microsoft Italia, può fornirti spunti di riflessione anche numerici.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Davenport vs. Marr: Shaping the Future of CDOs
"Concentrarsi esclusivamente sul data management e sulla data governance può limitare il contributo del CDO al valore aziendale", è ciò che sostiene Tom Davenport, professore presso la Babson University e esperto della parte tech delle organizzazioni moderne. Se, come me, sei vivamente interessato a comprendere l'evoluzione di questo ruolo all'interno delle aziende, ti suggerisco di esplorare questo articolo della MIT Sloan School of Management dove Davenport illustra le otto sfide principali che il CDO deve affrontare per massimizzare il suo valore nelle organizzazioni. Queste sfide sono tutte molto stimolanti e in linea con il ciclo di isteresi del CDO che abbiamo esplorato insieme ad Alberto in Data Culture, osservando l'evoluzione del ruolo del CDO verso ambiti più vicini all'innovazione e al business. Fra le otto sfide proposte da Davenport, te ne evidenzio una in particolare:
“1. Integrare una "A" nel titolo di CDO.
Assumere responsabilità nell'ambito degli analytics e dello sviluppo dell'AI permette al CDO di evidenziare il suo valore, in particolare quando gli insight si traducono in azioni capaci di aumentare la soddisfazione dei dipendenti, potenziare le relazioni con i clienti o ottimizzare le catene di fornitura. Non è essenziale per il CDO possedere una conoscenza tecnica approfondita di analytics e AI per ricoprire queste responsabilità, dato che il loro ruolo è principalmente orientato al business piuttosto che ai dettagli tecnici."
Ti cito questa sfida perché tra gli esperti dell’evoluzione delle organizzazioni c’è chi la pensa diversamente. Bernard Marr, ad esempio, nel suo recente articolo "Why Every Company Needs A Chief AI Officer" prevede l'emergere del CAIO, un neo-acronimo che sta per Chief AI Officer, come figura complementare al CDO. Marr giustifica questa evoluzione con l'accelerazione recente nel campo dell'AI.
Personalmente propendo per la visione di Davenport, ma sono estremamente curioso di conoscere il tuo punto di vista o le tue esperienze in merito. Scrivimi o condividi la tua opinione nei commenti!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!