For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centoventottesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del centoventottesimo numero:
🖐️Tecnologia (data engineering). Alessandro Molina: open source e innovazione nel mondo dei dati: sfide e futuro inseguendo l’interoperabilità
Presentati:
Alessandro Molina. Da sempre la mia carriera è stata legata al mondo OpenSource, prima con MPlayer e FFMPEG per il multimedia, poi con TurboGears per Python. Inizialmente, contribuivo per risolvere esigenze lavorative, essendo socio e direttore tecnico di una piccola società di consulenza, e dalla versione 2.1 di TurboGears divenni il principale maintainer del framework. Dal 2010 mi sono spostato dall'ambito web all'ingegneria dei dati, interessandomi ai database non relazionali. Nel 2016 sono entrato in YouGov dove ho coordinato il team che lavorava ad un engine colonnare custom per l'analisi dei dati. Successivamente ho diretto il gruppo Open Source di Voltron Data che manteneva i progetti Apache Arrow e Substrait.io. Recentemente, dopo anni in ambito manageriale, ho preso una pausa sabbatica per tornare a sviluppare in prima persona progetti Open Source.
Il mio ruolo tra 10 anni sarà ...
sicuramente ancora legato al mondo OpenSource ed alle tecnologie di archiviazione ed analisi dei dati. Ma spero di potermi dedicare a creare qualcosa che renda queste tecnologie più accessibili alle persone, molte delle tecnologie più interessanti sono nate per sviluppatori di piattaforme computazionali e sono quasi inaccessibili alla maggior parte dei programmatori. Molte di queste sono state usate per prodotti più vicini all’utente, ma servono soluzioni non “opinionate” per team multidisciplinari e che evitino il problema del vendor lock-in.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
Siamo in una fase di consolidamento delle soluzioni di interoperabilità, e ciò che ne uscirà sarà ciò che diventerà lo standard per i prossimi anni, ma non è ancora del tutto certo quale sarà il risultato finale. Negli ultimi anni grazie alla fama di machine learning e reti neurali tutte le aziende sono corse ad implementare le loro tecnologie di trattamento dei dati, ed ora ci troviamo con centinaia di soluzioni diverse allo stesso problema che è difficile far comunicare tra loro e che spesso per interessi di business, non favoriscono l’integrazione.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Probabilmente Python, ormai ha un toolbox di soluzioni e tecnologie per l’analisi e manipolazione dei dati talmente vasto che mi permette di sperimentare con qualsiasi idea mi venga in mente in pochi minuti. Gli investimenti nell’accrescere la disponibilità di soluzioni tecnologiche per Python non stanno diminuendo, anzi stanno accelerando. Diventa sempre più comodo per creare nuove tecnologie e soluzioni, e grazie alla facilità di integrazione con tecnologie come Rust e Cython, è forse uno degli strumenti con cui è più facile crescere e scalare i prototipi ed esperimenti.
👃Investimenti in ambito dati e algoritmi. Scopri le due facce degli Unicorni: definizioni, cambiamenti e futuri potenziali 🦄
Se, come il sottoscritto, pensavi che esistesse una sola definizione di "Unicorno", ti stavi sbagliando 😀. Probabilmente ce ne sono più delle due che ti sto per descrivere, ma sicuramente queste, per storicità e diffusione, sono le più largamente usate.
La prima, e quella più originale, è stata introdotta da Aileen Lee, partner del fondo Cowboy Ventures, in un articolo iconico su TechCrunch nel 2013. In quell’articolo, Lee definisce come "unicorni" le aziende sia private che quotate con una valutazione pari o superiore a 1 miliardo di dollari e con un'anzianità non superiore a 10 anni. A fine 2023, in occasione dei 10 anni dalla definizione, la stessa Lee ha fatto un’analisi interessantissima su come siano cambiati gli unicorni. Se vuoi vedere tutti i dettagli, in questa presentazione trovi 54 slide, una più interessante dell’altra. Oltre al fatto che il numero degli unicorni è aumentato di 14 volte (da 39 nel 2013 a 532 a fine 2023), ci sono tantissime analisi e differenze tra i due periodi, come ad esempio la tipologia di mercati a cui si rivolgono: nel 2013 erano quasi tutti B2C, mentre ora la stragrande maggioranza è B2B. Se vuoi un commento in italiano, molto preciso e ricco di dettagli su questa analisi, ti consiglio quello di
, come sempre bravissimi!La seconda definizione più popolare è quella di Crunchbase, che mantiene una lista pubblica degli attuali unicorni. In questo caso, si tratta di aziende solo private che hanno raggiunto in un round di finanziamento un valore superiore a 1 miliardo di dollari, ma senza alcuna limitazione di anzianità. Visto che la lista di unicorni di Crunchbase è composta da 1547 aziende, quasi tre volte quella di Lee, si può concludere che il cammino per diventare unicorno è più lento di quanto abbiamo sempre immaginato e che le IPO rimangono una via ancora poco frequentata da questa tipologia di aziende.
Se poi vuoi avere una visione del futuro e provare a prevedere quali potrebbero essere i prossimi unicorni, ti suggerisco di dare un’occhiata a questa lista prodotta da VivaTechnology o a questa lista delle migliori 30 Enterprise Tech dell’anno, qualcuna delle quali è già un unicorno!
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Perché ogni organizzazione ha bisogno dei Data Steward
È stato uno dei link più cliccati dai lettori del numero 7 di questa newsletter ed è quello che “è invecchiato meglio”, anzi, probabilmente ha acquisito ancora più valore. Nel contesto attuale, in cui i dati sono diventati una risorsa fondamentale per tutte le organizzazioni, la figura del data steward emerge come cruciale per garantire la qualità, la sicurezza e l'integrità delle informazioni, fungendo da ponte tra i team tecnici e quelli business. Ritornando a quanto già discusso nel post del 2022, è evidente che il ruolo del data steward non è solo tecnico, ma richiede anche competenze relazionali e comunicative. La loro funzione è essenziale per promuovere una cultura del dato all'interno dell'organizzazione, e la mia esperienza pratica mi porta a dire che sono le figure migliori per realizzare un percorso virtuoso di formazione e informazione verso tutti gli utilizzatori dei dati di cui sono esperti.
👀 Data Science. Imparare a programmare oggi: l'importanza delle basi nell'epoca di ChatGPT
Non c'è mai stato un momento migliore e più importante per imparare le basi dello sviluppo software, anche per chi usa i dati in modo basilare. Contrariamente a quanto qualcuno sostiene, non sono convinto che nel giro di pochi anni saranno solo gli agenti o il ChatGPT di turno a lavorare con il codice. Anzi, credo che sarà ancora più importante saperlo leggere, capirlo ed eventualmente correggerlo. Quello che sta diventando molto più facile è impararlo, mentre ciò che diventerà meno importante, almeno per la maggior parte di noi, è saper scrivere codice complesso in modo efficiente e veloce. A scriverlo (il codice) saranno sempre più spesso le intelligenze artificiali, guidate da persone che conoscono le basi della programmazione per indirizzare al meglio gli obiettivi della stessa. Per questo, i due approfondimenti di questa sezione sono abbastanza semplici e probabilmente inutili se sei un data scientist esperto, ma utili per tutti gli altri:
Questo è il corso appena lanciato da Andrew Ng, proprio perché è convinto, come il sottoscritto, che sia ancora più importante nell’era della Generative AI saper programmare. Il corso è strutturato in maniera moderna per interagire, usando Python, con i chatbot come ChatGPT, per impararlo e farsi aiutare a scrivere codice. Non esiste nulla di meglio per iniziare ad apprendere Python in modo moderno. Almeno per fare il primo passo!
Questo è invece un breve post di OpenAI che, contemporaneamente al lancio di Chat-GPTo, fa il punto sui miglioramenti apportati negli ultimi mesi per chi utilizza i suoi strumenti per la data analysis, con esempi interattivi.
👅Etica & regolamentazione & impatto sulla società. AI Act è qui: sfide e opportunità per le aziende in un mondo (troppo?) regolamentato
Ci siamo! L’AI Act è stato pubblicato sulla Gazzetta Ufficiale dell’UE il 12 luglio 2024 ed è entrato in vigore il 1° agosto 2024. Se vuoi approfondire l'AI Act in maniera pratica, ti consiglio di seguire l'amico
e tutto il team di E-lex, che realizza un'ottima newsletter su queste tematiche. Un buon punto di partenza è il loro speciale di luglio sull’AI Act, che include anche una mappa con tutte le date più significative dell’attuazione.Di seguito ti lascio alcune riflessioni personali sulla versione definitiva dell’AI Act e sui possibili scenari futuri:
144 pagine, 180 considerando, 113 articoli, e 13 allegati sono assolutamente troppi! Il testo è troppo complesso, anche per chi lavora nel settore ma non ha una specifica conoscenza ed esperienza giuridica. L’AIPact, un progetto dell’UE per facilitare il percorso di attuazione da parte delle aziende, cerca di mitigare il problema. Questo "navigatore" dell’AI Act può renderti più facile la lettura e i collegamenti delle parti che ti interessano di più.
L’approccio basato sui rischi è un passo avanti rispetto al GDPR. Andrea Broglia, nella sua ottima newsletter, racconta e spiega molto bene questo approccio. Un buon punto di partenza potrebbe essere l’edizione in cui Andrea spiega in dettaglio quali sono i sistemi ad alto rischio. Classificare questi sistemi e capire quanti ne abbiamo (ad alto rischio) in azienda potrebbe essere il punto di partenza per molti di noi ...
La parte più significativa della partita dipenderà comunque dall’approccio che l’UE e i singoli stati adotteranno per verificare l’attuazione. Più sarà graduale e supportivo piuttosto che persecutorio, meglio sarà per non soffocare l’innovazione, la cui scarsità sembra essere la debolezza attuale dell’UE. Certo, la maggiore tra 35 milioni di euro o il 7% del fatturato aziendale come rischio di multa per le aziende inadempienti sembra davvero tanto!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!