For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il quarantaduesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Questa è l'ultima puntata dell’anno ed è più lunga del solito. Per questo mi appello alla tua clemenza e alla calma, a volte apparente, dei primi giorni di ogni nuovo anno. A proposito: che tu la legga nelle ultime ore del 2022 o a inizio 2023: BUON ANNO!
Volevo dedicare l’inizio di questo ultimo numero a condividere alcune riflessioni e qualche dato su come è evoluta, finora, questa newsletter:
Partiamo, in maniera coerente, dai numeri. Siamo tantissimi: la scorsa settimana abbiamo superato i 1500 iscritti, dei quali circa il 75% lettori abituali. Grazie. Non mi aspettavo numeri così alti, all’inizio dell’avventura, per cui il senso di responsabilità nel proporti argomenti di valore è ulteriormente aumentato. Il tempo è la risorsa più scarsa che abbiamo e, supponendo almeno 5 minuti di lettura a settimana, la community sta dedicando più di 100 ore ogni 7 giorni. Diventano ancora più importanti i feedback e le segnalazioni di materiali interessanti che mi arrivano sempre con maggiore frequenza.
Rispetto ai primi numeri la lunghezza della newsletter si è dilatata. Alcuni membri della community mi hanno segnalato il desiderio di maggiori dettagli associati ai link proposti e così ho pensato di farti risparmiare tempo evitando la lettura integrale del contenuto dei link se ti accontenti di una mia sintesi.
What’s next? E’ una domanda che mi sono posto, in questi ultimi mesi molte volte. Non ho un’idea precisa se non quella, per ora, di continuare a inizio 2023 ancora così. Sono conscio che come ogni cosa dovrà cambiare ed adattarsi ai tempi. Per questo ti chiedo di mandarmi subito: idee, spunti, riflessioni! Aspettati anche, nel primo quarto dell’anno, che ti disturbi con alcune domande su come vogliamo far evolvere questa newsletter e soprattutto questa community …
E per finire ecco la logica, differente dalle precedenti uscite, con cui ho realizzato questo numero. Ho provato a fare una sintesi di quello di cui ha parlato la newsletter nei suoi primi 41 numeri tenendo in conto che meno di un sesto degli attuali lettori la leggevano all’inizio e che quindi fosse anche utile per tutti riproporre tematiche trattate durante tutto il nostro viaggio. Inoltre ho pensato che fosse rilevante dare spazio a quello che vi è piaciuto di più e su questo mi sono venuti in aiuto alcuni dati che Substack mette a disposizione. La sintesi non è completamente arbitraria ma è prodotta con l’aiuto di un piccolo algoritmo.
Ti anticipo che l’analisi delle statistiche di lettura evidenzia che non c’è stata una polarizzazione verso una specifica area tra le classiche cinque sezioni che contraddistinguono la newsletter. Le parti di Tecnologia e di Datascience sono quelle più lette a pari merito, seguite dalla parte di Organizzazione e Cultura dei Dati e Algoritmi nelle Organizzazioni e in coda appaiate i segmenti dedicati a Investimenti e Etica e Impatto Sociale. Tenuto conto che la più letta supera del 30-35% la meno letta, potremmo concludere che la community ha un livello alto di “diversity” e di eclettismo! E questo rende ancora più difficili le scelte per il nostro futuro …
Terminata la premessa eccoti il numero speciale che “non ti fornirà la risposta alla domanda fondamentale sulla vita, l'universo e tutto quanto” ma spero ti piaccia:
🖐️Tecnologia (data engineering). Apparent Calmness 🙂
Calmcode.io è stato il link che ti è piaciuto di più in questa sezione e in assoluto tra tutti i numeri della newsletter. Del resto è il sito di formazione gratuito più bello per data-expert che io conosca. E’ “low floor and high ceiling”, come si dice nel mondo anglosassone, nel senso che tratta sia argomenti semplici che si possono consultare in maniera veloce e molto granulare sia argomenti più complessi e specifici. Sono piaciuti molto anche le classificazioni e le classifiche di database, linguaggi di programmazione, trend di machine learning, business intelligence, low code development platform. E’ emerso anche che le migliori pratiche per il ML engineering sono importanti ma anche saper scrivere (non solo codice) è altrettanto importante per un data-engineer e soprattutto saperlo fare con un “product thinking mindset”. Quanto ai trend in corso in ambito tecnologico tre link, che ti sono piaciuti, li sintetizzano benissimo:
L’esplosione dei Large Language Models (LLM - quelli che usa ChatGPT per intenderci). E questo approfondimento aveva anticipato il trend mediatico delle ultime settimane.
La trasformazione in corso nel mondo della programmazione e nel lavoro di chi scrive codice con l'avvento proprio dei LLM. E questo link, molto apprezzato, ne fa un’ottima panoramica.
Data-centric AI. L’importanza del dato nel futuro dell’utilizzo dei sistemi di intelligenza artificiale: un tema di minor clamore mediatico ma maggiore impatto soprattutto all’interno delle aziende, incluse le medio piccole.
👀 Data Science. Less datascience for more effective datascience 😯
The importance of Statistics, iconico post del sito Statistics by Jim, è stato il link più cliccato di questa sezione e il secondo in assoluto. Questo fornisce due osservazioni importanti. La prima è che la statistica è ancora oggi la base della scienza dei dati e dei progetti di machine learning. La seconda è che la community, il sottoscritto in primis, ama particolarmente la formazione continua! Anche Statistics by Jim, un po’ come Calmcode.io, ha un approccio molto pratico e granulare all’apprendimento e soprattutto al ripasso di molti concetti della statistica, a volte scivolati nell’oblio. Del resto, se non fossimo amanti della statistica, non saremmo corsi in massa a fare i test delle olimpiadi della statistica quando ho condiviso il link. Grande successo, hanno ottenuto le segnalazioni di importanti libri, di cui è disponibile anche la versione on-line gratuita, scritti da miti della Datascience . Data Science in Context di Peter Norvig (e non solo) è fondamentale per avere una visione a 360° dell’utilizzo della scienza dei dati nei vari settori industriali mentre la terza edizione di Python for Data Analysis del creatore di Pandas Wes Mckinney è una guida unica per entrare nel mondo di Python dalla porta principale. Completano le segnalazioni di libri che sono particolarmente piaciuti il meraviglioso Coding for Economists e The Datascience Interview Book per chi ha intenzione di cambiare lavoro o di imparare in maniera un po’ diversa dal solito. Essendo la ricerca di nuovi dati un’arte con un ottimo futuro è importante seguire chi ci segnala ogni settimana nuovi dataset. Spiegare cosa è la datascience e i risultati che si ottengono usandola bene è fondamentale: per questo ti sono piaciute alcune segnalazioni con al centro la data-viz: nel passato ma anche che ci aiutano nel presente.
Quanto ai trend in corso anche in questo caso tre gruppi di link, che ti sono piaciuti, li sintetizzano benissimo:
Avendo raggiunto un buon livello di maturità la datascience ha bisogno di “misurarsi” molto bene sia come supporto dello sviluppo dei prodotti che nascono all’interno delle aziende sia in termini di collegamento con le decisioni di business che vengono prese sulla base proprio dei suoi risultati.
Sempre più la datascience non si può limitare ad evidenziare la correlazione tra fenomeni ma deve andare a supportare la comprensione dei perché. E incomincia a farlo con buon successo …
Conoscere il contesto in cui si fa datascience fa sempre più la differenza tra chi genera casi di successo e chi rimane emarginato nella propria torre d’avorio. Per essere efficaci bisogna studiare e conoscere sempre meglio il business e i prodotti, oggetto del nostro lavoro!
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Data Culture & Data Democratization more and more 🌝
In questo segmento è prevalso il link al libro “La Cultura del Dato” uscito ad Aprile e scritto con Alberto Danese, insieme alle iniziative ad esso correlato. Ti ho stufato talmente tanto in questi mesi che non poteva essere altrimenti … leggo scritto, senza troppe doti da veggente, sul tuo viso. Ti devo comunque ringraziare perché i tanti spunti e discussioni emerse dalla lettura del libro da parte di tutta la community sono state la gratificazione più bella per lo sforzo di scrivere un libro, da parte di due ingegneri. Preparati perchè insieme ad Alberto stiamo lavorando ad una versione in inglese de “La Cultura del dato” con qualche aggiornamento … Se hai letto (la versione italiana) e non hai lasciato ancora una recensione su Amazon puoi farlo ancora anche adesso 🙏.
In maniera coerente hai premiato anche quelle segnalazioni di progetti e organizzazioni che mettono al centro delle loro attività la divulgazione della cultura del dato e della relativa democratizzazione. Il framework Dama e il capitolo italiano della organizzazione internazionale e poi Open Data Playground e AI Play sono le iniziative che hanno destato maggiore interesse. Tra gli studi e i report che analizzano i cambiamenti in corso sono piaciuti di più quelli realizzati da Stanford e IBM per quanto riguarda il mondo dell’intelligenza artificiale, quello di Gartner per le tecnologie emergenti nel mondo dei dati e quelli di Mckinsey più in generale sulla diffusione dei dati e dell’AI all’interno delle organizzazioni. Per i trend in corso, all’interno delle organizzazioni in questo ambito emerge che:
La discussione della competenza tecnica necessaria a un leader è diventata molto accesa a livello mondiale ed è particolarmente centrale nel nostro mondo dei dati e degli algoritmi perché le scelte lavorative sono sempre più guidate da motivazioni non economiche, ma anche, per esempio, legate al luogo dove lavoriamo.
Il data engineer è la figura “con la derivata (prima) più positiva tra i data-expert” ma c’è molta attenzione al ruolo del data steward. Anche il chief data officer è un unicorno molto richiesto perché far crescere, all’interno delle organizzazioni, team di data-expert non è un gioco da ragazzi!
La decentralizzazione delle organizzazioni, quando si parla di team che lavorano sui dati, sembra essere un trend di lungo periodo. Il data mesh, in questo senso, è molto cool, come gli OKR. La spinta alla decentralizzazione sembra accomunare mondo dei dati e innovazioni, non dimenticando l’importanza della cultura nei processi di trasformazione.
👃Investimenti in ambito dati e algoritmi. Time to invest in data & AI despite all 😮
Il link più cliccato in questa sezione, e il terzo in assoluto, è anche il mio preferito ed è “The Economics of Data Businesses” scritto da Abraham Thomas, creatore di Quandl, scale-up diventata leader mondiale degli “alternative data” e poi venduta al Nasdaq. Te lo ri-consiglio perché oltre a descrivere, molto bene, in 6 regole cosa è il vero “Business dei dati” fornisce, per via negativa, una definizione di quelli che, pur avendo al centro dati e algoritmi, non sono Data Businesses.
E’ stato un anno molto difficile per il mondo degli investimenti e tutto il settore tecnologico, mondo dei dati e AI incluso, si è dovuto adeguare ad un framework di valutazione molto diverso rispetto a quanto eravamo abituati in passato. Molti sostengono che, una volta scoppiata la bolla, non ci sia più grande spazio per investimenti in questa area ma Andrew Ng, non uno qualsiasi, ha provato a spiegarci perché sia ancora il momento, forse di più di prima, di investire in questa area. Se dovessi sentirti confuso dal momento, e ne avresti tutto il motivo per esserlo, Fabrice Grinda è la persona migliore da leggere ed ascoltare in ambito investimenti per il suo track-record (a prova di diverse crisi), per il suo eclettismo e per la sua trasparenza.
Passiamo ai trend in questo ambito e continuiamo ad usare la magica regola del numero tre:
La generative AI e tutto quello che ci ruota intorno sembra oggi essere il sacro Graal di ogni investitore. In questo senso il miglior punto di partenza e il più pragmatico è quello che fa Sequoia.
Per non dare troppo per scontato in termini di investimenti sembra importante ascoltare punti di vista decisamente diversi e un po’ eretici come quello di Evan Amstrong.
Ti ho dato anche io alcuni spunti per seguire ambiti diversi e in alcuni casi innovativi in cui, nonostante la crisi in corso, diverse start-up hanno chiuso round di finanziamento rilevanti. Sembra infatti piacerti la mia rubrica mensile che, sfruttando un’attività che sto facendo per studiare il mercato dell’innovazione e degli investimenti, ti segnala la start-up internazionale che più mi ha più colpito e che ha avuto un funding nel mese. Come detto, questa start-up deve lavorare in ambito dati e algoritmi o farne largo uso (avere al suo interno o nelle selezioni in corso un numero significativo di data-expert). Ti lascio in forma sintetica l’elenco di start-up che ho segnalato di mese in mese dall’inizio della rubrica:
Giugno 22 - Multiverse.io - EdTech
Luglio 22 - Singlestore - Databases
Agosto 22 - Openspace - PropTech
Settembre 22 - Stable - Electric Cars
Ottobre 22 - Vara - Healthcare
Novembre 22 - Empatica -Healthcare
👅Etica & regolamentazione & impatto sulla società. The best way to imagine the future is to drive it 🚕
Non c’è un link che abbia prevalso in maniera netta in questa sezione. In termini assoluti, vince quello della prima puntata del podcast di Istat che parla, dati alla mano, di economia sommersa in Italia. Ce ne sono molti che però hanno suscitato il tuo interesse e per questo provo a sintetizzare i contenuti in questa area evidenziando i macro-argomenti dove si è polarizzato l’interesse della nostra community. L’importanza dei dati nel raccontare il presente è stato ed è un tema molto importante perché il giornalismo, che è stato messo in crisi su scala globale da aziende con al centro dati e algoritmi, può trarre vantaggio nella sua post-modernità dai sistemi di intelligenza artificiale se sarà in grado di usarli bene. E casi di giornalismo data-driven fatto molto bene stanno cominciando a crescere anche a casa nostra e se ne stanno accorgendo anche all’estero. Usare bene i dati e saperli raccontare è un’arte sia che si parli di Airbnb che di femminicidi. La sicurezza e l’eticità con cui si usano i dati è un altro tema ad alto impatto sulla società: sia che si parli di data-breaches che di bias, più o meno anche umani. Che si discuta di codici di condotta etici nell’uso della tecnologia o di vere e proprie regolamentazioni, tutto il mondo, con velocità e approcci diversi, si sta muovendo per fare qualcosa per favorire concetti di equità a volte anche molto diversi a seconda della geografia. L’Europa si sta muovendo più di ogni altra area del mondo in modo ahimè troppo frammentato, in termini di numerosità di diversi regolamenti che impattano il nostro ambito. AI Regulation Act, Digital Service Act, Ai Liability Directive, Data Governance Act le abbiamo approfondite tutte nella speranza di trovare una mappa leggibile non solo da data-legal expert. Per il momento sembra ancora tutto un po’ sfocato.
Per finire, visto che in questo ambito non mi arrischio a parlare di trend ma preferisco pensare a scenari possibili, abbiamo provato a capire, partendo pragmaticamente dal presente, se il futuro che ci aspetta possa essere più quello immaginato da Orwell o Huxley, o se ci possa essere una terza via in cui saremo circondati da robot che ci ruberanno il lavoro o semplicemente l’attuale e prossima AI sia ancora molto lontana da avere caratteristiche umane e tutto sarà molto diverso, come spesso accade, da quello che ci stiamo immaginando. E per avere la quarta via probabilmente dobbiamo imparare a guidare meglio, con i dati, i sistemi di intelligenza artificiale di oggi 🙂. (Nota bene: l’ultimo è l’unico link nuovo del numero di oggi e per questo è fortemente consigliata la sua lettura)
No, non è un’immagine realizzata da DALL-E ma è un una umanissima opera recentemente vista al MAMBo - Museo d’Arte Moderna di Bologna - realizzata da Alighiero Boetti nel 1984 che mi è piaciuta molto!
“Non Parto, Non Resto” è il titolo e rappresenta (anche) una buona metafora del nostro essere viaggiatori …
Se sei riuscito ad arrivare fino a qui ti ringrazio per la pazienza e spero che questo numero della newsletter ti sia utile per nuotare veloce, o almeno stare a galla, nella complessità del mondo dei dati e degli algoritmi all’interno delle moderne organizzazioni che poi se non sono complesse (anche loro) sono almeno molto complicate! Come ho già scritto in altri momenti: scrivere per me è un viaggio: nel passato, nel presente e nel futuro che mi consente di metabolizzare le esperienze fatte, esorcizza la paura di perderle e mi aiuta a ipotizzare scenari e mitigare le ansie del futuro che ci aspetta. Grazie caro compagno di viaggio per averne condiviso con me una parte importante di questo viaggio e aver contribuito a costruire una umanissima community di data-lovers!
Al prossimo anno!
PS: Una parte dei compagni di viaggio si è unita grazie ad un progetto molto figo chiamato newsletterati, dove trovi altre newsletter belle da leggere e da condividere: prova a darci un occhio: ne vale veramente la pena!