Ciao,
io sono Stefano Gatti e questo è il settimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del settimo numero:
🖐️Tecnologia (data engineering). Periodicamente mi sono trovato ad usare la sintassi delle espressioni regolari (meglio conosciute come regex) in progetti personali e aziendali di estrazione dati da testo non strutturato. Esistono metodologie più sofisticate e performanti ma le regex si adattano a tutti i linguaggi di programmazione e forniscono velocemente un risultato concreto. Il problema quando si usa sporadicamente questo strumento è che si deve ripartire quasi sempre da zero. In questo articolo in cinque semplici passaggi con google sheet e GTP-3 si costruisce un generatore di regex partendo dal linguaggio naturale in lingua inglese. L’ho provato e funziona molto bene ed è utile almeno a chi usa sporadicamente questo strumento ma non vuole perderci troppo tempo!
👀 Data Science. DALL·E 2 è un nuovo sistema di AI, creato da OpenAI, che crea immagini artistiche da una descrizione in linguaggio naturale. Se volete giocarci un minimo sul sito trovate qualche esempio interessante. Se volete capire, dal punto di vista più tecnico, come funziona questo video è una buona introduzione. Per ora il tutto sembra un gioco ma se vedete il video potete cominciare ad immaginare utilizzi interessanti diversi da quelli ora presentati.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Uno dei ruoli, tra i data-expert, più sottovalutati è quello del data steward. La mia esperienza è che siano quasi sempre presenti in azienda. Soprattutto nelle aziende dal lungo passato non è detto che siano nell’area dati ma possono trovarsi sia nel business che nelle aree più tech a seconda del loro percorso professionale. Per una specifica area aziendale il data steward è, secondo me, quello che conosce meglio uno specifico dominio dati, la sua storia, le sue “storture”, la sua semantica sia dal punto di vista tech che business. Questo articolo fornisce un buon inquadramento pratico sul ruolo. Per chi conosce e usa il modello DAMA ai capitoli 1.3.4 e 1.3.5 trovate altrettanto buone definizioni, forse più formali. Nel mio percorso professionale, soprattutto quando ho dovuto gestire trasformazioni, è stato fondamentale scoprirli (quando erano rimasti in azienda), lavorare con loro e facilitarli: non dimenticatevene!
👃Investimenti in ambito dati e algoritmi. Molto interessante l’ultimo report di PitchBook che fa il punto sul mercato delle soluzioni per creare data-pipeline: dai database ai sistemi di streaming con anche soluzioni di Machine Learning in real-time che si appoggiano in maniera sempre più efficiente su questi sistemi. Le tematiche più interessanti sono il trend, sempre più marcato, dai database relazionali verso i NoSQL e un deep-dive su Pandio. E lo spunto su quest’ultimo unisce possibili investimenti futuri sul framework ma anche un consiglio di approfondimento tecnico perché sta diventando una soluzione, per certi casi d’uso, veramente interessante e alternativa a Confluent (la versione enterprise di Kafka).
👅Etica & regolamentazione & impatto sulla società. E’ l’articolo o saggio, finora letto, che esprime meglio il mio punto di vista sui problemi di equità (fairness) e polarizzazione (bias) degli attuali algoritmi di intelligenza artificiale. Non si legge tutto d’un fiato perché spiega un problema molto complesso che non ha attualmente una soluzione ottima e neppure una buona ma gli esempi illustrati sono chiari e tratti dal mondo reale. Il fatto che ci siano più definizioni di polarizzazione e di equità è un punto di partenza per provare a trovare una soluzione normativa, pragmatica, possibilmente il più globale possibile, non neo-luddista. C’è qualche ossimoro nella mia ultima frase? Lavoriamo tutti insieme perché non sia così!
Se per caso vi siete persi il secondo webinar di presentazione del mio libro “La cultura del dato” potete ancora rimediare 😀. Insieme ad Alberto Danese e Marina Geymonat abbiamo parlato di innovazione, dati, tecnologie e cultura. Se volete sapere cosa hanno in comune, dati e innovazione, secondo me, e non avete pazienza andate al minuto 14 e se proseguite ci sono ulteriori spoiler del libro …
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!