LaCulturaDelDato #016

Dati & algoritmi attraverso i nostri 5 sensi

Jul 02, 2022

Testo Newsletter N°16:

Ciao,

sono Stefano Gatti e questo è il sedicesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.

Ecco i cinque spunti del sedicesimo numero:

🖐️Tecnologia (data engineering). Fastening really big data
Caricare e manipolare velocemente ingenti quantità di dati è sempre più un problema che si deve affrontare quotidianamente. La comunità che si è costruita intorno alla libreria python Pandas è veramente incredibile; è una storia che ha cambiato, lasciatemi usare un gioco di parole, un pezzo di storia della data science. Grazie, Wes McKinney, per tutto questo!

Se vuoi andare più veloce senza rivoluzionare il codice Pandas già scritto ti avevo già segnalato, nella numero 2 della newsletter, Modin. Ora però una possibile rivoluzione si prospetta all’orizzonte: Polars. Polars è scritto in Rust e usa Apache Arrow come strutture dati. Il suo obiettivo è di fornire una libreria in Python, ma non solo, per manipolare, caricare e fare query, in maniera molto efficiente con grosse tabelle di dati. Diversamente da Dask e Ray, i motori usati da Modin, che cercano di parallelizzare librerie nativamente single-threaded, Polars è scritto totalmente da zero e quindi “non ha legacy” e i benchmark che puoi trovare nella ricca documentazione online sono impressionanti. Devi però, per i progetti in cui intendi usarlo, rottamare la vecchia e amatissima libreria Pandas!

👀 Data Science. Correlation is not causation but with PyWhy …
Uno degli obiettivi della scienza dei dati è sicuramente cercare di spiegare il perché dei fenomeni cercando di distinguere effetti di correlazione senza significato con effetti di vera causalità. In certi ambiti, molto controllati, come l’healthcare si usa il metodo non infallibile ma comunque molto affidabile dei gruppi di trial & control. Ma, in molti altri ambiti, non c’è la possibilità di farlo e bisogna cercare di desumerlo da fenomeni non controllati. Il Causal Machine Learning prova a risolvere questa tipologia di problemi ed è di questi giorni la notizia che una delle librerie più promettenti di questo filone, DoWhy, sviluppata da Microsoft, riceve anche il sostegno del team Amazon Science per evolvere in un progetto indipendente e open source su GitHub chiamato PyWhy. Per approfondire PyWhy vi consiglio un articolo, con annesso codice Colab, scritto da un amico e brillante datascientist, Giovanni Bruner pubblicato su towardsdascience.com.

👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. It’s Time for the Modern Data Culture Stack!
Costruire un “dream data team” è molto di più che usare il giusto “data stack”. Chi ha letto “La Cultura del Dato” sa che Alberto ed io la pensiamo fortemente così. Musica per le mie orecchie è stato leggere l’articolo di Prukalpa Sankar, data lover e founder di Atlan, che propone la sua esperienza nella creazione di un team dati che, condividendo valori e azioni, ha saputo creare quel contesto culturale per raggiungere ottimi risultati misurabili anche in termini di produttività e agilità. Le righe che mi hanno più colpito: cito testualmente: “Molte persone credono che la cultura "accada e basta". È una creatura mitica, ed è semplicemente quello che è… Non sono assolutamente d'accordo. La cultura non accade e basta. Potete lavorare per creare la cultura a cui aspirate convertendo i vostri valori in qualcosa di più tangibile. Noi lo abbiamo fatto attraverso …..” E se volete leggere come l’hanno fatto e ricevere spunti molto pratici ecco il link all’articolo.

👃Investimenti in ambito dati e algoritmi. Still time to invest in AI?
Andrew Ng, uno dei più importanti esperti mondiali di Intelligenza artificiale, pensa che sia ancora un buon momento per investire in soluzioni AI e in start-up e aziende innovative che stanno rivoluzionando il settore. Andrew è anche il fondatore e investitore di un importante fondo di investimento in questa area (AIFUND). Spiega tutto questo in due lettere sulla sua rubrica settimanale su deeplearning.ai: nel numero 147 e 148. In estrema sintesi è convinto “che questo sia ancora un buon momento per investire in scommesse a lungo termine, perché (i) il tasso di interesse reale (cioè il tasso corretto per l'inflazione) è ancora molto basso e (ii) il valore trasformativo dell'IA è più potente finanziariamente dei tassi di interesse reali”. Ma leggendo le due lettere Andrew lo chiarisce molto pragmaticamente con esempi tratti dal mondo reale. Sperando che, come molte volte nella sua vita, non sbagli!

👅Etica & regolamentazione & impatto sulla società. Machine learning in education too?
In una nazione, la nostra, dove adulti istruiti fanno molta fatica a leggere un’analisi dati Invalsi diventa forse ambizioso parlare di machine learning nella scuola ma credo che sia giusto perché in giro per il mondo lo si sta cominciando a fare con successo. In questo articolo McKinsey fa una buona descrizione dei casi d’uso di dati e algoritmi nelle scuole americane. Due sono le casistiche che emergono: rendere più efficaci le campagne di marketing per l'iscrizione di nuovi studenti e l’identificazione di archetipi di studenti a rischio di ritiro. E soprattutto su quest’ultimo caso gli esempi e i numeri sono interessanti perché controintuitivi. Sono convinto che ci sia anche molto spazio per applicare il machine learning nei meccanismi di apprendimento ma è un ambito molto complesso perché coinvolge altre discipline tecniche, UX & UI, e meno tecniche ma egualmente importanti quali la psicologia.

Da qualche settimana questa newsletter è entrata nella community di newsletterati, un network di newsletter belle da leggere (e da condividere). Se volete dare un’occhiata alle altre eccovi il link.
Come ogni quattro puntate della newsletter ho aggiornato, nella mia casa digitale, i link finora condivisi, nel caso te ne sia perso qualcuno!

Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.

Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!

Alla prossima!

LaCulturaDelDato

LaCulturaDelDato #016

Dati & algoritmi attraverso i nostri 5 sensi

Discussion about this post