Ciao,
sono Stefano Gatti e questo è il ventunesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del ventunesimo numero:
🖐️Tecnologia (data engineering). Spark performance at a glance
Apache Spark è un framework open source per il calcolo distribuito sviluppato dall'Università della California. Consente di caricare ed elaborare dati in maniera molto efficiente. Se sei un data-engineer ne avrai sentito sicuramente parlare e probabilmente lo stai usando. In questo caso ti segnalo un italianissimo progetto open source, a dispetto del cognome del brillante programmatore che lo ha lanciato, Alfredo Fomitchenko che facilita le attività di ottimizzazione di spark stesso. Anzi citando esattamente quello che scrive Alfredo: Spark-sight “è una rappresentazione meno dettagliata e più intuitiva di ciò che accade all'interno dell'applicazione Spark in termini di prestazioni”.
👀 Data Science. Python for Data Analysis 3rd edition by Wes McKinney
Ti avevo già parlato di Wes Mckinney, una delle figure più importanti dell’ecosistema Python per la sua contribuzione a diversi progetti open source tra i quali la libreria Pandas di cui è stato il creatore ed è il BDLF (Benevolent dictator for life). Wes è anche l’autore di uno dei libri più importanti di Python e della data analysis in generale che si chiama appunto “Python for Data Analysis”, la cui prima edizione è uscita nel 2012. Quest’anno, a distanza di dieci anni, è uscita la terza edizione aggiornata, che ho letto come la prima. Nello spirito che ha contraddistinto spesso il modo con cui Wes gestisce i progetti ne ha lasciata una versione open per tutti in html con un’area su github dove puoi trovare anche il codice presentato nel libro. Te lo raccomando sia se vuoi cominciare da zero con la programmazione Python per l’analisi dei dati sia se sei più esperto ma vuoi avere un’idea completa delle principali librerie per ambiti algoritmici e vuoi approfondirle attraverso esempi pratici.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Valuable compensation insights Half1 2022 by Carta
Pur essendo relativo al mercato americano questo report realizzato da Carta è molto interessante perché i trend sono sempre più globali e in Europa li vediamo con una certa latenza. Carta è una start-up. Anzi un unicorno, che fornisce prevalentemente a start-up e aziende innovative in forte crescita servizi relativi alla gestione della parte finanziaria, stipendi compresi. Quindi ha dati molto importanti! In questo report, almeno da sfogliare per leggere gli insight di interesse, analizza, in maniera aggregata, i dati di 2000 start-up che hanno avuto un funding negli ultimi anni. Quattro sono i trend principali: il lavoro da remoto sempre più diffuso (I) che influenza anche il pacchetto retributivo (II); la sempre più forte centralità del software engineering nelle aziende(III) ma anche la crescita di licenziamenti tra i motivi di conclusione del rapporto di lavoro (IV): percentuale raddoppiata rispetto all’ultimo semestre. Ci sono anche tante informazioni da leggere nel report relative al profilo data-expert, compreso il secondo posto nella classifica delle figure con la crescita più alta di salario nell’ultimo semestre!
👃Investimenti in ambito dati e algoritmi. Start of the month: July 2022: Single-Store
Anche questo mese, come ho fatto anche a Giugno, sfruttando un’attività che sto facendo per studiare il mercato dell’innovazione e degli investimenti, vi segnalo la start-up internazionale che più mi ha più colpito e che ha avuto un funding nel mese. Come detto questa start-up deve lavorare in ambito dati e algoritmi o farne largo uso (avere al suo interno o nelle selezioni in corso un numero significativo di data-expert). Tra le 66 start-up classificate come “data & algorithms” a Luglio 2022 (sulle 480 visionate cioè circa il 14%) vi segnalo Single-store, un database ibrido che consente sia carichi transazionali che analitici (Hybrid transactional/analytical processing). In un contesto, quello dei database, con un trend di iper-specializzazione in corso mi colpisce il successo di un sistema molto duttile che però, lo dice anche il nome, semplifica alcune tipologie di architetture aziendali memorizzando i dati in un solo punto, disaccoppiando, di fatto, i carichi di lavoro transazionali da quelli analitici. Il round da 116 milioni di dollari lo ha fatto anche entrare nel circolo degli unicorni, con dati di crescita molto importanti.
👅Etica & regolamentazione & impatto sulla società. Ethics and AI: an engineer's perspective
“È un tema importante e complesso che merita un approccio multidisciplinare, ma che finisce spesso su questioni astratte e impalpabili che appassionano più i filosofi che coloro che l’AI realmente la sviluppano. Il rischio di questo trend è molto concreto: portare avanti discussioni su un’ideale di Intelligenza Artificiale che si allontana sempre più dalla tecnologia reale.” Questo è l’incipit del post di Alberto Danese che cerca di fare il punto sul rapporto tra etica e AI con una prospettiva molto concreta di un data-expert che le cose le sta facendo qui ed ora. Il post è ricco di esempi, considerazioni e spunti per approfondimenti. Cerca di trovare 12 minuti per leggerlo e commentarlo perché trasparenza, “auditabilità” e validazione e comprensione dei processi al contorno, i temi che Alberto considera fondamentali per avere un’Intelligenza Artificiale etica e funzionante, devono essere messi al centro dell’agenda di ogni data-expert.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!