For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il cinquantasettesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del cinquantasettesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. 2022 Salary Insights: 8 Revealing Graphs for Software Engineers & Data Experts
Due delle più importanti aziende di ricerca di lavoro online statunitensi, Dice e Hired, hanno recentemente rilasciato i dati del 2022 riguardo salari, competenze e il mercato del lavoro nel settore tecnologico americano. L'articolo che ti consiglio presenta in otto grafici questi dati focalizzati sulle professioni legate al mondo del software, incluso il settore dei data-expert. Sebbene queste informazioni provengono dal mercato americano, i trend possono essere considerati, in modo relativo, validi anche per l'Europa.
Ecco quattro punti chiave da evidenziare:
I salari medi aumentano, ma non in linea con l'inflazione.
Tra i data expert, i data engineer sono pagati leggermente più dei data scientist, mentre i cloud engineer/architect guadagnano decisamente di più di entrambi. Questo non sorprende.
Per quanto riguarda le competenze richieste, tra i linguaggi di programmazione più ricercati, Python è nettamente in testa e SQL si colloca sul podio.
Tra i settori considerati più promettenti, l'intelligenza artificiale (AI), il machine learning e la data science dominano su tutti gli altri.
Quindi buone notizie per la nostra community 🙂
🖐️Tecnologia (data engineering). Pandas 2.0: Key Upgrades in Python's Data Library
Il 3 aprile 2023 è stata rilasciata la versione 2.0 della libreria Python Pandas, molto popolare e utilizzata da tutti i data-expert fedeli al "dittatore benevolo" 🙂.
Questa nuova versione presenta numerosi miglioramenti; se desideri conoscere rapidamente i principali, questo è un ottimo punto di partenza.Tre sono i punti di maggiore interesse rispetto alle versioni precedenti:
1) L'aggiunta del supporto per Pyarrow nel backend, che porta a operazioni più veloci e a un uso più efficiente della memoria, ottimizzando la lettura e l'elaborazione parallela dei dati, particolarmente utile per dataset di grandi dimensioni.
2) L'ottimizzazione basata sul modello "Copy-on-Write", simile a come funziona Spark. Questa tecnica riduce la creazione di copie inutili dei dati, migliorando le prestazioni e l'efficienza della memoria.
3) Gli indici possono ora contenere tutti i tipi numerici NumPy, migliorando le prestazioni nelle operazioni sugli indici stessi.
Le prime misurazioni delle performance mostrano risultati positivi rispetto alla versione precedente, ma non ancora all'altezza delle prestazioni di librerie più recenti come Polars e Datatable, soprattutto per quanto riguarda la scrittura di file di grandi dimensioni.
Se sei interessato a conoscere tutti i dettagli delle nuove funzionalità, questo è il riferimento migliore.
👀 Data Science. Spotlight on Vincenzo Manzoni: Exploring the Journey of a Data Science Expert
Presentati Sono Ingegnere Informatico con PhD in Information Technology. Durante il dottorato, mi sono appassionato al machine learning - nel 2011, uno strumento per ricercatori! - per trovare modelli matematici di processi difficilmente esprimibili attraverso equazioni. Inoltre, la mia esperienza al SENSEable City Lab del MIT, sotto la guida di Carlo Ratti, mi ha fatto comprendere l'importanza di rendere accessibili i dati alle persone. Dal 2017 sono Data Science Director in Tenaris. Con il mio team, grazie a visualizzazioni interattive, modelli data-driven e algoritmi di ottimizzazione miglioriamo i nostri processi produttivi riducendo costi e aumentando la qualità dei prodotti. Dal 2021 sono professore a contratto all’Università degli Studi di Bergamo del corso Data Analysis for Business Analytics.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10) …imprevedibile! La qualità dei recenti modelli generativi rende impossibile fare previsioni non solo sulla mia posizione, ma sull’intero mondo del lavoro. Però, proviamoci! In un possibile scenario, mi vedo alla guida delle attività data-oriented in una grande azienda, dove la competenza nei dati sarà diffusa ma si richiederà comunque un team di esperti per gestire gli aspetti più avanzati. Alternativamente, potrei diventare un professore universitario a tempo pieno, dove mettere a frutto la mia esperienza professionale insegnando agli studenti strumenti e tecniche per l’analisi dei dati.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi? Formare professionisti capaci non solo di implementare soluzioni tecniche, ma anche di identificare e intuire opportunità in cui applicare gli strumenti e le tecniche appropriate. Durante i miei 10 anni di lavoro in un'azienda di manufacturing, ho risolto molti problemi applicando soluzioni consolidate in altri settori, evidenziando che per ottenere risultati diversi è necessario intraprendere azioni innovative e dimostrando l'importanza della cross-contaminazione. Pertanto, è fondamentale sviluppare la capacità di vedere al di là dei confini settoriali per trovare soluzioni efficaci.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno … Hacker News. Per chi non lo conoscesse è un sito di social news e aggregatore di link sull’informatica, la tecnologia e l’imprenditoria. È promosso dal noto fondo di investimenti e incubatore di startup Y Combinator. Il sito utilizza un sistema di votazione che porta in home page solo i contenuti più rilevanti e interessanti permettendomi di rimanere aggiornato sulle novità più importanti del settore. Inoltre, Hacker News offre la possibilità di commentare i link condivisi, dando spesso origine a discussioni e spunti di riflessione, che si rivelano a volte ancora più interessanti dei contenuti stessi.
👃Investimenti in ambito dati e algoritmi. 2022 Tech Investments: A Challenging Year with Silver Linings
Se desideri avere una sintesi oggettiva di quanto sia stato negativo il 2022 in termini di investimenti in aziende tech ti consiglio di leggere questo articolo. Lo scorso anno è stato negativo non solo per la decrescita degli investimenti ma anche per l'occupazione a causa dei massicci licenziamenti nelle big tech. Tuttavia, l'articolo riesce a mettere tutto in una corretta prospettiva temporale, e ne emergono alcuni spunti interessanti e, in fin dei conti, positivi:
Il valore degli investimenti nel 2022, ad eccezione della Cina, è superiore a quello pre-pandemia del 2019 in tutte le aree del mondo.
Il numero dei dipendenti delle big Tech anche dopo i recenti licenziamenti, è superiore a quello del 2019.
La crescita in Africa non si è fermata nel 2022.
E dopo anni di crescita dirompente siamo poi così sicuri che un’occhiata più attenta ai fondamentali e all’efficienza sia una cosa così negativa?
👅Etica & regolamentazione & impatto sulla società. Generative Models: Not a One-Size-Fits-All Solution
Presentare i Large Language Models, le reti neurali alla base di ChatGPT, come unica forma di “intelligenza artificiale” è uno dei peggiori errori di generalizzazione che si trovano negli articoli e nei commenti in giro per il Web in questo momento. Ha espresso in maniera egregia sia dal punto di vista tecnico che filosofico Stephen Wolfram nell’articolo molto lungo, ora diventato un libro, che ti ho segnalato nello scorso numero. E sì che Wolfram ha dedicato tutta la sua vita professionale a progettare uno dei migliori motori computazionali di conoscenza, Wolpram Alpha, che ha un approccio opposto a ChatGPT. Ma Stephen ha così ben capito la differenza e le qualità diverse ma complementari dei Large Language Models che ha immaginato e raccontato la sua visione di futura integrazione dei due approcci e ha subito creato un plugin di Wolfran Alpha per ChatGPT. Per capire le diverse posizioni, magari meno benevole di quella del sottoscritto, ti segnalo alcuni punti di vista critici che evidenziano gli errori di questi modelli linguistici e la loro presunta pericolosità. In questo articolo OpenCage, un’azienda che fornisce API di geocoding, evidenzia un errore palese di ChatGPT nel creare codice, partendo da generico linguaggio naturale, inventandosi da zero un servizio (una api) che l’azienda non eroga. Pur non essendo in alcun modo riuscito a replicarlo, sia con GPT-3 che GPT-4, non credo sia un esempio di buon uso dei prompt (la costruzione dell’interazione che abbiamo con ChatGPT). Neppure mi sembra un ambito di uso particolarmente intelligente, come Mafe De Baggis evidenzia in un caso simile attraverso un commento Linkedin particolarmente azzeccato. Anche questo editoriale di Tim Harford, apprezzato divulgatore scientifico britannico, mi sembra abbastanza avventato per l’associazione fuori luogo tra questi sistemi e la ricerca di una verità assoluta 🙂 Purtroppo, avendo a disposizione un potente martello come l’ultima generazione di Large Language Models, tendiamo a percepire tutto ciò che ci circonda come chiodi e corriamo il rischio di utilizzarli in modo improprio, esponendoci a potenziali pericoli e danni. E’ anche questo lo spirito di questa discussione sui problemi attuali dell’AI condotta, nel suo celebre podcast, da Sam Harris insieme a Stuart Russell e Gary Marcus, che hanno scritto pagine importanti della storia recente accademica e industriale di questo ambito. Anche questo è un punto di vista non molto positivo, verso questi nuovi strumenti, ma che credo sia assolutamente degno di essere ascoltato!
E prima di finire, un messaggio da un amico che è stato il protagonista di una intervista nella sezione “Uno di Noi” qualche settimana fa:
"Cerchi dati per risolvere problemi sociali e ambientali con la tua impresa o startup? Il programma di accelerazione Impact Deal (promosso da Fondazione CRT, OGR e Microsoft) ti offre l'opportunità di attivare progetti di data collaboration con organizzazioni di alto profilo, tra cui TIM,WINDTRE,Banca Sella, la Città di Torino ed altri ancora. Candidature aperte fino al 26 aprile su https://impactdeal.eu"
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!