Original in Italian; automatic translation into English available here
Ciao,
sono Stefano Gatti e questo è l'ottantesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti dell’ottantesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. The Great Tech Layoff Spree: Unpacking the Numbers with Roger Lee's Tools
Il fenomeno dei licenziamenti massivi nell'industria tech, principalmente concentrato negli USA tra la fine del 2022 e l'inizio del 2023, ha sorpreso molti, soprattutto considerando gli anni precedenti di forti assunzioni e salari in rapida crescita. Ma non è stato un fenomeno limitato solo agli USA: anche in Europa e in Italia abbiamo visto episodi simili. Di conseguenza, è fondamentale monitorare questo fenomeno per diverse ragioni. L'analisi che ti suggerisco oggi lo fa in modo data-driven. Non si tratta di una copertura completa, ma è comunque significativa. Mette a tua disposizione un database, liberamente accessibile, che riporta tutti gli episodi di licenziamento (più di 3000 record), arricchito con ulteriori informazioni come il settore di appartenenza, la fonte dell'informazione e il round di investimento raggiunto dalla start-up. Ancora più utile è la vista aggregata che ti presento qui sotto, la quale mostra la progressione mensile degli ultimi due anni e per trimestre dall'inizio del Covid.
Da questi dati, emerge che il picco del fenomeno sembra essere passato, ma persiste un livello di licenziamenti superiore rispetto al periodo del Covid. Questo è probabilmente dovuto a un cambiamento nelle valutazioni (come il livello dei multipli di valutazione delle aziende e la crescente attenzione alla profittabilità da parte degli investitori) che spingono i CEO a intervenire più rapidamente sui costi del personale.
Se lavori nel settore HR o stai formando un team Data & Analytics, lo stesso sito, ideato da Roger Lee, CEO di una start-up, fornisce i nomi di alcuni dei 400.000 licenziati nel settore tech. Inoltre, Roger Lee è anche dietro al progetto/start-up Comprehensive, che monitora i livelli salariali nel mondo tech, offrendo un livello di dettaglio elevato in base al ruolo, al tipo di azienda e alla localizzazione geografica. Anche se, purtroppo per noi europei, i dati sono prevalentemente orientati sul mercato americano, rimangono comunque molto utili, specialmente per analizzare i trend.
🖐️Tecnologia (data engineering). From Quick Data Decisions to Excel's Next Big Thing: The Modern Analyst's Toolkit
L’analisi dei dati, ovvero quello che in inglese viene definito data analysis, ha ancora, e lo avrà ancora per tanto tempo, un impatto sulle nostre vite lavorative e personali più grande di quanto possiamo pensare e percepire. Prendere decisioni rapidamente è diventato ancora più importante nella società moderna e avere una buona rappresentazione del mondo, cioè disporre di dati, è una condizione necessaria ma non sufficiente. Farlo in maniera algoritmica e continuativa a volte è un lusso non alla portata di tutti e di ogni momento. Ecco perché avere un file CSV, Excel o un piccolo database e fare analisi veloci per prendere una decisione diventa sempre più importante e frequente, sia per scegliere se fare o meno un progetto o selezionare un collaboratore in ambito lavorativo, sia per decidere una spesa o un piccolo investimento in ambito personale. Unire dati, visualizzarli efficacemente e applicare alcuni principi di statistica di base è tutto quello che serve, anche se non è poco. Tutte le veloci segnalazioni di oggi possono aiutarti a rendere semplici, in alcuni casi automatici o comunque più consapevoli, tutti questi passaggi. Eccole in ordine sparso:
Unire dati (tabelle o file CSV) è molto comune e, nonostante le molteplici definizioni e modi di implementarle, queste operazioni possono offrire diverse prospettive. Qui ne trovi 13 diverse, alcune delle quali veramente molto particolari.
Chatliza.ai è un’ottima interfaccia, al momento per le diverse versioni di ChatGPT, per farti aiutare nell'analizzare i dati, generando codice Python o R. Se non hai l’utilissima versione beta Advanced Data Analysis di ChatGPT4, puoi usare anche le API di ChatGPT 3.5 gratuitamente e ottenere quasi gli stessi risultati.
L'unione degli sforzi di Microsoft e Anaconda sembra portarci in un altro mondo, rendendo più semplice unire Excel e Python, finora molto complicato. Non l'ho ancora provato ma questa nuova funzionalità di Excel sembra essere un potenziale game changer.
Ti ho già segnalato in passato il magnifico lavoro di Arthur Turrell in ambito tech-education e non posso non segnalarti un altro importante progetto/libro, “Python4DS”, che ha da poco concluso insieme al bravissimo ricercatore italiano Pietro Monticone. Se vuoi aumentare le tue capacità tecniche nell’analisi dei dati, quest'opera è imperdibile.
👀 Data Science. Zurich Techies Spice Up Language Models? Dive into LMQL!
I Large Language Models hanno dimostrato prestazioni eccezionali in una vasta gamma di compiti, come rispondere alle domande e generare codice. Tuttavia, per raggiungere prestazioni all'avanguardia o per adattare i modelli linguistici a compiti specifici, è necessario implementare programmi complessi e specifici, che possono richiedere interazioni ad hoc. Il prompt engineering rappresenta la via più semplice ed immediata. Esistono tecniche, come l’one shot learning e il few shot learning, che operano fornendo esempi specifici nel prompt. Per rendere tutto ciò ancora più deterministico, a fine maggio, alcuni ricercatori del Politecnico di Zurigo hanno introdotto un nuovo linguaggio, il LMQL (acronimo di Language Model Query Language). Questo linguaggio sfrutta i vincoli e il flusso di controllo di un prompt per generare un'efficiente procedura inferenziale che minimizza il numero di chiamate al modello linguistico. Per chi ha familiarità con Python, è più semplice comprendere attraverso esempi piuttosto che con una descrizione verbale. Se sei curioso, visita il sito del gruppo di ricerca e sperimenta nel loro playground, come ho fatto io. L'obiettivo principale di questo nuovo modo di interagire con gli LLM è ridurre le allucinazioni e i costi computazionali.
Se ti piace interagire con ChatGPT e “fratelli” in linguaggio naturale, non perderti questo sito, una sorta di Github dei prompt. Puoi scoprire e sperimentare direttamente quanto l'arte del prompt engineering stia diventando creativa e precisa. Ci sono centinaia di prompt affascinanti. Ad esempio, due dei miei preferiti sono "Note GPT", per prendere appunti in modo più efficiente con il tuo LLM preferito, e "7 questions to find your passion", per esplorare le tue passioni in modo alternativo e creativo.
👃Investimenti in ambito dati e algoritmi. Startup of the Month August 2023) is MindsDb
Come ogni mese, utilizzo una delle mie attività per esplorare il mercato dell'innovazione e degli investimenti e segnalarti una startup internazionale che ha particolarmente colpito la mia attenzione e che ha ottenuto finanziamenti il mese precedente. Questa startup opera nel mondo dei dati e degli algoritmi, o ne fa un uso massiccio, vantando all'interno del suo team, o nelle selezioni attuali, un nutrito gruppo di esperti dati.
Gli investimenti globali nell'ambito Data & AI sono risaliti ad agosto ai livelli medi del 2023, dopo il picco negativo di luglio. Tra le 86 startup etichettate come "data & algorithms" ad agosto (su un totale di 499, ovvero circa il 17%, una percentuale superiore alla media del 2023), ti segnalo mindsdb. Infatti nel mese che ha visto funding molto importanti sul versante dei Large Language Model (Antropic, ai21.com su tutti) e un funding molto “strategico” di moltissime BigTech (Google, Amazon, Nvidia, Intel, AMD, Qualcomm, IBM, Salesforce) su HuggingFace preferisco dare spazio a questo “strano” stack tecnologico tra i database e i modelli che semplifica il deploy dei modelli stessi e sostanzialmente si programma attraverso SQL abbassando molto la soglia di competenza necessaria dal punto di vista ingegneristico.
Il progetto ha una storia molto particolare che se vuoi leggere in una forma un po’ romanzata ma accattivante puoi farlo attraverso questo articolo di business insider. Resta che un piccolo progetto opensource, partito senza molta attenzione si è ritrovato a risolvere diversi casi d’uso importanti in molte aziende e a raccogliere un round importante (l’ultimo di 46,5 milioni di dollari) anche dal corporate ventures di Nvidia.
Leggendo la documentazione tecnica e diversi casi d’uso penso che mi sarebbe stato utile tante volte soprattutto nella mia precedente esperienza lavorativa per l’immediatezza con cui si interfaccia a diverse fonti dati ed esegue calcoli batch massivi in maniera efficiente. Se sei interessato a provarlo in maniera semplice è presente anche nel marketplace di AWS.
👅Etica & regolamentazione & impatto sulla società. Decoding Trust: From Digital News to Scientific Studies
Il tema della fiducia nei dati e nelle informazioni, fondamentali per la nostra comprensione del mondo, è cruciale e sempre più rilevante in quasi tutti i processi che hanno a che vedere con la nostra conoscenza. Questa importanza è cresciuta, a mio avviso, non tanto perché ci siano percentualmente più "corruzioni" in questi processi (non ho dati che supportino questa affermazione😀), ma perché è esponenzialmente aumentata la quantità di dati e informazioni a nostra disposizione. Parallelamente, sono cresciuti i processi e gli attori coinvolti, così come la nostra capacità di verificare la loro autenticità, sebbene non proporzionalmente al loro aumento. Questo ha indubbiamente amplificato la nostra percezione del problema.
Se vuoi approcciarti in maniera data-driven, ti suggerisco di esaminare il Digital News Report 2023. Si tratta di un rapporto sul consumo di notizie digitali basato su un sondaggio condotto da YouGov su oltre 93.000 consumatori di notizie online in 46 mercati, che rappresentano metà della popolazione mondiale. Il report contiene molti dati interessanti, ma la notizia più preoccupante riguarda la fiducia verso le informazioni. Si legge infatti: "La fiducia nelle notizie è diminuita in tutti i mercati, di ulteriori 2 punti percentuali nell'ultimo anno… In media, quattro su dieci del nostro campione (40%) dicono di fidarsi della maggior parte delle notizie per la maggior parte del tempo. La Finlandia ha la fiducia più alta (69%), mentre la Grecia (19%) la più bassa, a seguito di un anno di dibattiti sulla libertà di stampa e sull'indipendenza dei media." Oltre a ciò, il report evidenzia come l'intero settore dell'informazione stenti a trovare un modello di business sostenibile, essenziale per l'indipendenza e la qualità dell'informazione, pilastro di ogni democrazia. Proprio per questo, guardo con ottimismo iniziative come quella del Post in Italia, che coniuga qualità e verifica accurata delle notizie con la profittabilità.
Un altro settore che mostra problemi di fiducia e verificabilità dei dati è quello degli studi scientifici. Ti fornisco un dato tratto da un articolo molto interessante di Semafor (progetto legato alle informazioni on-line da seguire esso stesso) : tra il 50% e il 66% degli studi non supera il test della ripetibilità. Questo problema è in parte legato al KPI con cui vengono valutati i ricercatori: il numero di studi pubblicati. Spesso questi meccanismi non incentivano la verifica. Qui entra in gioco anche la legge di GoodHart: "quando una misura diventa un obiettivo, cessa di essere una buona misura". E questa legge ha implicazioni ben oltre la ricerca …
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!