For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il sessantanovesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del sessantanovesimo numero:
👅Etica & regolamentazione & impatto sulla società. Data, Algorithms, and Social Justice: A Conversation with Donata Columbro
Presentati
Donata Columbro, sono giornalista, public speaker e scrittrice. Ho avuto tante vite, tutte unite dal filo del giornalismo e dalla mia ricerca di storie di giustizia sociale e lotta alle disuguaglianze anche attraverso la tecnologia e la statistica. Insegno Data Visualization all’università Iulm, tengo un corso di Data Humanism per la Scuola Holden e sono tra i docenti del Master di Giornalismo di Torino. Ogni mercoledì pubblico una newsletter su dati, algoritmi e tecnologia. Ho scritto due libri, Ti Spiego il Dato (Quinto Quarto 2021) e Dentro l’Algoritmo (effequ 2022), ma non escludo che in questo momento io non ne stia preparando altri due o tre sul tema. Mi trovi anche su Internazionale, La Stampa, Uppa e L’Indiscreto.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10) ... divulgatrice sui temi della tecnologia e dei dati per un pubblico ampio, credo che esisterà ancora la televisione quindi mi troverete lì in prima serata (sono comunque una millennial, non una z, e non so usare TikTok :)
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
Sicuramente quella di affrontare le discriminazioni che produce. Le visioni apocalittiche dei ceo della Silicon Valley che denunciano la possibilità dell'estinzione umana a causa delle AI produce solo timori infondati: proiettandoci in un futuro inverosimile, ci distraggono dai problemi che oggi, nel 2023, questa tecnologia produce. Parlo di inquinamento, consumo delle risorse energetiche, manodopera a basso costo e sottopagata, aumento dell’odio in rete e della polarizzazione dei contenuti. Se le preoccupazioni fossero reali, ci sarebbero più investimenti nei team di etica, ma anche un aumento dei team di moderazione, e più cura nei confronti della gestione dei dati. Credo che sia urgente un re-framing di questo dibattito, arrivando a parlare di come si può progettare tecnologia usando dati in modo etico e chiedendoci sempre se sia davvero necessario raccoglierli, che tipo di efficienza vogliamo raggiungere, chi ne potrà avere vantaggi e chi invece a causa di questa efficienza sarà marginalizzato o discriminato. È femminismo dei dati, ma anche giustizia sociale e se non ce ne occupiamo subito, anche in azienda, avremo un ritorno negativo.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Tutto il preziosissimo lavoro che fa la comunità degli open data in Italia, a partire dall’associazione onData alle organizzazioni riunite nella campagna datibenecomune.it . Per chi usa i dati nel giornalismo, ma anche nella ricerca, avere la disponibilità di dati pubblici in formato open e anche “puliti bene” da chi ci investe tempo e risorse è un aiuto incredibile. Trovo assurdo che nei corsi di giornalismo di dati o di visualizzazione io debba dedicare lezioni allo scraping perché i dati spesso non sono disponibili, sono in formati improbabili oppure non sono confrontabili perché raccolti e gestiti male alla fonte. È una questione di trasparenza e di diritto all’accesso alle informazioni.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. From Code to Customer: The Role of Generative AI in Product Development and Programming
Credo fermamente che l'intelligenza artificiale generativa avrà un impatto significativo in tutte le aree organizzative. Di conseguenza, troverai numerosi approfondimenti su questo argomento in questa sezione della newsletter. Tuttavia, è importante non generalizzare il suo impatto, poiché sono convinto che la natura e la velocità di questo impatto dipenderanno fortemente dal contesto specifico. Ad esempio, l'introduzione dell'AI generativa sarà più lenta in quei processi o prodotti in cui i modelli di linguaggio di grande dimensione (LLMs) sono direttamente esposti ai clienti finali, rispetto a quelli in cui il risultato può essere supervisionato dall'uomo.
A questo proposito dovremmo considerare le previsioni errate sulle tempistiche di adozione della guida completamente autonoma come punto di riferimento. Se desideri capire la complessità di creare un prodotto che integra LLMs, ti suggerisco di leggere questo post di Honeycomb.io, che ha recentemente pubblicato un'interfaccia per interrogare database usando esclusivamente il linguaggio naturale. L'articolo offre un interessante insight non tanto sul prodotto, quanto sul percorso e sulle sfide incontrate durante la sua realizzazione, utilizzando gli strumenti che spesso menziono in questa newsletter (LangChain in primis).
D'altra parte, l'integrazione dell'AI generativa nei processi di programmazione è decisamente più agevole. Per capire meglio, ti invito a leggere questa survey condotta su Github tra 500 sviluppatori basati negli Stati Uniti che lavorano in aziende con più di 1.000 dipendenti. Anche se il campione potrebbe non essere rappresentativo, fornisce un'indicazione della tendenza. Se preferisci un riassunto, ti suggerisco questo post del brillante "The Pragmatic Engineer".
La mia esperienza personale è che i tre ambiti nel coding in cui l'AI generativa sta iniziando a fare la differenza sono esattamente quelli menzionati nella survey e, in ordine di utilizzo, includono:
Apprendimento: Sviluppare competenze specifiche nel linguaggio (57%)
Produttività: Aumentare l'efficienza (53%)
Concentrazione: Dedicare più tempo alla creazione e costruzione, riducendo le attività ripetitive (51%)
👀 Data Science. Data Visualization: Embracing Less for More Impact
I due spunti che condivido oggi sono strettamente legati a un tema molto critico, soprattutto in ambito aziendale, e ancora di più quando si lavora con i dati per prendere decisioni: l'efficacia della data-visualizzazione e, in particolare, il suo "fine ultimo", ovvero comunicare in modo semplice un'analisi di dati, o meglio il suo risultato. Il primo spunto, tratto da un sito che ho già segnalato in passato e che rientra tra i miei tre preferiti per quanto riguarda la data-viz, offre un esempio concreto di come molte volte un grafico a raggiera non risulti così leggibile quanto un "banale" grafico a barre ben realizzato. L'autore, Mike Cisneros, sottolinea come le persone che lavorano con i dati possano essere attratte da grafici e diagrammi insoliti o accattivanti, spesso con l'intenzione di creare visualizzazioni altrettanto vivaci e attraenti. Tuttavia, questa tentazione può diventare problematica quando si perde di vista ciò che è realmente importante per le comunicazioni specifiche, soprattutto in un contesto lavorativo dove l'audience è fondamentale.
Il secondo approfondimento, tratto dal blog dell'azienda Plaid, parla dei metodi sviluppati dal loro team di design per rendere le visualizzazioni dei dati più accessibili visivamente, in particolare per le persone affette da daltonismo.
Accessibilità ed efficacia sono, secondo il mio punto di vista, le due caratteristiche più importanti quando si utilizza la data-visualization in un progetto. Esistono poi progetti molto complessi in cui queste due caratteristiche potrebbero non risultare così fondamentali perché in questi casi lo scopo è dare un'idea della complessità di un fenomeno, come illustrato da questa meravigliosa, sebbene non efficace ai fini della ricerca, mappa di GitHub!
🖐️Tecnologia (data engineering). LangChain and Vector Databases: Harnessing the Power of Generative AI
La libreria LangChain consente agli sviluppatori di creare applicazioni intelligenti utilizzando i modelli linguistici alla base della generative AI. Te ne avevo già parlato, ma sta guadagnando, con il tempo e la maturità della generative AI, sempre più importanza. LangChain è veramente un playmaker insostituibile che ti consente di creare applicazioni con LLMs differenti e con chiamate ad altri ecosistemi di API sia per integrare conoscenza in maniera più deterministica che per alimentare la conoscenza agli stessi LLMs e generare prompt più efficaci. L’approfondimento che ti consiglio oggi è un manuale, in costruzione ma con già un buon livello di completezza, che ti consente di capire molto bene come funziona LangChain, cosa è un Agente (in questo ambito) e come puoi costruirlo con poche righe di codice. Tutto questo ovviamente è documentato da script Python che ci permettono di apprendere nella modalità preferita da questa community 🙂. La pubblicazione è sponsorizzata da Pinecone, uno dei database vettoriali che stanno guadagnando più velocemente popolarità in parallelo alla generative AI. Infatti i database vettoriali sono spesso descritti come la "memoria a lungo termine" per l'intelligenza artificiale generativa. E dedicato ai database vettoriali è proprio il secondo approfondimento di oggi, che ha una delle migliori e semplici descrizioni di questo tipo di database che abbia finora trovato. Per questo te la traduco perché vale assolutamente la pena leggerla: “I database vettoriali .. invece di fare affidamento su formati strutturati, archiviano e indicizzano i dati come vettori matematici in uno spazio ad alta dimensione. Questo approccio, chiamato "vettorizzazione", consente ricerche di similarità più efficienti e una migliore gestione di tipi di dati complessi, come immagini, audio, video e linguaggio naturale. Immagina un database vettoriale come un vasto magazzino e l'intelligenza artificiale come un abile gestore del magazzino. In questo magazzino, ogni articolo (dati) è immagazzinato in una scatola (vettore), organizzata ordinatamente su scaffali in uno spazio multidimensionale. Il responsabile del magazzino (AI) conosce l'esatta posizione di ogni scatola e può rapidamente recuperare o confrontare gli articoli in base alle loro somiglianze, proprio come un esperto responsabile del magazzino può trovare gruppi di prodotti simili. Le scatole rappresentano diversi tipi di dati non strutturati, come testo, immagini o audio, che sono stati trasformati in un formato numerico strutturato (vettori) per essere archiviati e gestiti in modo efficiente. Più il magazzino è organizzato e ottimizzato, più velocemente e con maggiore precisione il responsabile del magazzino (AI) può trovare gli articoli necessari per varie attività, come formulare raccomandazioni, riconoscere schemi o rilevare anomalie. I database vettoriali sono fondamentali per molte applicazioni di intelligenza artificiale (AI), inclusi i sistemi di raccomandazione, il riconoscimento di immagini e video, l'elaborazione del linguaggio naturale (NLP) e il rilevamento delle anomalie.”
Ah … dimenticavo, nel manuale su LangChain trovi la spiegazione e il codice per usare un database vettoriale per la tua applicazione orchestrata da LangChain.
👃Investimenti in ambito dati e algoritmi. Exploring the Future of Robo-Advisors: A Look at the AI-Powered Start-Up, Pluto
Se sei curioso di scoprire un prototipo di come potrebbero apparire i futuri robot investment advisor, ti suggerisco di dare un'occhiata a una start-up americana, Pluto, che ha recentemente integrato nella sua interfaccia utente una funzionalità di copilota alimentata da un motore generativo di AI e nella versione a pagamento usa ChatGPT4. Per ora, ho testato solo la versione gratuita e ho trovato la modalità copilota un po' lenta e macchinosa, ma le potenzialità sono indubbiamente interessanti.
In realtà, la funzionalità che ha reso Pluto degno di un primo finanziamento di 4,2 milioni di dollari alla fine del 2022 è la capacità di generare strategie di trading strutturate in maniera semplice e data-driven. Queste sono integrate con dati storici fondamentali dell'azienda, la serie storica delle sue quotazioni e l'analisi in tempo reale delle notizie.
Se desideri approfondire i servizi e la mission dell'azienda, oltre a provarla, ti consiglio di leggere questa interessante intervista al CEO su Hackernoon o la scheda sintetica dell'azienda su Unicorner.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!
Ciao Stefano! Bellissima newsletter questa settimana! E super intervista! :)