For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il sessantasettesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Prima di cominciare l'edizione odierna, vorrei comunicarvi una notizia riguardante un evento a cui parteciperò come relatore il 29 Giugno dalle 18.30 alle 19.30. L'evento è stato organizzato da un fedele lettore di questa newsletter, in collaborazione con l'Associazione Alumni dell'Executive MBA Ticinensis. Sono molto contento di poter tornare a Pavia, dove ho studiato, per un evento che avrà come tema le opportunità e le minacce derivanti dalla Generative AI. Se qualche lettore si trova in zona, sarò felice di trovare il tempo per un saluto prima o dopo l'evento.
Ed ora cominciamo … ecco i cinque spunti del sessantasettesimo numero:
👀 Data Science. Martina Pugliese: Embracing Diversity and Ethics in the Future of Data Science
Presentati:
Martina Pugliese, data scientist. Lavoro da anni nel mondo del tech con esperienze in start-up e in aziende più grandi, con un’attenzione alla sostenibilità e al progresso al servizio di tutti e tutte. Ho sempre amato guardare alle cose con un occhio quantitativo, dopo una laurea in Fisica alla Sapienza ho continuato con un dottorato, studiando come cambia il linguaggio naturale (quello che parliamo) nel tempo e con l’influsso di parlanti non nativi - naturalmente ho sempre avuto molto a che fare con metodi statistici per l’analisi dati! Poi, correva l’anno 2014, ho deciso di lasciare il mondo accademico e dopo un “bootcamp” a Londra mi sono trasferita in Scozia dove vivo attualmente. Mi interessano molto gli open data e la data visualization e ho una newsletter (Doodling Data) dove disegno dati a mano, creando delle “data stories”.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10) …
sempre più coadiuvato, ma non sostituito, da strumenti basati sull’IA. In data science quello che si è verificato negli ultimi 10 anni, con un’impennata recente, è la sempre maggiore presenza di sistemi “off the shelf” che si possono acquistare da terzi (tipicamente grosse aziende tech) e che riducono il lavoro manuale, in particolare per la creazione di algoritmi in Machine Learning: ormai si può costruire il proprio prodotto su moduli di base già esistenti, per esempio per classificare il contenuto di immagini o generare testi coerenti. Il che è molto utile, ma secondo me non può sostituire la comprensione della matematica che sta dietro gli algoritmi, che va ancora appresa per saper fare scelte consapevoli! La parte che non è ancora automatizzata è il cuore del lavoro sui dati: capire quali dati servono, se ce li abbiamo, in che stato sono, che storia raccontano e dove prendere quelli che non abbiamo - in pratica la parte scientifica del lavoro. Credo che nei prossimi 10 anni faremo progressi anche su questo ma sono ancora dell’idea che in ambito tech la macchina aiuterà l’umano nelle scelte, non lo sostituirà.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
Migliorare l’accesso al settore dei dati ad individui ancora marginalizzati, e rendere le applicazioni di sistemi automatici veramente etiche e utili per tutti e tutte, non solo per chi vive in condizioni di privilegio. Purtroppo siamo ancora molto lontani da questo, e le cose non stanno necessariamente migliorando, o lo fanno troppo lentamente. Vero è che ci sono numerose iniziative encomiabili che mirano ad aumentare la partecipazione di comunità diverse al settore tecnologico, coinvolgendo persone (non bianche, non di genere maschile, non occidentali, …) che ne sono state tradizionalmente escluse (a questo proposito segnalo un articolo di Harvard Business Review, un po’ vecchiotto ma sempre attuale, intitolato “Hacking Tech’s Diversity Problem”), ma gli sforzi sistemici sono troppo deboli e frammentari. Abbiamo bisogno dell’impegno di tutti e tutte e di regolamentare le applicazioni commerciali della tecnologia affinché non finiscano per accentuare le discriminazioni (cosa che è successa ripetute volte, segnalo il documentario “Coded Bias”).
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Ne uso troppe per menzionarne solo una, e ne trovo continuamente di nuove. Vorrei però segnalare “Calling Bullshit”, un sito web realizzato da C. Bergstrom e J. West della University of Washington che insegna come smascherare usi sbagliati e ingannevoli dei dati, tipicamente nei media e in politica, e come ragionare con puro spirito critico. Ci sono video e raccolte di materiali (tutto fruibile gratuitamente) e gli autori hanno scritto anche un libro. Secondo me è una risorsa sempreverde che si lega bene a quello che dicevo prima sul restare umani nel mondo dell’IA, visto che uno dei grossi problemi attuali sta nel fatto che i sistemi automatici rischiano di aumentare la quantità di sciocchezze e falsità presenti in rete.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Riding the AI Revolution: Embracing Innovation and Tackling Old-School Consultancy Challenges!
Sono convinto - e non sono il solo - che l'intelligenza artificiale (IA) generativa avrà un impatto sostanziale su tutti i processi all'interno delle organizzazioni. Non solo influenzerà i processi più "operativi", ma probabilmente, e inizialmente, anche quelli ad alta intensità di conoscenza. Forse questa non è l'espressione migliore, ma l'idea è chiara… Il suggerimento di approfondimento di oggi riguarda alcuni strumenti che utilizzano l'intelligenza artificiale per facilitare e potenziare le attività di chi promuove l'innovazione. Certo, anche chi lavora in questo ambito non è immune da questa trasformazione. Provali! Io ne uso già alcuni e devo dire che hanno aumentato la mia creatività e la qualità di quello che faccio. Proprio per il suo vasto impatto su tutti i processi aziendali, in particolare quelli ad alta intensità di conoscenza, è importante sapere che non sarà facile lasciarsi guidare in questa trasformazione da consulenti esterni. I consulenti esterni possono essere utili in alcuni momenti, ma non possono e non devono sostituire le persone che lavorano internamente all’azienda. Alberto Danese discute in maniera molto pratica di questo argomento nel suo post dal titolo "Complessità crescente vs. management e consulenza old-style: cosa non funziona... e perché". E gli esempi, fai attenzione, sono tratti dal passato perché la situazione era la stessa anche ieri, ma la complessità e la rapidità del presente non permetteranno alle aziende di avere un futuro se opteranno per l'outsourcing della strategia e del cervello 🙂 .
🖐️Tecnologia (data engineering). Coding without Coding: Welcome to the Age of Prompt Data Engineering
Non so se siamo già nell'era della migrazione dal Data Engineering al Prompt Engineering, come recita il titolo di uno dei due approfondimenti di oggi, ma sicuramente è qualcosa da seguire con grande attenzione. Nell'esempio proposto da Christian Koch nell'articolo, attraverso esempi di prompt engineering dettagliatamente illustrati, si arriva alla soluzione del problema senza scrivere una riga di codice, ma "ChatGPT non solo è stato in grado di implementare correttamente i nostri prompt nella maggior parte dei casi, ma anche quando il modello ha commesso un errore, è stato in grado di riflettere e correggerlo." Si tratta ancora di casistiche relativamente semplici, ma sono convinto che questi modelli possano "scalare" più facilmente nella complessità rispetto ad un programmatore se adeguatamente guidati.
Sempre sulla stessa scia è l'altro approfondimento che ti suggerisco, ovvero la libreria PandasAI, che è stata da poco rilasciata e aggiunge funzionalità di intelligenza artificiale generativa a Pandas, il popolare strumento di analisi e manipolazione dei dati. È stata progettata per essere utilizzata insieme a Pandas, senza sostituirlo. L'ho provata utilizzando Colab (attento, va installata esplicitamente) in combinazione con le API di OpenAI e praticamente puoi eseguire qualsiasi operazione (o serie di operazioni) che normalmente faresti con il codice Pandas in una sola riga di codice, utilizzando questa sintassi standard: pandas_ai(nome della tabella, "comando"). L'unica particolarità è che funziona (con LLM di OpenAI) solo con il comando in lingua inglese.
Alla fine, se mi hai seguito fino a qui, sia l'utilizzo di ChatGPT per generare codice Pandas, come viene fatto nel primo approfondimento, sia l'utilizzo della libreria PandasAI sono due modalità, la prima esplicita per generare codice e la seconda implicita che genera solo il risultato, dello stesso motore di traduzione da linguaggio naturale a codice. Benvenuti nell'era del Prompt Data Engineering! 🙂
👃Investimenti in ambito dati e algoritmi. Start of the Month - May 2023: Spellbook: An AI-Driven Legal-Tech Innovator Taking The Global Stage
Come ogni mese, approfitto di un'attività che sto svolgendo per studiare il mercato dell'innovazione e degli investimenti, per segnalarti la startup internazionale che più mi ha colpito e che ha ricevuto finanziamenti nel mese precedente. Questa startup deve operare nel campo dei dati e degli algoritmi, o ne deve fare un utilizzo intensivo, avendo al suo interno o nelle selezioni in corso un numero significativo di esperti di dati.
Tra le 75 startup classificate come "data & algorithms" a Aprile (su 538 visionate, ovvero circa il 14%, dato in leggero decremento rispetto ai due mesi precedenti), ti segnalo Spellbook. Attiva nel settore legal-tech in Canada, ha raccolto 10,9 milioni di dollari ed è una delle molte startup tecnologiche che incorporano la tecnologia dell'intelligenza artificiale generativa (AI) nei suoi prodotti. Prima del lancio di uno strumento alimentato da intelligenza artificiale chiamato Spellbook, l'azienda si chiamava Rally. L’azienda offre, e continua a farlo, una piattaforma per l'automazione delle attività negli uffici legali (vanta 600 uffici “clienti” in tutto il mondo insieme alle 53.000 persone che si sono prenotate nella waitlist del nuovo prodotto). Spellbook, tuttora in fase di sviluppo, utilizza la tecnologia GPT-4 di OpenAI per aiutare i professionisti legali a redigere e rivedere contratti, NDA e documenti legali in generale. Ci sono due cose che, sei interessato, ti consiglio di approfondire.
La prima è il video che trovi nella homepage, che fornisce un esempio concreto di come sarà l'interfaccia utente (UI) e l'esperienza utente (UX) del prodotto. Ho trovato questi aspetti particolarmente interessanti, poiché sono temi critici nello sviluppo di prodotti basati su AI generativa. Il fatto che il prodotto sarà integrabile con Microsoft Word rende l'offerta particolarmente interessante dal punto di vista dell'usabilità.
Il secondo elemento da considerare riguarda gli approfondimenti tecnici - molto interessanti - su cui l'azienda sembra essere molto chiara: i dataset di training, il target di utilizzatori, la gestione degli errori e delle polarizzazioni. Il fatto che tra gli investitori ci sia Thomson Reuters Ventures può fornire un'indicazione su come alcune grandi aziende stanno investendo in questo ambito.
👅Etica & regolamentazione & impatto sulla società. Unveiling the European Centre for Algorithmic Transparency: A Pioneering Step towards Understanding and Regulating AI in Europe
Il 18 aprile 2023 è stato presentato a Siviglia il Centro Europeo per la Trasparenza Algoritmica (ECAT), primo ente europeo focalizzato su questo tema.
Come si evince dal sito del Centro, "il DSA (Digital Services Act) risponde all'esigenza crescente di comprendere meglio le tecnologie che alimentano i modelli di business delle piattaforme. La creazione dell'ECAT, promossa da DG CONNECT e dal Joint Research Centre, permette alla Commissione di potenziare la propria competenza tecnica nel campo della scienza dei dati e degli algoritmi. L'ECAT raggruppa esperti di primo piano per supportare i nuovi compiti della Commissione come ente regolatore e si prefigge di diventare il punto di riferimento per la ricerca sulla trasparenza algoritmica". L'ECAT avrà il compito di verificare la conformità degli algoritmi al Digital Services Act dell'Unione Europea. L'agenzia, che non è ancora completamente operativa, prevede di avere un organico di 30-40 dipendenti, inclusi ricercatori specialisti in Intelligenza Artificiale.
Considero questa iniziativa estremamente positiva, poiché rappresenta un passo avanti verso una migliore comprensione da parte di chi è chiamato a legiferare sull'evoluzione della tecnologia. Nella documentazione relativa all'evento di presentazione, è possibile trovare la registrazione dell'evento e altri materiali di grande interesse.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!