For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è l'ottantacinquesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti dell’ottantacinquesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. From Bytes to Rights: The Carola Frediani's Cyber Journey
Presentati:
Carola Frediani. Nasco come giornalista tech nel lontano 2001 in una realtà indipendente, la Totem di Franco Carlini. Negli anni mi sono poi specializzata su hacking, privacy, sorveglianza, cybercrimine, scrivendo di questi temi per varie testate italiane ed estere. Intorno al 2018 ho lasciato il giornalismo come professione, iniziando a lavorare nella cybersicurezza, inizialmente come cybersecurity awareness manager in un'azienda tech. Dopo essere stata nel team di sicurezza globale del Segretariato di Amnesty International, ora sono infosec technologist nella ONG Human Rights Watch. Dal 2018 però ho iniziato a scrivere (quasi) ogni settimana la newsletter gratuita Guerre di Rete, che analizza notizie e storie di cybersicurezza, sorveglianza, diritti digitali, intelligenza artificiale. La newsletter è poi evoluta in un progetto di informazione indipendente e no-profit, il sito GuerreDiRete.it, realizzato insieme all’associazione Cyber Saiyan.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10)
Il mio ruolo è sempre stato molto cangiante, e dieci anni mi sembrano un secolo. Ma sarà presumibilmente qualcosa all’incrocio tra informazione, formazione e ricerca, che alla fine sono stati i tre parametri che hanno sempre configurato quello che facevo, indipendentemente dalla veste professionale. O almeno così spero.
Qual è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
Sviluppare il loro potenziale di innovazione rispettando i diritti umani, che includono non solo il diritto alla privacy, il più citato e abusato, ma anche la libertà di espressione e di informazione, il diritto di sapere se, come e perché è stata presa una decisione automatizzata che ti riguarda ed eventualmente avere facoltà di opporsi, il diritto di prendere i tuoi dati e andartene da un’altra parte, il diritto di accedere a servizi essenziali in cui l’automazione non sia solo un modo per risparmiare a tuo discapito, il diritto ad avere voce in capitolo quando alcune tecnologie sviluppate da privati hanno chiaramente un forte impatto sulla società, e potrei continuare ancora a lungo ma mi fermo qua.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Una volta avrei detto Twitter, perché era una risorsa fondamentale per chiunque volesse seguire avvenimenti in sviluppo, o approfondire in verticale alcuni temi con esperti facilmente raggiungibili, o arrivare a informazioni, persone o entità letteralmente di ogni tipo. Ora purtroppo non è più così. Ma posso dire Internet Archive, che da anni fa un lavoro meritorio, utile e fondamentale per chi voglia tenere traccia di un panorama sempre più volatile e a rischio di mistificazioni.
👅Etica & regolamentazione & impatto sulla società. Uncovering the Unseen: How Large Language Models May Invade Our Privacy
Nel numero in cui è presente l’intervista a Carola Frediani, di cui sono fan e lettore fin dalle prime uscite di Guerre di Rete, desidero dedicare questa sezione della newsletter ad un recentissimo paper che mette in luce una problematica non nuova, ma che l’aumento delle interazioni testuali con le intelligenze artificiali potrebbe amplificare: la violazione della privacy e, più in generale, la possibilità di influenzare in maniera non trasparente le decisioni di ognuno di noi. Il paper che ti suggerisco di leggere è stato pubblicato l’11 Ottobre ed è opera di quattro ricercatori dell'ETH di Zurigo, con un titolo molto esplicativo: "Beyond Memorization: Violating Privacy via Inference with Large Language Models". Credo che le conclusioni del paper sintetizzino molto bene perché si tratta di un lavoro molto importante sui cui risultati è bene riflettere: “In questo lavoro abbiamo presentato il primo studio completo sulle capacità dei LLM pre-addestrati di inferire attributi personali da un testo. Abbiamo dimostrato che i modelli raggiungono già prestazioni quasi umane su un'ampia gamma di attributi personali a una frazione del costo e del tempo, rendendo possibili per la prima volta violazioni della privacy basate sull'inferenza su grande scala. Inoltre, abbiamo dimostrato che le misure di mitigazione attualmente esistenti, come l'anonimizzazione e l'allineamento dei modelli, sono insufficienti per proteggere adeguatamente la privacy degli utenti dall'inferenza LLM automatizzata. Ci auguriamo che questi risultati portino a miglioramenti in entrambi gli approcci, con il risultato finale di una migliore protezione della privacy. Inoltre, abbiamo introdotto e formalizzato la minaccia emergente dei chatbot invasivi della privacy. Nel complesso, riteniamo che i nostri risultati apriranno una nuova discussione sulle implicazioni del LLM per la privacy, che non si concentrerà più solo sulla memorizzazione dei dati di addestramento.”
L'immagine che ti propongo di seguito è un esempio pratico (tratto dal paper) di come questo meccanismo può funzionare in concreto.
Se pensi che già oggi Google, che detiene una quota superiore al 90% delle ricerche nel mondo occidentale, abbia già queste informazioni, hai in parte ragione ma solo in parte, per questi aspetti che devi considerare:
Il passaggio da una ricerca attraverso un motore di ricerca all’utilizzo di un chatbot come ChatGPT aumenta senza dubbio il numero e la qualità di informazioni che lasciamo a terzi, proprio per il tipo diverso di interazione.
Un LLM è un agente decisamente più “intelligente” rispetto ad un motore di ricerca e, come ben evidenziato nella sezione 5 del paper, esiste concretamente la possibilità di LLM maliziosi (Adversarial Interaction) che possono indirizzare una conversazione in modo tale da indurre l'utente a fornire informazioni private e potenzialmente sensibili. In questo caso, l'LLM ha di fatto un compito pubblico (ad esempio, assistere l'utente con informazioni di viaggio) e un compito nascosto potenzialmente malizioso (ad esempio, cercare di estrarre informazioni private dall'utente).
In un motore di ricerca è comunque lasciata all’utente la scelta del link e le successive fasi di utilizzo delle informazioni. Nel caso degli assistenti personali siamo sicuramente più passivi nella decisione e quindi esposti ancora di più alle influenze non indipendenti di questi sistemi. Il pericolo cresce ulteriormente se la fruizione di questi sistemi evolverà verso un modello apparentemente gratuito come è per la ricerca sul web, con la differenza che le influenze saranno ancora meno trasparenti di quelle attuali.
Le mitigazioni, come mostrato nella sezione 6 del paper, sono ad oggi molto complesse e difficili da attuare e, ancora di più rispetto alle ricerche web, in mano a chi gestisce il servizio.
Detto questo, non voglio spaventarti e ti confesso che sto usando senza paura da mesi la versione ChatGPT4 Plus perché mi è molto utile, anche nel realizzare più velocemente e (spero) meglio questa newsletter (e in un prossimo futuro te lo racconterò …). Ma essere informati dei rischi e soprattutto aiutare la società ad indirizzarli al meglio è un dovere di tutti noi e, in particolar modo, di questa newsletter. Se poi sei un amante della tecnologia e della metodologia degli LLM e del machine learning, non perderti i dettagli del paper su come hanno costruito il dataset e hanno misurato “le capacità di 9 LLMs di ultima generazione (ad esempio, GPT-4, Claude 2, Llama 2) per dedurre 8 attributi personali (età, educazione, genere, reddito, geolocalizzazione etc.), dimostrando che raggiungono già ∼ 85% di accuratezza top-1 e ∼ 95,8% top-3 su dati reali. Nonostante questi modelli raggiungano prestazioni umane vicine a quelle di un esperto, il loro costo è molto ridotto: richiedono un investimento finanziario 100 volte inferiore e un investimento di tempo 240 volte inferiore rispetto agli “etichettatori” umani, rendendo così possibile per la prima volta la violazione della privacy su larga scala.”
E infine, una menzione finale per lo studio sull’attenzione posta (sezione 9) alla riproducibilità del tutto. “Last but not least”, come si usa dire oltreoceano. 🙂
👀 Data Science. Mastering Data Science: Bridging Tech Metrics to Business Outcomes
Una delle difficoltà più grandi che ho vissuto negli ultimi anni di evoluzione del mondo della data science, soprattutto quando i progetti sono entrati in produzione, riguarda la capacità di collegare le metriche tecniche alle metriche di business. Questo è un tema centrale per garantire un processo decisionale efficace in tutte le aree aziendali, sia su temi strategici che su quelli tattici.
Dan Becker è uno dei massimi esperti mondiali su questo argomento, poiché ha affrontato queste sfide come economista, data scientist, imprenditore di successo e ora come formatore. Per approfondire questo argomento, ti consiglio il suo corso online gratuito "Machine Learning for Business Decision Optimization", in cui Dan ti guida in modo pratico e partendo dalle basi ad affrontare fin da subito le scelte più appropriate. Questo non solo ti aiuterà a ottimizzare le metriche di un algoritmo di machine learning ma anche a migliorare i profitti aziendali. Ad esempio, quando affronti uno dei problemi più comuni nel business, come il churn (cioè la valutazione della possibile perdita di un cliente), non dovrai solo valutare l'accuratezza della previsione dell'evento, ma anche collegarla alla matrice dei payoff che valuta la soglia di sconto necessaria per massimizzare la curva di profitto. Se sono stato criptico segui i primi 14 minuti del corso e tutto ti sarà più chiaro!
Nel corso troverai molte altre informazioni importanti sull'ottimizzazione delle decisioni aziendali attraverso i dati e soprattutto il machine learning. È un tema strategico per il futuro di molte organizzazioni, poiché i dati e il machine learning hanno dimostrato di fare una differenza importante in questo ambito.
Se sei un appassionato del tema decision making & metriche relative avevo dedicato una sezione nel numero 8 (sulle metriche di prodotto) e sul numero 27 sulle metriche legate a algoritmi di classificazione.
🖐️Tecnologia (data engineering). Navigating Complexity: A Dive into Complicated vs Complex Systems in UI Design
Quando devi prendere una decisione o gestire un progetto, i termini "complesso" e "complicato" assumono significati distinti che riflettono la natura e la struttura dei problemi o dei sistemi in esame. Questa differenza diventa particolarmente rilevante quando si ha a che fare con un progetto in cui la tecnologia gioca un ruolo importante.
Un sistema o un problema complicato è caratterizzato da molte parti o variabili interconnesse, ma segue comunque regole o leggi causali prevedibili. Gli effetti sono proporzionali alle cause e, con sufficiente analisi e comprensione, è possibile determinare soluzioni ottimali o prevedere comportamenti futuri. Diversamente, un sistema o un problema complesso è caratterizzato da interazioni non lineari e dinamiche tra le parti, che possono portare a comportamenti emergenti imprevedibili. La causalità è spesso circolare o retroattiva, e piccole modifiche iniziali possono portare a risultati molto diversi (più conosciuto come effetto farfalla).
L'approfondimento che ti suggerisco oggi riguarda proprio questa differenza nel dominio dello sviluppo software per il design di interfacce per gli utenti, con un focus specifico sull'information layer. Matthew Smith ha realizzato un trittico di interessanti post che, partendo da un’ottima definizione di informazione (sostenuta dalle idee dell'esperto del tema Abby Covert), passa a definire in maniera semplice ed efficace la differenza tra complicato e complesso in questo ambito, per arrivare alla legge di conservazione della complessità (anche conosciuta come legge di Tesler).
Se sei interessato a esplorare ulteriormente la differenza tra scenari complicati e complessi in ottica di decision-making, ti consiglio di dare un'occhiata al Cynefin Framework. Questo modello suggerisce che, man mano che ci si sposta verso la complessità (o addirittura verso il Caos o il Disordine), è consigliabile adottare un approccio più adattivo, sperimentale e iterativo, imparando dall'esperienza e adattando le strategie in risposta ai cambiamenti emergenti nel sistema o nell'ambiente.
👃Investimenti in ambito dati e algoritmi. Startup of the Month September 2023 is Writer
Come ogni mese, dedico una delle mie attività all'esplorazione del mercato dell'innovazione e degli investimenti per segnalarti una startup internazionale che ha catturato particolarmente la mia attenzione, avendo ottenuto finanziamenti il mese precedente. Questa startup naviga nel mondo dei dati e degli algoritmi, o ne fa un uso intensivo, vantando tra le sue fila, o nelle selezioni attuali, un nutrito gruppo di esperti in materia di dati.
Gli investimenti che ho monitorato nell'ambito Data & AI si mantengono in linea con i livelli medi del 2023. Tra le 67 startup etichettate come "data & algorithms" a settembre (su un totale di 500, ovvero circa il 13% sia in numero che in volume di investimenti), voglio parlarti di "Writer".
La startup, fondata nel 2020 con sede a San Francisco, sviluppa una piattaforma che fonde Large Language Models (LLMs), Natural Language Processing (NLP) e Machine Learning (ML), con la peculiarità di aver creato il proprio LLM Palmyra in modalità open-source. La velocità e i task di sintesi di testo e la relativa classificazione rappresentano i suoi punti di forza. La proposta di Writer si posiziona come un punto di equilibrio tra i modelli closed source e quelli open source, poiché l’offerta mira a risolvere uno dei problemi delle grandi organizzazioni in questo ambito: avere uno strumento pronto all’uso per diverse aree aziendali, garantendo al contempo un alto livello di sicurezza per il knowledge e le informazioni sensibili aziendali. Non so se questa modalità emergerà nel lungo periodo all'interno del segmento della generative AI, ma attualmente sembra essere il modello che genera più entrate ed è più economicamente sostenibile. L'offerta di Writer è rivolta a vari dipartimenti aziendali, dal supporto vendite alle risorse umane e al marketing, fornendo strumenti per migliorare le rispettive attività. Tra le funzionalità, troviamo interfacce chat, templates e opzioni utente che risultano molto intuitive. Nel mese di settembre, Writer ha raccolto un finanziamento di 100 milioni di dollari, un dato significativo che riflette l'interesse degli investitori e, probabilmente, delle aziende stesse nel settore dell'intelligenza artificiale applicata al miglioramento dei processi aziendali.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!