LaCulturaDelDato #191
Dati & algoritmi attraverso i nostri 5 sensi
For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centonovantunesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del centonovantunesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Dati, pazienza e visione: così si cambia davvero la Pubblica Amministrazione secondo Andrea Tironi
Presentati Andrea Tironi. Mi piace provare a cambiare e innovare proprio dove sembra più difficile farlo o richiede tantissima pazienza e costanza: nella Pubblica Amministrazione, e in particolare in quella locale: Comuni e Regioni. Da 15 anni lavoro in una società in-house, di proprietà di circa 50 Comuni, nella provincia di Cremona, zona Crema (anche se quanto scrivo qui sono opinioni personali), dove ho attraversato un percorso che mi ha portato dall’ICT al digitale, e oggi all’intelligenza artificiale. Mi sono laureato nel 2003 con una tesi in Machine Learning su quelli che oggi chiameremmo embeddings, ma che allora erano semplicemente vettori. Oltre a lavorare nella società in house menzionata, mi occupo di analisi di dati per ANCI Lombardia e faccio parte dell’Advisory Board dell’Osservatorio Agenda Digitale del Politecnico di Milano. Il mio obiettivo è portare innovazione, tecnologica e organizzativa, all’interno della PA, cercando di diffondere un mindset aperto e sperimentale. I risultati, a volte, si scontrano con le inevitabili “buro-resistenze” e con mentalità un po’ datate, ma cerco di continuare a farlo con entusiasmo e convinzione.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10) Ottima domanda, e in realtà più interessante di quanto sembri 🙂 (beh hai detto di rispondere come chatgtp 10 ....). A parte le battute, non saprei.. Il mondo cambia troppo velocemente, sul piano demografico, geopolitico, tecnologico e finanziario, per poter fare previsioni credibili. Sicuramente mi piacerebbe poter incidere anche a livello di PA Centrale, portando innovazione e spirito di trasformazione. Piaccia o meno, la PA è il motore di ogni Paese: se funziona meglio, funziona meglio anche il Paese, e i cittadini e le imprese ne traggono beneficio. Vorrei anche trasmettere ai giovani, STEM e non, quanto possa essere bello impegnarsi per la Pubblica Amministrazione. Credo che ci sia un valore profondo nel fare questo mestiere. Mi piacerebbe soprattutto aiutare i profili STEM a comprendere che certe dinamiche, per quanto possano sembrare “folli”, fanno parte del sistema PA: servono pazienza e perseveranza per gestirle e mirare a risultati ed impatto. Rimanere, a volte resistere e continuare a credere nel cambiamento consente di ottenere soddisfazioni più durature, anche se il percorso è più lento e sfidante.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
Nel mio mondo, quello della Pubblica Amministrazione, la sfida principale è capire quanti dati abbiamo, dove si trovano, che qualità hanno e come farli dialogare.
Quando uso strumenti come n8n, e con tre clic collego Gmail, un modello OpenAI e un canale Slack, penso a quanto sarebbe di valore pubblico poter fare lo stesso con gli applicativi della PA. Purtroppo, nella PA locale, molti software sono ancora senza API (anche se il PNRR ha portato dei miglioramenti) e manca una cultura del prodotto digitale nativamente aperto. Questo fa sì che i dati, che oggi non sono più nei server dei comuni, restino imprigionati nei silos dei fornitori, chiusi nelle torri dei loro data center SaaS. La vera sfida, quindi, è liberare il potenziale dei dati della PA, letteralmente liberarli dalle “scatole” in cui alcuni fornitori li tengono chiusi, quasi in ostaggio. Sul fronte della PA centrale, la Piattaforma Digitale Nazionale Dati sta facendo molto: va potenziata per rendere concreto il principio del #onceonly, secondo cui se una PA possiede già un dato, nessun’altra PA deve richiederlo di nuovo al cittadino o all’impresa, ma deve poterlo ottenere in modo sicuro e interoperabile dalla PA che lo possiede. La PA è probabilmente il più grande produttore di dati del Paese. Se non usiamo questi dati, il Paese rallenta, si ferma o ha la produttività di 20 anni fa. Spero il 2026 sarà l’anno in cui, se vorrà davvero compiere il salto verso l’intelligenza artificiale, la PA dovrà riconoscere e valorizzare appieno i propri dati. E da alcuni progetti che iniziano a emergere, qualcosa si sta muovendo.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Più che uno strumento, è una modalità di lavoro di cui non potrei fare a meno: le decisioni basate sui dati. Avere dati affidabili su cui ragionare, pulirli, migliorarli, renderli leggibili e usarli per verificare se una percezione è validata dalla realtà, non ha prezzo. Potersi confrontare sui dati e non sul “sentire” lo trovo cruciale. Nella PA capita spesso, durante riunioni o presentazioni, che alla domanda “su quali dati si basa questa valutazione?” si venga visti come “rompiscatole” o “tecnici”. Eppure, portare numeri fondati, anche semplicemente elaborati da una base dati excel con Python o analizzati con Power BI, significa contribuire davvero a migliorare le decisioni pubbliche. Ancora troppe scelte, invece, vengono prese perche’ si è sempre fatto cosi, per ego, ascoltando “l’intuito/intestino” o per similarità con l’anno precedente, per mancanza di dati, generando inefficienze che fanno percepire la PA come poco efficace. Purtroppo gli stessi meccanismi danneggerebbero anche il privato se anche in un’azienda privata l’annuncio di un servizio avvenisse prima che il servizio veda anche solo un prototipo o se le decisioni venissero prese a sentimento senza dati. Con una differenza sostanziale: nel privato paga l’azionista o il proprietario, nel pubblico paghiamo tutti.
🖐️Tecnologia (data engineering). Text-to-SQL: sì, ma con giudizio ..
Nonostante l’hype fortissimo e i racconti mirabolanti su intelligenze artificiali che fanno business intelligence da sole, o in modo “agentico”, come va di moda dire oggi, se vai a guardare i benchmark reali su una delle funzionalità più importanti del processo di BI, cioè la generazione di SQL corretto a partire da una domanda, la realtà è parecchio diversa dalla narrazione 🙂.
Attenzione: non sto dicendo che non bisogna usare i sistemi di text-to-SQL (cioè quelli che generano codice SQL da una descrizione testuale), ma che vanno usati con consapevolezza, conoscendone bene i limiti attuali.
Questa sezione della newsletter serve proprio a darti strumenti per capire dove funzionano, dove no, quando usarli e come tenerli sotto controllo nel tempo per monitorarne i miglioramenti.
Tre consigli pratici:
Provali e continua a usarli periodicamente.
Sembra banale, ma la pratica è il consiglio meno seguito da chi critica l’uso delle intelligenze artificiali. Ti basta un qualsiasi chatbot (ChatGPT, Claude, Gemini in primis), un piccolo problema reale (una query SQL da scrivere) e una descrizione chiara del problema (e della base dati) da dare al chatbot. Fatto.Leggi questo ottimo approfondimento del team di Gemini (Google).
In modo molto realistico, spiegano i tre problemi principali che si incontrano oggi usando strumenti di text-to-SQL. Secondo me è un articolo bilanciato e concreto. Ecco i punti chiave:Dare un contesto specifico del problema all’intelligenza artificiale
Capire qual è il vero obiettivo dell’utente
Conoscere bene i limiti attuali dei LLM in questo ambito
Non si fermano però alla critica: mostrano anche tecniche per ridurre l’impatto di questi problemi. Ed è tutto agnostico rispetto allo strumento usato. Super utile!
Dai un’occhiata al benchmark BIRD-SQL.
È uno dei più grandi e completi per i task di text-to-SQL: contiene oltre 12.751 coppie domanda→SQL su 95 database (circa 33,4 GB) in 37 domini reali. I modelli ricevono una domanda in linguaggio naturale e devono produrre la query SQL corretta; la query viene eseguita e si misura quanto spesso l’output coincide con la soluzione corretta. Per ora le intelligenze umane stanno ancora in cima alla classifica… e con un buon margine. Ma è proprio quel margine che va monitorato nel tempo 😉
👃Investimenti in ambito dati e algoritmi. EdTech europeo: upskilling batte scuola: almeno cosi dice la mappa di HolonIQ
“Le startup europee più promettenti nel settore dell’istruzione si concentrano sempre più sullo sviluppo delle competenze professionali e sulle infrastrutture. Delle 200 iniziative individuate, quasi la metà è focalizzata sulla formazione e sull’aggiornamento delle competenze degli adulti, segnalando un mercato regionale modellato da cambiamenti demografici, dalla domanda del mercato del lavoro e da una forte attenzione delle politiche pubbliche all’occupabilità. I settori dell’istruzione primaria-secondaria (K-12) e post-secondaria continuano ad attrarre innovazione, ma nel complesso rappresentano poco più del 45% del campione.”
Questa è la sintesi di quanto emerge dalla mappatura 2025 che fa HolonIQ, una delle più importanti società di ricerca e analisi di mercato a livello globale, del mercato EdTech europeo. All’interno dello studio, HolonIQ evidenzia una lista delle 200 startup e scaleup più promettenti nel settore EdTech in Europa. E se guardi tra i loghi, trovi anche una realtà italiana che supporta proprio la nostra newsletter :-)
Il risultato complessivo dell’analisi evidenzia almeno due tendenze che, a mio giudizio, non sono molto positive:
Da un lato, il mercato si concentra nel settore, quello privato e aziendale, che ha una capacità di spesa e di investimento nettamente superiore ed è più agile rispetto al settore pubblico. Ma, come dice anche Andrea Tironi nell’intervista in questo numero, anche la PA deve innovare e formarsi per rendere ogni Paese competitivo.
Dall’altro, si concentra sull’upskilling dei lavoratori o di chi il lavoro lo ha perso, con meno focus sul percorso scolastico dei giovani, su cui si dovrebbe puntare proprio in questo momento di grande trasformazione, anche degli strumenti di apprendimento a nostra disposizione.
Detto questo, non si può certo biasimare un settore, già in crisi post-Covid e non avvantaggiato dalla concorrenza (o presunta tale) delle Big Tech dell’AI, che sta cercando di trovare una via che renda economicamente sostenibili le proprie iniziative. Penso, tra l’altro, che le iniziative in questo settore, paradossalmente rispetto al forte trend tecnologico in corso, non debbano appiattirsi nello sfruttare e nell’innovare solo con la tecnologia, ma debbano usarla per rafforzare quelle componenti dell’apprendimento e della formazione che guardano ad aspetti quali il networking, le community e, più in generale, la socialità e il lavoro di gruppo, che sono e saranno sempre più importanti in futuro. Così facendo, non si cederà tutto il terreno alle Big Tech e si valorizzeranno anche i metodi di insegnamento più tradizionali.
👀 Data Science. Colloquio da data scientist: allenati e ripassa con il progetto di Youssef Hosn
Come scrivevo tre anni fa, nella sezione della newsletter 70 che ti era piaciuta di più, prepararsi per un colloquio di lavoro non è un’attività banale e spesso, solo attraverso l’esperienza, capisci quali sono le caratteristiche personali che necessitano di maggiore allenamento. Soprattutto nelle fasi iniziali della carriera di un data expert, una parte del colloquio ruota attorno alla conoscenza tecnica, spesso contestualizzata nell’area e nei metodi di lavoro dell’azienda in cui aspiri a lavorare. Ricordati che valutare le domande che ti vengono fatte, incluse quelle tecniche, può darti una comprensione del contesto e del lavoro che andrai a svolgere molto più che dalla lettura dell’annuncio o dalla descrizione che ti viene data durante il colloquio.
L’approfondimento che ti era piaciuto molto era un progetto, pubblicato su GitHub in modalità open knowledge, di Youssef Hosn, un esperto data scientist e appassionato formatore, che aveva raccolto e pubblicato le domande più comuni rivolte durante un colloquio per una posizione da data scientist. Il progetto, da quando te l’avevo consigliato per la prima volta, ha ampliato il suo raggio d’azione sia introducendo tematiche nuove, come quelle sugli LLM, sia ampliando gli argomenti già coperti. È molto utile anche se non vuoi cambiare lavoro: puoi ripassare velocemente alcuni concetti di uso comune, spiegati molto bene.
Youssef Hosni, nel frattempo, ha allargato il campo d’azione sia come divulgatore sia come consulente. Dare un’occhiata a quello che fa può esserti molto utile.
Se devo suggerirti una sezione tra le possibili domande da colloquio, non trascurare “SQL & DB Interview Questions & Answers for Data Scientists”. È quella in cui ho visto “cadere”, o comunque non fare una bella figura, il maggior numero di data scientist 🙂
👅Etica & regolamentazione & impatto sulla società. Il galateo dei bot-meeting secondo Ernesto Belisario: come usarli con attenzione
Credo che ormai a tutti sia capitato di partecipare a meeting online in cui fosse presente almeno un bot che registrava la riunione, ne produceva la trascrizione, elencava le azioni da fare o offriva un’interfaccia per porre domande sui contenuti del meeting. La mia opinione personale è che stiamo sovrautilizzando questo strumento, e troppo raramente ne sfruttiamo davvero le funzionalità. In molti casi sembra quasi una scusa per non partecipare a una riunione che riteniamo inutile. E può perfino capitare di essere gli unici umani presenti, come è successo a una startupper citata da LeggeZero.
Non si può generalizzare, ma credo che una parte consistente degli usi che facciamo di questi bot sia inutile e, direi, dannosa: generano dati inutili, consumano energia senza motivo e ci illudono di poter “recuperare” i contenuti di un meeting.
Parlo di illusione perché, per quanto questi sistemi stiano migliorando, non c’è alcuna garanzia che non commettano errori o che riescano davvero a cogliere le parti più rilevanti della riunione.
Fatto questo incipit, anche come promemoria per me stesso, credo sia importante usare questi strumenti il meno possibile, ma quando lo si fa, usarli in modo efficace e trasparente. L’approfondimento che ti suggerisco su questo tema offre il più sintetico, pragmatico e preciso galateo per l’uso dei bot durante le riunioni. È stato pubblicato su LeggeZero dall’avvocato tech Ernesto Belisario. Ho letto con attenzione la sua checklist in nove punti e l’ho confrontata con i servizi AI che utilizzo in alcuni meeting. Devo dire che, pur essendo un galateo piuttosto leggero e agile, mi ha reso più consapevole di alcune caratteristiche dei tool che usavo, ma di cui non ero affatto consapevole.
Per ora, non ho dovuto segnalare nulla al DPO 😅, ma ho applicato con soddisfazione i primi otto punti della lista.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!




Sono molto d'accordo con te quando affermi che poco si sta facendo nel settore pubblico della scuola rispetto a un utilizzo appropriato delle tecnologie digitali, in particolare AI e LMS, per le nuove generazioni. Queste spesso vengono ricordate solo nei discorsi di fine anno. Scrivo da persona interessata al tema dell'apprendimento e impegnata nello sviluppo di un prodotto a supporto dell'apprendimento indirizzato agli studenti.
Quasi tutti i prodotti in ambito EdTech-apprendimento sono affetti dal fenomeno del cargo cult, ovvero la riproposizione in ambito digitale di supporti che partono dall'esperienza attuale degli artefatti su cui si è stati abituati a studiare: in primis il libro, artefatto strutturalmente lineare al pari del video, artefatto strutturato secondo una timeline che va solo in una direzione.
In questo contesto vengono sviluppati e lanciati una pletora di prodotti, wrapper di prompt di vari sistemi LLM, senza alcuna base pedagogica. Questi sistemi, che comunque hanno presa sugli studenti:
- forniscono l'illusione dell'apprendimento attraverso delle scorciatoie e la conseguente delega cognitiva, cognitive offloading, sostituendosi allo studente nella rielaborazione dei contenuti di studio
- sono progettati senza alcun reale riferimento alle conoscenze disponibili in ambito pedagogico, ambito in cui ricercatori e docenti con l'avvento dell'AI fanno fatica a proporre approcci innovativi e spesso si limitano solo alla critica e alla proibizione senza alcuna proposizione di novità
- fanno scempio della privacy e della raccolta dati.
Se a questo aggiungiamo che le linee guida sull'utilizzo dell'AI nelle scuole del Ministero dell'Istruzione e del Merito, MIM, sono focalizzate sui concetti di protezione, che poi non sono in grado di controllare, e poco o niente sugli indirizzi o intuizioni su come meglio utilizzare queste tecnologie per i nostri studenti, per la nostra cultura, aumentando per le prossime generazioni l'impatto del colonialismo digitale a cui siamo già sottoposti. Per chi fosse interessato a questo ultimo argomento potrà trovare una disamina veloce di quanto viene proposto da Google nel contesto dell'apprendimento: https://www.linkedin.com/feed/update/urn:li:activity:7392538817355907072/
Sul tema dati e applicazioni in ambito pubblico, oltre alla vetustà delle architetture, rimane centrale il problema, molto più difficile, della gestione del cambiamento di tutto l'ecosistema pubblico. Prendiamo in considerazione i dati della sanità, ambito con cui sono stato costretto a confrontarmi in quanto fondatore di un'associazione pazienti con tumore al pancreas. Con l'eccezione delle prestazioni che richiedono il ricovero ospedaliero a cui viene associato il documento della SDO, Scheda di Dimissione Ospedaliera, che ha un codice identificativo univoco per tipo di intervento e del relativo costo, oggi non abbiamo visibilità nel PNE, Programma Nazionale Esiti, gestito da AGENAS, sul livello della qualità delle prestazioni ambulatoriali. Come mai? Perché tutta la progettazione dei sistemi informativi poggia sulla struttura dati dello standard internazionale ICD9, nato e progettato per pagare le prestazioni, non per tracciare gli aspetti clinici. Prestazioni cliniche che hanno lo stesso costo a volte hanno un unico codice indipendentemente dal fatto che un'ecoendoscopia sia stata effettuata all'esofago, allo stomaco o al pancreas. Se oggi volessimo sapere qual è la sopravvivenza o i protocolli utilizzati nel percorso di cura di una paziente metastatica, non saremmo in grado di farlo. Una curiosità: il depositario, anzi geloso depositario, dei dati di tutte le prescrizioni mediche è la Ragioneria di Stato, che non ha certo la valorizzazione del dato clinico delle prescrizioni come sua priorità.
Nel contesto sanitario penso che con grande impegno e fatica si possano migliorare architetture e applicazioni, e qualcosa in alcune regioni con il PNRR si sta facendo, ma cambiare la cultura dei medici è un'impresa di dimensione titanica. La sfida è lì. Faccio un esempio concreto: dalla letteratura scientifica – prodotta da medici – è noto che la mortalità post-operatoria a 90 giorni è un dato rilevante per misurare la qualità di interventi di chirurgia complessa. Fino al 2024 i dati del PNE di AGENAS hanno fatto riferimento alla insufficiente mortalità a 30 giorni. A partire dal 2025 i dati mostreranno la mortalità a 90 giorni. Chi è stato il driver di questo monumentale cambiamento (cambiare un KPI del PNE è un'impresa)? Si potrebbe subito pensare alla classe medica, in particolare ai chirurghi. Come possono accettare una differenza di mortalità post-operatoria tra il 2-3% dei centri di riferimento e il 20-30% di ospedali periferici? Ebbene no! È stata la comunità dei pazienti il driver del cambiamento. La grande sfida rimane il cambiamento delle person