LaCulturaDelDato #204
Dati & algoritmi attraverso i nostri 5 sensi
For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il duecentoquatresimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del duecentoquatresimo numero:
👅Etica & regolamentazione & impatto sulla società. Pierluca Santoro: audience intelligence, social listening e il futuro della Business Intelligence per le PMI
Presentati: Pierluca Santoro. Master in business administration. Ho cominciato il mio percorso nel marketing e nella comunicazione, nel 1987, in Star, come assistant product manager per sei linee di prodotti di largo consumo, e l’ho conclusa nel 1998 come direttore marketing e vendite della Bonomelli. Da allora ad oggi ho operato come consulente di marketing, comunicazione e sales intelligence, operando in diversi settori e consolidando in particolare esperienza nel automotive, nella cosmesi professionale e nell’editoria di quotidiani. Dal 2014, anche, project manager di DataMediaHub.
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10) … Di supporto strategico alla business intelligence per le piccole e medie imprese, che ad oggi continuano ad avere un gran bisogno di supporto e consulenza, anche, in tale ambito.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
L’integrazione dei dati propri con quelli che si possono reperire, anche in tempo reale, dalle Rete e dai social. E integrare le classiche ricerche di mercato con quelle da audience intelligence e social media listening. In tale ambito il miglioramento dei sistemi di IA basati sugli LLM sono fondamentali.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
La piattaforma di audience intelligence e social media listening di cui mi sono dotato. Grazie a questa infatti mi è possibile indagare in qualsiasi ambito le conversazioni online sia sotto il profilo quantitativo che qualitativo, sia per le aziende che per organizzazioni per le quali opero come consulente.
PSS (Post scriptum di Stefano): Ho scoperto DataMediaHub, e il grosso lavoro che fa Pierluca Santoro parecchi anni fa e quello che mi è piaciuto del progetto è la capacità di selezione ragionata delle notizie su marketing, comunicazione e media sempre corredata da una solida lettura dei dati relativi alle notizie stesse. La sezione post-it della newsletter gratuita è la parte che preferisco e ti suggerisco di provare a seguirla.
👃Investimenti in ambito dati e algoritmi. Rabbia contro le macchine: 3 grafici (di Woodbury) per capire il mercato del lavoro che (forse) sta arrivando
Tre anni fa, nel numero 82 di questa newsletter, il link che ti era più piaciuto era il post trimestrale realizzato da Rex Woodbury, Founder & Managing Partner di Daybreak, un fondo di investimento focalizzato sulle prime fasi di finanziamento di start-up.
“Ho sempre appreso in modo visivo, e i grafici mi aiutano a elaborare le informazioni. Inoltre, sono un modo efficace per descrivere il modo in cui il mondo sta cambiando. L’obiettivo è condividere i grafici che trovo interessanti ed emblematici di temi più ampi.”
Questa è la motivazione che spinge Woodbury a condividere trimestralmente 10 grafici che raccontano tendenze in corso. Ti lascio quindi, come approfondimento per questa sezione, gli ultimi 10 grafici sulle tendenze in corso (secondo Woodbury) e te ne condivido tre che, secondo me, insieme fotografano molto bene il presente e il futuro prossimo del mercato del lavoro negli USA, che, per certi versi, anticipa quello che succede nel vecchio continente di 18-24 mesi.
8 - Capital Markets vs. Labor Markets: The New Normal?
9 - Rage Against the Machine
10 - One Bright Spot: Home Care / Home Health
Se poi non ti bastano questi 10 grafici, puoi leggerti le 26 previsioni che Woodbury fa per il 2026 qui e qui. Alcune sono azzardate, ma il tema (previsione 20) della crescita dell’indice di Gini delle diseguaglianze economiche lo trovo preoccupante, anche se è ancora molto polarizzato agli Stati Uniti.
🖐️Tecnologia (data engineering). Model Context Protocol: lo standard che mancava all’AI (e la startup italiana che lo rende production-ready)
Ti ricordi quando ogni social network aveva il proprio sistema di login? Poi è arrivato OAuth (e, per il login vero e proprio, OpenID Connect) e tutto è diventato più semplice. Ecco, per l’AI sta succedendo la stessa cosa con MCP (Model Context Protocol), lo standard aperto lanciato da Anthropic a novembre 2024 per far comunicare i modelli di linguaggio con servizi esterni di cui ti ho parlato anche recentemente.
Prima ogni LLM usava il proprio sistema (OpenAI function calling, Anthropic tool use, Google function calling), obbligandoti a scrivere tre integrazioni diverse per esporre lo stesso database o API. Con MCP scrivi una volta sola un “server” che espone i tuoi dati come “tools” standardizzati, e qualsiasi client MCP-compliant (Claude, agenti custom, e anche ChatGPT via connectors/dev mode) può usarli.
MCP ti dà il protocollo, ma usarlo in produzione è tutta un’altra storia: devi gestire autenticazione, scaling, monitoring, aggregare molteplici server. È qui che entra mcp-use, startup fondata dagli italiani Pietro Zullo e Luigi Pederzani, appena entrata in Y Combinator (batch S25). Loro fanno per MCP quello che Vercel fa per Next.js: SDK semplificati (un agent MCP in 6 righe di Python invece di 98), deploy automatico da GitHub, gateway per aggregare N server in un singolo endpoint, observability built-in. Dalle loro pagine: 4M+ download, 8.000+ star, e “più di 5.000 aziende” che li usano; citano anche team in aziende come NVIDIA, NASA e SAP.
Nonostante l’entusiasmo, attenzione: siamo agli inizi e il rischio è che la “piattaforma delle piattaforme” diventi essa stessa un walled garden. Anthropic potrebbe decidere di verticalizzare (Claude Team già supporta MCP), e AWS/GCP potrebbero offrire MCP-as-a-service. A mio giudizio però il timing è perfetto: il mercato ha disperatamente bisogno di standardizzazione, e un’infrastruttura open-core (SDK gratis, managed layer a pagamento) guidata da una startup agile potrebbe vincere prima che i giganti si muovano.
Se devi integrare dati proprietari nei tuoi workflow AI, vale la pena esplorare: la documentazione MCP ufficiale spiega il protocollo, mcp-use.com ti fa deployare il primo server in pochi secondi. E se vuoi vedere italiani in YC che puntano su infrastruttura invece che sull’ennesimo chatbot verticale, questa è una storia da seguire.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Titoli, ruoli e il tramonto del CV: cosa conta (di più) nell’era dell’AI
Nelle grandi organizzazioni, la proliferazione dei titoli, spesso uguali o sovrapposti, è diventata uno sport aziendale. Un ruolo come “gestire l’IT” genera decine di IT Manager; allo stesso modo, a ogni Head of seguono decine di micro-aree e sotto-processi aziendali che finiscono spesso per sovrapporsi, creando confusione e (non di rado) perdite di tempo. Parlandone con amici qualche giorno fa, mi è tornato in mente un articolo molto chiaro e diretto di Alex Ewerlöf che ti consiglio questa settimana proprio su questo tema.
Alex Ewerlöf distingue nettamente: il titolo definisce responsabilità verso un output con ownership limitata ; il ruolo si definisce intorno a un outcome più ampio. Il titolo è un mattoncino Lego, il ruolo è la casa. Quando frammenti un ruolo in tanti titoli, ognuno ottimizza il proprio output locale, ma nessuno è responsabile del risultato finale.
A complicare il quadro c’è anche come raccontiamo il lavoro. Matteo Roversi ricorda che il primo CV lo scrisse Leonardo nel 1482, presentandosi come ingegnere militare. La pittura solo alla fine, come hobby... Il CV, alla fine, diventa un insieme di titoli: comprime informazioni complesse, pesa le esperienze più delle competenze reali e spesso è privo del risultato generato. L’antidoto è il modello end-to-end: team che possiedono l’intero customer journey invece di fette orizzontali di competenza. Feedback loop più rapidi, ownership più chiara, professionisti più motivati perché vedono l’impatto del loro lavoro. Ruoli, piuttosto che titoli.
E qui il punto cruciale: con l’AI, imparare nuove skill è più veloce. I generalisti capaci di orchestrare strumenti AI, con responsabilità end-to-end su un processo o un prodotto, avranno un vantaggio competitivo rispetto ai titoli ultra-verticali che dipendono dal coordinamento con altri titoli ultra-verticali. Gli specialisti non scompariranno, ma la direzione sembra chiara.
In concreto, soprattutto per i più giovani, meglio:
Ripensare il tuo ruolo in termini di risultato (outcome). Qual è l’impatto misurabile che stai generando o hai generato?
Investire anche in skill generaliste, non solo specialistiche. La capacità di orchestrare competenze diverse vale più dell’ultra-specializzazione in un’area magari, in futuro, automatizzabile. E comunque investi in skill che non sono state nel tuo percorso di studi principale: per esempio materie economiche o sociali per ingegneri, oppure coding per economisti.
Raccontare il lavoro diversamente. Portfolio di progetti (anche side-projects) con risultati, non solo lista di titoli ed esperienze.
👀 Data Science. Dataset realistici senza dati reali: l’idea ibrida LLM + Faker che sta spopolando su GitHub
Diverse volte nella mia vita professionale mi è servito avere (e spesso l’ho creato in modalità molto diverse tra loro) un dataset realistico per testare un servizio o un prodotto o semplicemente una dashboard con un cliente (interno o esterno) quando non potevo usare dati reali per questioni di privacy o complessità.
Matthew Hefferon, data engineer di Metabase, la nota piattaforma open source di business intelligence, si è trovato nello stesso problema e ha deciso di risolverlo costruendo un generatore di dataset che ha fatto 600+ stelle su GitHub in poche settimane. Ma la cosa interessante è come funziona: non fa generare i dati all’LLM.
Il processo è in due fasi. Prima chiedi a un LLM (GPT-4o, Claude, o Gemini via LiteLLM) di generare uno schema JSON con tabelle, campi, relazioni e regole di business per il tipo di azienda che ti serve (SaaS, e-commerce, healthcare). Questa chiamata costa circa $0.03-0.05. Poi Faker.js genera localmente i dati seguendo quelle regole, gratis e in maniera molto veloce, con logiche realistiche: nel SaaS i churn hanno senso, nell’e-commerce i subtotali tornano con tasse e spedizioni, nelle assicurazioni i rimborsi non superano mai i costi. Non stiamo parlando di dati sintetici per training di modelli ML, ma di dataset per demo, test di prodotto, popolamento di dashboard e validazione di pipeline. Un use case diverso ma comunque prezioso, soprattutto in contesti aziendali dove serve mostrare qualcosa di credibile senza esporre dati sensibili.
Puoi provarlo subito nella versione web gratuita per generare dataset al volo senza installare nulla, oppure fai girare il progetto GitHub in locale con Docker. Se hai già degli account con diversi LLM, puoi sfruttare LiteLLM per switchare tra OpenAI, Anthropic e Google a seconda del costo o delle performance. E anche vedere le differenze sulla generazione finale. Il progetto è open source e cerca contributor per aggiungere nuovi settori di business o migliorare la logica di simulazione. Se conosci bene un dominio verticale (fintech, logistics, retail), puoi aggiungere regole business più raffinate. Se ti è piaciuto leggi anche il racconto completo di Hefferon su come è nato il progetto e perché ha scelto questa architettura ibrida LLM + Faker.
PS: Grazie Giuseppe Sollazzo per la segnalazione del progetto!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!







