For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centonovesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
🚀 Sezione Sponsor: “Intelnos”.
Esiste un’azienda a Padova dove un gruppo di esperti analizza quotidianamente i mercati finanziari e crittografici, alla ricerca di segnali nascosti tra i dati. Tali indizi possono rivelare un filo conduttore che aumenta significativamente la probabilità di anticipare gli eventi prima che si verifichino. Questo genere di informazioni, nel linguaggio finanziario, si chiama "Intel". E da questo termine deriva il nome del progetto, Intelnos.
Gli abbonati al loro servizio ricevono il distillato di una valutazione complessa che richiede tempo, risorse finanziarie e competenze specifiche. Ho provato il loro servizio e l'ho trovato molto concreto, preciso e, soprattutto, privo degli eccessi markettari di altri servizi nel settore. Ne ha parlato anche Punto Informatico in questo articolo.
Non ha l’obiettivo di cambiare la tua situazione finanziaria in 3 mesi, ma di aiutarti a gestire al meglio il tuo patrimonio, grande o piccolo che sia, sul lungo periodo. È questo che fa la differenza...
Avendo avuto l’opportunità di conoscere il founder, Mattia Zanarella, ho chiesto se fosse possibile dare l’accesso gratuito ai lettori di questa newsletter per provare la qualità del servizio senza rischio. La risposta è stata positiva, e quindi, se lo vuoi fare, basterà seguire questi passaggi:1) Cliccare su questo link per entrare nel canale Telegram: https://t.me/Intelnos
2) Dopo aver effettuato l'iscrizione, inviare una email a info@intelnos.com con oggetto e testo "ESSENTIAL_LA_CULTURA_DEL_DATO".
3) Una volta ricevuto il messaggio, riceverai una risposta con un codice promo del valore di 29,00€ per attivare un intero mese gratuito di abbonamento.
L’offerta sarà valida fino a Lunedì 15 Aprile. 🚀
Ed ora i cinque spunti del centonovesimo numero:
👀 Data Science. Corsa, calcio e canestri: Come la data science sta cambiando lo sport
Data Science e Sport sono un connubio sempre più stretto e importante, sia a livello di sport professionistico che amatoriale. Tutti gli approfondimenti che ti suggerisco oggi sono tratti da questo ambito. Se conosci Python e ami la corsa, apprezzerai particolarmente questo post di Barry Smith, professore di Computer Science all'University College di Dublino, che scrive spesso all’intersezione tra data science e corsa. In particolare, nel post che ti segnalo, Smith ci guida, usando le API di Strava, a migliorare e personalizzare le statistiche che provengono dai nostri dati, se usiamo la popolare app di tracking delle attività sportive. Strava ha dimostrato come il concetto di dato anonimizzato sia sempre molto labile e sia meglio parlare di dato pseudoanonimizzato come in questo caso che coinvolse in passato alcune basi militari statunitensi. Ma tornando alla corsa, se sei appassionato di questo sport, devi assolutamente seguire
, un data scientist che si allena molto bene usando parametri innovativi quali l’HRV (Heart Rate Variability), che ti consiglio di monitorare anche non a fini sportivi.Ma almeno nel nostro paese, il calcio è lo sport più popolare, e non posso proseguire questa sezione senza suggerirti due letture anche in questo ambito. Il primo è molto famosa in ambito soccer analytics, e te lo avevo già segnalato negli anni scorsi. È la "Soccer Analytics 2023 Review" di Jan Van Haaren, Head of Data & Technology della squadra di calcio belga del Brugge e ricercatore universitario in questo ambito. Ogni anno, dal 2020, nel suo blog raccoglie i paper più interessanti circa l’uso di dati e machine learning nel mondo del calcio: imperdibile! La seconda segnalazione sarà sicuramente nella sua annual review del prossimo anno, perché è un articolo che descrive un sistema realizzato con il machine learning da Google DeepMind in collaborazione con la squadra di calcio del Liverpool, in grado di consigliare gli allenatori sui calci d'angolo. Speriamo che non sia troppo efficiente, visto che il Liverpool è sul cammino europeo in Europa League di più di una squadra italiana.
E a proposito di analytics e sport concludo questa sezione citando l’importanza di questo connubio anche nell’NBA, che nel corso degli ultimi anni ha parzialmente cambiato, grazie all’analisi dati, il modo di giocare, dando ancora più rilevanza al tiro da 3 punti, come racconta brillantemente questo post. Post che cita, tra gli altri, Stephen Curry, che ho avuto il piacere e la fortuna di vedere dal vivo durante un match casalingo a San Francisco durante il mio ultimo viaggio nella costa ovest degli Stati Uniti. Dati e statistiche che sono parte dell’esperienza e della cultura del pubblico americano anche in maniera sempre più visuale durante la partita stessa. Ti lascio, a questo proposito, uno scatto del tabellone della partita a cui ho assistito, come esempio.
👅Etica & regolamentazione & impatto sulla società. Pionieri dell'Etica nell'Intelligenza Artificiale: chi sono e perché contano
Man mano che le regolamentazioni, come l'AI Act europeo, diventano operative a livello globale, il ruolo delle start-up e delle aziende che facilitano l’adeguamento a queste normative e aiutano le imprese a utilizzare l'intelligenza artificiale in maniera etica e sicura diventa sempre più cruciale. Riconoscere le aziende che operano seriamente ed efficacemente in questo ambito è fondamentale. Il rischio che alcune aziende possano sfruttare l'attributo "etico" a fini puramente di marketing è in agguato …
L'approfondimento di oggi è dedicato al progetto EAIDB, che ha proprio lo scopo di a ridurre questo rischio. EAIDB “si impegna a identificare, classificare e ricercare soluzioni per un'intelligenza artificiale responsabile, mirando a garantire trasparenza in un settore altrimenti opaco e in fase di sviluppo, ma estremamente necessario … creando una distinzione tra aziende che risolvono problemi con l'IA e quelle che affrontano i problemi dell'IA … il tutto svolgendo ricerche di mercato per fondatori, investitori, responsabili politici, governi e pubblico. EAIDB è completamente indipendente, trasparente e obiettivo.”
Concretamente, EAIDB è un database aperto che elenca 298 aziende in 7 settori di mercato, utilizzando un metodo di verifica che considero molto affidabile. Tra queste vi sono cinque aziende italiane: con quattro di queste ho avuto a che fare e posso testimoniare che stanno facendo un grande lavoro per rendere l’uso dell’intelligenza artificiale e dei dati etico e responsabile. Eccole:
- Immanence, che ha avuto una delle sue fondatrici ospite di questa newsletter:
- Dexai.ai, di cui conosco personalmente alcuni membri del team.
- Clearbox.ai, che ho avuto modo di apprezzare in diversi ambiti professionali.
- Galileox.ai, prodotto di spicco dell'azienda Larus, con cui ho realizzato vari progetti.
- Cyber Ethics, unica che non conosco direttamente ma che mi sembra meriti attenzione.
Infine, se l'incrocio tra etica e intelligenza artificiale ti interessa, ti consiglio di non perdere il terzo numero della rivista SustAIn, ricco di approfondimenti e articoli di grande valore, come anche le uscite precedenti.
🖐️Tecnologia (data engineering). Oltre le regole: La strategia di Airbnb per dati di qualità
Lo ammette 🙂 anche la voce inglese di Wikipedia: “Esistono molte definizioni di data quality, ma in genere si considerano di alta qualità i dati adatti agli usi previsti per le operazioni, il processo decisionale e la pianificazione". Raramente mi sono trovato, nella mia esperienza lavorativa, di fronte a una parola con definizioni semantiche così variegate a seconda del contesto, della cultura e del flusso dei dati all'interno delle organizzazioni per cui ho lavorato. È per questo motivo che, quando si affrontano questi tipi di problemi, è fondamentale acquisire una buona conoscenza dell'organizzazione e di come questa utilizza i dati. Proprio per la disomogeneità di questo ambito, è utilissimo anche conoscere le esperienze di diverse aziende che affrontano il problema anche in ambiti molto diversi tra loro. L'approfondimento che ti suggerisco oggi è il racconto del progetto sviluppato dal team di Airbnb per migliorare il processo di qualità del dato, in un contesto di mole di dati crescente che l'azienda ha gestito a partire dal post-covid. Il punto di partenza è ben descritto, così come l'approccio molto inclusivo: “Abbiamo deciso che non potevamo più fare affidamento solo sull'applicazione di regole per scalare la qualità dei dati in Airbnb e che dovevamo invece puntare sull'incentivazione sia del produttore che del consumatore dei dati.”
Come hanno fatto, però, è tutto da leggere e da apprezzare, soprattutto se, come me, ti appassiona il tema di misurare in maniera analitica un processo per coinvolgere al meglio i team a lavorare in modo collaborativo e stimolato a partire dalla misurazione delle azioni intraprese.
Trovo infatti la misurazione della qualità dei dati realizzata dal team di Airbnb particolarmente efficace, lavorando su tre fronti, “ciascuno con un diverso caso d'uso in mente:
1. Un singolo punteggio di alto livello, da 0 a 100. Abbiamo definito soglie categoriali di "Scarso", "Ok", "Buono" e "Ottimo" basandoci su un'analisi di profilazione del nostro data warehouse che ha esaminato la distribuzione esistente del nostro punteggio DQ. Ideale per una valutazione rapida e di alto livello della qualità complessiva di un set di dati.
2. Punteggi dimensionali, dove una risorsa può ottenere un punteggio perfetto in Accuratezza ma basso in Affidabilità. Utile quando una particolare area di carenza non è problematica (ad esempio, il consumatore desidera che i dati siano molto accurati, ma non è preoccupato che siano aggiornati quotidianamente).
3. Dettaglio del punteggio completo + azioni per migliorare, dove i consumatori di dati possono vedere esattamente dove un asset è carente e i produttori di dati possono intervenire per migliorare la qualità di un asset.”
Non so se può esserti di ispirazione… e certamente il diavolo sta nei dettagli, o meglio, nell'implementazione, che in questi casi fa tutta la differenza del mondo. Un altro punto di ispirazione, se vuoi muovere i primi passi e il modello Airbnb è troppo complesso, è il modello DAMA, in particolare la parte (il capitolo, se hai sotto mano il PMBOK) dedicata alla data quality.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Agile e dati: una sfida possibile? direi necessaria …
“I progetti di machine learning sono notoriamente complessi da gestire con l'approccio Agile. Si dice spesso che implementare progetti di Machine Learning e AI seguendo l'approccio Agile è come cercare di infilare un piolo quadrato in un buco rotondo. Questo perché dipendono fortemente dalla disponibilità e dalla qualità dei dati, che spesso rimangono incerti fino all'inizio del progetto. Un progetto di Machine Learning non si limita alla semplice fornitura di software, ma include un mix di attività come il reperimento dei dati, l'analisi, l'implementazione di modelli, l'etichettatura, la formazione e il confronto dell'accuratezza dei modelli sviluppati. Le ipotesi iniziali possono rivelarsi sbagliate e richiedere nuovi approcci… ”
Raramente mi sono trovato così "allineato" ad una visione sull'approccio agile e sui progetti di dati & AI come quella espressa da
in questo eccezionale post. Sia che tu non sappia nulla sulle metodologie agili sia che tu ne sia un esperto, leggerlo è tempo ben speso: ha un incipit e un finale “gustoso”, e riassume in modo eccezionale quasi vent'anni di co-evoluzione di questi due mondi: dati e agile.La mia esperienza personale, iniziata quasi quindici anni fa in questo ambito, mi ha insegnato che non è tanto questione di infilare un piolo quadrato in un buco rotondo, quanto piuttosto di adattare leggermente il piolo 🙂. Non tutte le metodologie agili, come ad esempio Scrum, si adattano perfettamente al nostro settore, e si richiede spesso un'attenzione particolare alla cultura aziendale.
Come dettagliato nell'articolo di Valentino, è indubbio che l'approccio agile, e in particolare lo stream MLOps, offrano grandi vantaggi competitivi a team e aziende che sanno integrarlo e utilizzarlo intelligentemente.
Questi temi e l'esperienza maturata negli anni e in diverse aziende sono stati oggetto di discussione e analisi con
nel libro "Data Culture" e anche in questo articolo che ho scritto all’interno di questa rivista italiana che svolge un eccellente lavoro di divulgazione sulle pratiche agili.👃Investimenti in ambito dati e algoritmi. Futuro AI: visioni da executive e utilizzi da Prosumer
Tra le numerose e famose battute di Henry Ford, ce n'è una in particolare che apprezzo e che tendo a citare spesso come avvertimento per chi promuove l'innovazione basata esclusivamente sui desideri dei clienti: "Se avessi chiesto ai miei clienti cosa volevano, mi avrebbero risposto: un cavallo più veloce.”
Questo pensiero di Ford è particolarmente pertinente quando si discute di tecnologie innovative e poco note. L’incipit si rende necessario perché sto per presentarti uno studio condotto da un importante venture capital americano, che offre una panoramica dello stato dell'arte della generative AI dal punto di vista di 450 executive che dirigono grandi organizzazioni nel mondo occidentale. Queste persone, sebbene abbiano sicuramente capacità manageriali e strategiche, potrebbero non essere le più indicate per prevedere il futuro di questa nuova tecnologia. Tuttavia, rappresentano il mercato attuale e, se sei un investitore, ascoltare il loro parere è cruciale poiché, sebbene possano non determinare la direzione del cambiamento, influenzeranno sicuramente la sua velocità. Il documento diventa particolarmente interessante quando gli analisti di Menlo Ventures fanno sei previsioni per capire meglio cosa potrebbe riservare il futuro per chi opera nel campo della generative AI. Le condivido in maniera sostanziale sebbene con qualche sfumatura, come ad esempio una previsione di adozione, secondo me, più rapida del Cloud (seconda previsione) e opportunità maggiori nel cosiddetto Vertical AI piuttosto che nell'Horizontal AI.
Per avere un'idea più chiara della direzione nell’immediato futuro della generative AI, in particolare riguardo alla sua monetizzazione, ritengo che sia essenziale esaminare questo documento di a16z, che illustra l'attuale uso della generative AI da parte del cosiddetto prosumer, un termine che sta a metà tra il consumatore privato e il freelance. Questi individui stanno attualmente sfruttando al meglio la generative AI e stanno anche delineando la roadmap di prodotto per diverse startup in questo settore.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!