Ciao,
sono Stefano Gatti e questo è il trentasettesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del trentasettesimo numero:
👃Investimenti in ambito dati e algoritmi. The new learning economy and a bit of myself in it 🙂
Se mi segui da qualche mese sai quanto creda nell’importanza della formazione continua. Nel libro che ho scritto con Alberto Danese ho inserito il lifelong learning come uno dei quattro pilastri della cultura del dato. La formazione è una delle migliori forme di investimento: da una parte per il tempo dedicato e dall’altro anche per le risorse economiche necessarie a costruire piattaforme efficaci e avere docenti qualificati. I link che ti propongo questa settimana coprono un po’ tutti questi aspetti:
Un punto di vista molto americano della new learning economy da parte di uno dei più importanti fondi di investimento mondiali: Andreessen Horowitz.
The edtech content landscape: una mappa delle start-up e scale-up operanti sul mercato, costruita invece dal più importante fondo di investimento europeo in questo ambito: BrightEye Ventures.
Un mio piccolo contributo ad una piattaforma edtech italianissima, da poco lanciata, e di cui ti avevo parlato qualche mese fa per il funding che aveva ricevuto. Infatti dal sapere Treccani è nata Edulia Masterclass, la piattaforma di e-learning dedicata a chi vuole imparare sempre qualcosa di nuovo. Anche io ho preso parte al progetto realizzando il corso "La cultura del dato" (con il contributo e la presenza anche di Alberto). Se Edulia ti incuriosisce e vuoi scoprire di più, ti lascio questo codice sconto del 30%, da usare al momento dell'acquisto: Gatti30.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Data Documentation World: data catalog and more …
Come si documentano i dati all’interno delle organizzazioni è un tema centrale a causa dell’aumento delle tipologie e della loro quantità e per il numero sempre maggiore di persone che li usano. Non esiste un unico modo efficace per farlo, non esiste, soprattutto nelle grandi organizzazioni, un solo livello di documentazione che risolve tutte le necessità. Per questo seguire delle buone pratiche e adattarsi al contesto e alla cultura dell’azienda è molto importante. L’articolo che ti consiglio oggi fa parte di quelle buone pratiche di cui essere a conoscenza per realizzare un buon data-catalog. E’ fatto molto bene sia perché fornisce esempi pratici, sia perché consiglia poche regole ma fondamentali (quella dello “style guide” su tutte) e soprattutto per i preziosi link per approfondimenti successivi. In aggiunta a questo, sia che tu abbia a che fare con un dataset-catalog che con progetti più ambiziosi come business data catalog aziendali, ti lascio i miei 7 consigli sul tema, come ho raccontato ad alcuni vecchi amici, che me lo hanno chiesto, durante un recente lunch seminar:
Assicurati di avere a bordo (del progetto di documentazione) le persone che conoscono meglio, dal punto di vista semantico, i dati in azienda.
Se parti dal business data glossary l’approccio top-down, dai concetti dati di base e non dal singolo campo, è quello migliore.
Non voler far la wikipedia dei dati aziendali prima di far utilizzare la documentazione e probabilmente è anche inutile farla dopo!
Automatizza il più possibile la costruzione del data-catalog usando i metadati ma fai rivedere periodicamente il tutto da chi conosce il dato.
Fai partecipare al progetto più persone possibili: soprattutto gli utilizzatori sono degli ottimi revisori!
Appena hai un MVP (Minimum Viable Product) apri l’uso a tutti. Solo utilizzandolo il data catalog vivrà e migliorerà!
Utilizza, continuamente, le persone neo-assunte in azienda per testare la bontà e mantenerlo vivo e aggiornato.
🖐️Tecnologia (data engineering). Data linkage and deduplication with Splink
Il problema della ricerca di dati (record) duplicati in una tabella o del collegamento di due dati presenti in tabelle diverse è uno dei più antichi, affascinanti e complessi nel mondo dei dati. Me lo sono trovato di fronte sia per tematiche di data quality sia soprattutto per tematiche di entity linking diverse volte nella mia vita lavorativa. Un esempio pratico è quando vuoi collegare i dati dei tuoi clienti con le informazioni presenti su una database anagrafico esterno. Ci sono molti modi per farlo e spesso il contesto e la tipologia dei dati gioca un ruolo importante. Oggi ti consiglio di dare un’occhiata ad una giovane libreria python chiamata Splink che è stata sviluppata all’interno di un progetto di ricerca “Data first” guidato dal Ministero della Giustizia britannico e finanziato dal Administrative Data Research UK. L'obiettivo del progetto è quello di sfruttare il potenziale della ricchezza di dati già creati dal Ministero della Giustizia, collegando i dataset amministrativi del sistema giudiziario e non solo, e consentendo ai ricercatori del governo e agli accademici autorizzati di accedere ai dati in modo etico e responsabile. Ma essendo stata sviluppata secondo il modello open source questa libreria è disponibile per tutti!
Le caratteristiche principali di Splink sono:
Velocità: è in grado di collegare un milione di record su un computer portatile in circa un minuto. Caratteristica testata sul mio “maturo laptop”
Accuratezza: utilizza in maniera molto specifica la frequenza dei termini e una sofisticata logica fuzzy.
Duttilità: i lavori di collegamento possono essere eseguiti in Python (utilizzando DuckDB) o utilizzando backend come AWS Athena e Spark per collegare oltre 100 milioni di record.
Facilità di setup: dati di addestramento non sono necessari, perché i modelli possono essere addestrati con un approccio non supervisionato.
Spiegabilità dei risultati: il programma produce un'ampia gamma di risultati interattivi, aiutando gli utenti a comprendere il proprio modello e a diagnosticare i problemi di collegamento.
👀 Data Science. The Datascience Interview Book
Se stai per fare un colloquio di selezione oppure vuoi ripassare alcuni concetti del mondo della datascience in maniera sintetica questa è la risorsa che fa al caso tuo.
The Datascience Interview Book raccoglie anche una collezione, divise per argomento, di quesiti tecnici fatti realmente nei colloqui di selezione in diverse aziende in giro per il mondo. Unisce il ripasso della teoria al suo utilizzo in problemi concreti.
Lo spirito, come è evidenziato dalla citazione di C.S.Lewis, nella homepage, “è quello del compagno di scuola: può aiutare più del maestro, perché ne sa meno. La difficoltà che vogliamo fargli spiegare è una difficoltà che ha incontrato di recente. L'esperto l'ha incontrata così tanto tempo fa che ha dimenticato…”
Gli argomenti trattati vanno dalla statistica agli algoritmi di machine learning ma anche SQL e data-viz non mancano. Il progetto è ancora un cantiere aperto ma non è affatto da sottovalutare anche per l’ironia sottile di cui è pervasa la trattazione dei differenti argomenti!
👅Etica & regolamentazione & impatto sulla società. Data Governance Act explained and in practice.
Il Data Governance Act entrerà in vigore alla data del 24 Settembre 2023 e trattandosi di un regolamento è direttamente applicabile senza la necessità di altri interventi a livello nazionale. Anche leggendo i 46 considerando e i 35 articoli del regolamento non è facile immaginare in concreto come cambierà lo scenario europeo e quali sono le novità più concrete che introduce. Per questo ti condivido queste poche righe che ti potrebbe aiutare a farti un’idea più concreta del tutto.
L’obiettivo: Promuovere relazioni di FIDUCIA negli scambi di dati tra organizzazioni
I 4 Temi principali:
Riutilizzo dei dati sensibili detenuti dagli enti pubblici
Creazione del ruolo di fornitori di servizi di intermediazione dei dati riconosciuti nell'Unione (i famosi marketplace di dati che in Europa non sono ancora decollati)
Creazioni di organizzazioni per l'altruismo dei dati riconosciute a livello europeo che hanno l’obiettivo di facilitare lo scambio e l’uso dei dati per il bene comune (soprattutto in ambito medico)
Creazione dello European Data Innovation Board che ha l’obiettivo di supportare la condivisione delle best practices relative ai primi tre punti
Ulteriori approfondimenti: Se vuoi approfondire in pratica e con esempi già in corso ciascuno dei quattro temi principali ti consiglio la lettura di questo documento, fatto molto bene sul sito della comunità europea.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!
Caro Stefano ... parliamoci chiaro: il mio numero di telefono lo conoscono oramai cani e porci, quindi non ho veramente alcun problema a darlo anche ad Edulia e, tra l'altro, essendo sempre "affamato" di formazione ed informazione, sono stato pure tentato di acconsentire all'invio di comunicazioni da parte loro. Se non fosse che sono arrivato li proprio per partecipare al corso sulla cultura del dato e questo, francamente, stride un po'.
Tu parli di "strategia di identificazione" e di "erogazione di alcuni contenuti": è probabile che tu abbia ragione, ma sono tue, lanciami chiamarle così, illazioni; il sito non parla di queste cose, ma solo di corsi e webinar e nella "policy" si specifica che è possibile fruire dei servizi anche senza fornire "dati aggiuntivi".
Ok, ok: la faccio finita.
Grazie dei tuoi spunti, sempre interessanti.
Ciao Stefano. Sempre in tema, almeno per come la vedo io, di cultura del dato: per quale motivo Edulia pretende che io le dia il mio numero di telefono, quando è evidente che non serve per erogare il servizio ed io non voglio ricevere comunicazioni per questa via?