Ciao,
sono Stefano Gatti e questo è il trentacinquesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del trentacinquesimo numero:
đInvestimenti in ambito dati e algoritmi. Start of the month - October 2022. Vara: data-driven breast cancer screening
Come ogni mese, sfruttando unâattivitĂ che sto facendo per studiare il mercato dellâinnovazione e degli investimenti, ti segnalo la start-up internazionale che piĂš mi ha piĂš colpito e che ha avuto un funding nel mese. Come detto questa start-up deve lavorare in ambito dati e algoritmi o farne largo uso (avere al suo interno o nelle selezioni in corso un numero significativo di data-expert). Tra le 79 start-up classificate come âdata & algorithmsâ in Ottobre (sulle 588 visionate cioè circa lâ13,5%) ti segnalo Vara, unâazienda fondata nel 2018 allâinterno di Merantix, un Venture Studio situato a Berlino e specializzato nel costruire, supportare e far scalare start-up che sfruttano sistemi di intelligenza artificiali in differenti ambiti. Varda in particolare, che ha chiuso recentemente un series A da 15 milioni di dollari, si concentra nel settore della radiologia medica ed in particolare applica il suo algoritmo per migliorare la classificazione delle mammografie.
Vara non è un semplice software complementare agli attuali ma è stato progettato come sistema che segue tutto il flusso dello screening mammografico e si integra molto bene con le attivitĂ del radiologo. A seconda delle varie geografie dove viene usato può sostituire il radiologo fornendo una classificazione del livello di rischiositĂ emerso dalle immagini, soprattutto nei paesi in via di sviluppo, o può fornire un servizio di verifica post classificazione del medico per recuperare potenziali errori di valutazione. Combinando le capacitĂ umane e quelle dellâalgoritmo si è stimato che abbia migliorato del 2,6% la qualitĂ della decisione umana eliminando anche un alto numero di falsi positivi. Questo è lâapproccio di âaugmented intelligenceâ che preferisco e che ritengo vincente almeno nel medio periodo!
đđžOrganizzazione e cultura dei dati e algoritmi nelle organizzazioni. Data Engineer 101
Una delle figure, nel mondo dei dati, che si è rilevata piĂš importante e strategica, soprattutto dopo lâhype della figura del datascientist, è quella del data engineer. Questo ruolo non è però ancora cosĂŹ chiaro e definito allâinterno delle organizzazioni e mi è capitato piĂš volte di averlo visto confuso con quello del machine learning engineer, del data analyst o addirittura del datascientist. Per questo, soprattutto se ti occupi di selezione del personale, è importante che tu legga questo articolo, del famoso blog âThe Pragmatic Engineerâ che definisce in maniera semplice ma non banale quali sono le attivitĂ , i tools e i contesti dove si muove questa figura. Lo fa riportando lâesperienza diretta di un data engineer di esperienza internazionale che ha svolto questa professione anche in Facebook. La chiarezza delle sue parole mi hanno colpito molto anche perchè si adattano benissimo al ruolo svolto con efficacia in tutte le realtĂ , di qualunque grandezza e geografia, in cui mi sono imbattuto. Che cosa fa un data-engineer, quali sono gli artefatti chiave del suo lavoro e perchĂŠ sta diventando cosĂŹ importante: queste sono le tre domande a cui risponde molto bene Benjamin Rogojan. E soprattutto, scendendo nel concreto, Benjamin esprime i tre obiettivi primari della sua attivitĂ : rendere i dati facilmente utilizzabili dagli altri data-expert, dare ai dati e a chi li usa una prospettiva temporale di lungo periodo e soprattutto renderli integrati tra loro e con le strutture informatiche dellâorganizzazione. Câè molto altro nellâarticolo e anche se non sei un esperto di tecnologia non aver paura a leggerlo perchĂŠ imparerai molte cose e ti aiuterĂ a capire e a dialogare meglio con chi svolge questo ruolo sempre piĂš importante allâinterno delle organizzazioni moderne.
đď¸Tecnologia (data engineering). Confidential Computing and Machine Learning
Quando si parla di confidenzialitĂ e integritĂ dei propri dati le aziende devono saper gestire in maniera sicura tutti e tre gli stati allâinterno del ciclo di vita del dato stesso: in transito, a riposo e durante il suo utilizzo. Quando si parla dei primi due stati le metodologie applicate sono piĂš vicine a quelle della sicurezza del software tradizione. Se invece ci concentriamo sulla fase di utilizzo del dato le tecniche sono molto piĂš vicine al nostro mondo o meglio operano proprio direttamente sugli stessi dati e algoritmi. Per incominciare a conoscere almeno le famiglie di tecnologie oggi disponibili o, se le conosci giĂ , per approfondire i trend di popolaritĂ ti consiglio vivamente questo post di Ben Lorica che lo fa usando una metodologia simile a quella del Tiobe Index (ricordi? te ne ho giĂ parlato a proposito di misurazione di popolaritĂ dei linguaggi di programmazione). Tra le famiglie di tecnologie quella dei dati sintetici la fa da padrone ma non risolve tutti i casi dâuso per estrarre valore dai dati. La Secure Multiparty Computation, di cui ho fatto positiva esperienza in passato, e anche lâHomomorphic Encryption promettono di essere molto interessanti se riusciranno ad estendere le casistiche gestite, consentendo lâutilizzo di tutte le tecniche di machine learning senza dover accedere in chiaro al micro-dato. Serve però un alert su questo tema: nessuna di queste due ultime tecniche supera eventuali vincoli legislativi di non usabilitĂ del dato nĂŠ è capace di cambiare lâopinione degli uffici interni di compliance soprattutto se non li si aiuta fino in fondo a capirne i benefici.
đ Data Science. Python and Data Science in every branch of human knowledge: economics, literature and more!
Per darti unâidea, se ancora non te la sei fatta, di quanto pervasivi Python e la Data Science stanno diventando in ogni area di sapere oggi ti propongo alcuni link e risorse aperte che in giro per il mondo, prevalentemente in quello universitario, studiosi ed esperti stanno mettendo a disposizione di tutti noi. Questo ha un immenso valore soprattutto per le giovani generazioni perchĂŠ queste risorse sono di alta qualitĂ , alta accessibilitĂ (perchĂŠ aperte) e di facile fruibilitĂ perchĂŠ partono dai concetti base ma hanno contenuti anche di alta complessitĂ e specificitĂ . Queste risorse sono, come usano dire gli anglofoni, âlow floor and a high ceilingâ. Incominciamo dalla prima segnalazione, forse quella che preferisco: âCoding for economistsâ. Il progetto ha una completezza di spiegazione di tutte le componenti di Python per la data analysis che ho raramente trovato in altri testi. Ma anche nelle parti piĂš specifiche la qualitĂ si mantiene altissima come per esempio quando si addentra a spiegare come si scrivono paper in maniera moderna.
Anche in area umanistica, soprattutto nel mondo anglosassone e nordico, il coding e le sue metodologie per analizzare i documenti stanno prendendo sempre piĂš piede. Un esempio è questo progetto aperto dove ovviamente Python e le sue tecniche di analizzare il testo (NLP) la fanno da padrone. Quello che mi ha impressionato, provandone alcune parti, è la ricchezza di esempi che ne fa uno strumento molto pratico per âmoderni letteratiâ. Sempre nello stesso ambito ma piĂš orientato ad una introduzione al coding per umanisti è âPython for digital humanitiesâ. Per finire ti segnalo, se sei un appassionato di dati geospaziali, questo progetto che fornisce gli strumenti, i metodi e la teoria per affrontare le sfide della scienza dei dati contemporanea applicata ai problemi e ai dati geografici.
I realizzatori di questi progetti, per lâimpatto sul futuro della distribuzione della conoscenza, sono i veri filantropi del 21° secolo.
đ
Etica & regolamentazione & impatto sulla societĂ . Italian and European Olympic games of statistics (as an entrance test for managers in a company)
Tornano, come ogni anno, le Olimpiadi italiane di statistica, competizione destinata agli studenti delle prime quattro classi delle secondarie superiori, divisi in due categorie: 14-16enni e 17-18enni. Il tutto mi arriva dalla puntuale newsletter dell'Istat che vi consiglio di seguire perchĂŠ decisamente informativa su quanto produce il nostro ente di Statistica, le cui attivitĂ , i cui lavori e i cui dati sono troppo poco seguiti e utilizzati a livello nazionale. Ed ora una call to action e una provocazione:
1) Se qualche insegnante, non necessariamente di matematica mi segue, le consiglio vivamente di far partecipare i propri studenti a questo evento perchĂŠ è un investimento per il loro futuro. Si tratta di un esercizio non solo di statistica in senso stretto ma anche logico e di comprensione del testo: provate un test, magari per il 3° e 4° anno, e controllate le soluzioni per conferma! Câè tempo fino al 21 Novembre. In alternativa usatelo per un'esercitazione (anche senza voto ⌠che non è lo scopo della didattica) per stimolare i vostri alunni.
2) La provocazione, invece, è che userei lâesame come test di ingresso per qualunque manager (e dico manager perchĂŠ voglio essere particolarmente provocatorio âŚ) che entri oggi in azienda e fisserei una soglia non troppo alta: diciamo 10 risposte corrette sui 20 quesiti del test. Potremmo vederne delle belle. Vi consiglio di provarlo. Ci vogliono 40 minuti. Non tutte le domande sono scontate cosĂŹ come lâesercizio di comprensione dei testi delle domande stesse. Io ho fatto quello del 2022 e non ho ottenuto 20/20 ma ci sono andato vicino. Qui trovate il testo e qui la soluzione. Non siate timidi e fatemi sapere cosa pensate della proposta ;-)
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!