Ciao,
io sono Stefano Gatti e questo è il diciannovesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del diciannovesimo numero:
🖐️Tecnologia (data engineering). A new spreadsheet-database hybrid open source project funded
Se sei un data-lover e non hai mai usato Airtable o non lo conosci ti consiglio di darci un occhiata: potrebbe aiutarti a eliminare fogli elettronici per raccogliere dati personali o tra più utenti mantenendo sempre una singola fonte di verità e avendo a disposizione un vero database relazionale no-code in cloud direttamente accessibile da browser. Ma Airtable è utile anche anche come backend di app e di workflow gestionali potendo scalare su quantità non enormi ma comunque importanti (si arriva a 100.000 record per tabella). In automatico ti fornisce una suite completa di API per integrazioni via software e un marketplace di add-on molto ricco. A Dicembre nell’ultimo round ha raggiunto una valutazione di 11 miliardi di dollari. Se invece lo stai usando ma sei, come il sottoscritto, al limite del piano gratuito, è di pochi giorni fa la notizia che Baserow ha chiuso un primo round da 5 milioni di dollari. Baserow, il cui team ha sviluppato e supporta l’omonimo progetto open source, è una vera e propria alternativa a Airtable offrendo la versione cloud pronta all’uso e con supporto per le aziende.
👀 Data Science. Happier marriage with the help of datascience?
Avevo sempre letto studi poco interessanti su analisi dei dati applicata alle relazioni di coppia. Finalmente questo articolo, che sfrutta un meta studio fatto da Samantha Joel, una psicologa americana specialista del settore, fa il punto su questo tema.
“Se dovessi riassumere in una frase la scoperta più importante nel campo della scienza delle relazioni, grazie a questi studi sui Big Data, sarebbe qualcosa del genere (chiamatela la Prima Legge dell'Amore): Nel mercato degli appuntamenti (dating), le persone competono ferocemente per trovare compagni con qualità che non aumentano le possibilità di una felicità romantica.” Questa è l’estrema sintesi dell’articolo ma c’è molto di più: per esempio le domande che possono far capire se la vostra relazione ha migliori probabilità di successo nel tempo e le otto caratteristiche che sono irrilevanti per predire un positivo rapporto di coppia. Per tutti quelli diversamente alti come il sottoscritto vi confesso di aver letto con soddisfazione che l’altezza è uno di questi! Questo articolo non mi sorprende comunque perché siamo nel campo dell’estrema complessità, la psicologia umana, e su un orizzonte temporale, la relazione di coppia, che va ben oltre il “dating”: e in questi ambiti la capacità previsionale del machine learning è veramente molto bassa!
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. To datamesh or not to datamesh?
Sono riuscito ad arrivare alla diciottesima edizione della newsletter senza parlare di data mesh ma alla diciannovesima capitolo :-). Data mesh è diventata, soprattutto nell’ultimo periodo, una buzzword usata a scopo marketing: nulla da ridire invece sui concetti espressi nell’iconico manifesto di Zhamak Dehghani del 2019 ma il dibattito si è spesso allontanato dai principi originali. Rompo alla fine questo digiuno per segnalare un ottimo articolo, pubblicato su AgileItalia, di Andrea Gioia che fa un punto molto equilibrato e concreto sul data management in generale e poi fornisce un punto di vista dell'impatto, su quest’ultimo, del data mesh. Andrea parte dai quattro principi fondanti del manifesto: ownership di dominio, governance federata, self-service data platform e data as a product che cito in ordine di quanto sia, per me, l’importanza e l’estensibilità a tutte le organizzazioni. Evidenzia poi qual è il messaggio principale del data mesh cioè la decentralizzazione organizzativa nel mondo dei dati per poi arrivare, nella parte finale, ad esprimere giudizi e consigli che condivido pienamente. Questi su tutti: “ Il data mesh non esiste, esistono diverse tipologie di data mesh … non è inoltre un prodotto che può essere acquistato … è poi un approccio alla gestione del dato affascinante ma ancora molto giovane. Le organizzazioni che decidono di adottarlo devono avere capacità e voglia di sperimentare sulla propria pelle soluzioni e metodi di lavoro ancora tutti da perfezionare nella pratica.” Ma leggete tutto l’articolo: undici minuti spesi molto bene!
👃Investimenti in ambito dati e algoritmi. What the average & median fundings (Series A through C) (don't) tell us …
Non sono d’accordo con le conclusioni di questo interessante (dal punto di vista dei dati che espone ed usa) articolo di Crunchbase che conclude che le valutazioni delle start-up non è scesa marcatamente come potrebbe sembrare. Lo fa analizzando i dati di media e mediana di round A, B e C nel mercato statunitense che sono sostanzialmente in linea, come dimensioni, a quelli del secondo semestre del 2021. Sono convinto invece che questi dati non siano sufficienti per giungere alla conclusione finale perché le variabili che andrebbero considerate sono anche le quote di azienda acquisite con il round e il numero (o il valore) di tutti i round. Concludendo in maniera così semplicistica techcrunch mi sembra sia caduto su quello che si chiama “survival bias” cioè si vada a considerare solo i dati dei sopravvissuti: in questo caso quelli che sono riusciti a chiudere un round escludendo tutte le aziende in difficoltà (fallite o che stanno riducendo i costi per mancanza di cash).
👅Etica & regolamentazione & impatto sulla società. Human algorithms on feminicides
Caterina D’Ignazio, nota con il nickname di karinka, si definisce una hacker mamma che ha dedicato tutta la sua vita professionale ai dati, al femminismo e soprattutto all’intersezione di questi due ambiti.
Oggi è direttore del MIT Data + Feminism lab che merita una visita virtuale di per sè. Negli ultimi anni, oltre a libri e progetti che potete esplorare attraverso i link precedenti, si è occupata di algoritmi che supportano la creazione di controdati (dati alternativi o complementari a quelli raccolti dai governi e dalle istituzioni) sui femminicidi. La storia delle sue difficoltà nella creazione di una base di controdati utile raccoglie tutte le problematiche della datascience moderna: polarizzazione dei dati, accuratezza di algoritmi di NLP e faticose annotazioni umane dei dati stessi. Tutto questo, oltre che in un suo paper, è sintetizzato molto bene da Chiara Sabelli in questo articolo che suggerisce come l’accostare l’aggettivo umano ad un algoritmo non sia (ancora) un ossimoro!
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!