Ciao,
sono Stefano Gatti e questo è il ventisettesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del ventisettesimo numero:
👅Etica & regolamentazione & impatto sulla società. Inside Airbnb (with data)
“In che modo Airbnb viene realmente utilizzato e influisce sui quartieri della più importanti città? Airbnb sostiene di essere parte della "sharing economy" e di aver sconvolto l'industria alberghiera. Tuttavia, i dati dimostrano che la maggior parte degli annunci Airbnb nella maggior parte delle città sono case intere, molte delle quali vengono affittate tutto l'anno - sconvolgendo le abitazioni e le comunità”. Questa è la tesi sostenuta del progetto Inside Airbnb raccogliendo, elaborando e visualizzando molto bene i dati Airbnb con uno stack tecnologico molto figo. Il tutto per le principali città e aree mondiali: ci sono anche molte città e regioni italiane. Non sono convinto che il bilancio dell’effetto Airbnb sul sistema economico sociale mondiale sia negativo perché vanno tenuti conto gli effetti positivi sulla competizione nel settore turistico e il beneficio del riempimento di immobili in molte zone del mondo che altrimenti rimarrebbero vuoti. Certo poi quando si guarda la situazione di Venezia qualche dubbio può nascere anche se imputare lo spopolamento della città solo a Airbnb mi sembra quantomeno esagerato!
🖐️Tecnologia (data engineering). Cliff notes of machine learning algorithms with Python
Il link che ti suggerisco oggi è una via di mezzo tra voci (importanti) di wikipedia sul machine learning e un bigino sull’argomento. Non si tratta solo di algoritmi ma anche di artefatti che ruotano attorno ad essi come per esempio le metriche. Sono 100 in tutto le voci e coprono veramente tanti aspetti anche molto tecnici: da componenti delle reti neurali ai modelli più usati per la classificazione binaria. La peculiarità è che la parte testuale è molto sintetica senza trattazioni matematiche estese e praticamente tutto è corredato da codice Python facilmente comprensibile. Molte volte un concreto “ripasso” di certi concetti, codice alla mano, può essere molto efficace!
👀 Data Science. Making Decisions with Classifiers
Una dei problemi maggiori quando si parla di prendere decisioni sulla base di algoritmi è dove porre la soglia tra grandezze importanti che sono in contrasto tra di loro. In primis il trade-off tra precision e recall: cioè quanto stretta voglio che sia la mia rete per prendere più pesci possibili senza riempirla di altri materiali inutili. E’ qualcosa che viene dopo la scelta e l’ottimizzazione del modello in sé perché ha a che vedere con l’obiettivo di business (o di scopo) della organizzazione che usa l’algoritmo stesso. In questo post, che ti propongo, Colin Fraser, un datascientist molto nerd di Meta, affronta questo problema molto bene affiancando alla curva ROC, una metrica che si usa per comparare modelli, una funzione di utilità per individuare il punto giusto di taratura (precision vs recall) dove far lavorare il modello a seconda dello specifico obiettivo. Funzione di utilità che, come Colin sottolinea facendo degli esempi molto chiari, non è comunque di facile e precisa definizione. La sola definizione del costo del rapporto tra falsi positivi (materiale inutile nella mia rete) e falsi negativi (pesci che non ho preso) fornisce comunque indicazioni utili per scegliere la zona della curva dove operare. C’è anche molta matematica nel post ma raramente ho visto affrontare un problema di datascience in modo così rigoroso e anche molto pragmatico.
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Data for sustainable development
Il Rapporto sullo Sviluppo Sostenibile (DSP) esamina i progressi compiuti ogni anno sugli Obiettivi di Sviluppo Sostenibile da quando sono stati adottati dai 193 Stati membri delle Nazioni Unite nel 2015. Monitora i progressi (o i regressi ahimè) sulle 17 aree definite: dalla povertà passando alla fame per andare anche su diverse aree a tema ambientale. Il tutto per ogni nazione. Ciascuna area si compone di più indicatori che insieme formano la valutazione globale dell’area stessa. Il report contiene dati e informazioni molto preziose che andrebbero lette con attenzione per avere un quadro su questo tema. Tre sono le cose che vorrei segnalarti:
Il Covid si è fatto sentire anche su questi temi! Per il secondo anno consecutivo, l’indice mondiale, non è più in crescita ma è stabile (pag.VII)
L’Italia è al 25esimo posto nella classifica con 5 aree in significativo miglioramento, 9 in moderato miglioramento e 3 stabili. I sotto-punti critici sono relativi alla crescita dell’obesità e della disuguaglianza sociale e la decrescita di alcuni parametri legati alla qualità della scuola e alla salute dei nostri mari (pag.248)
La pandemia COVID-19 ha provocato un cambiamento massiccio nella domanda e nella consapevolezza dell’importanza dei dati, in particolare di tempestività e qualità. La rapidità, la geolocalizzazione e la granularità dei dati stanno diventando sempre più di più una risorsa considerata strategica per garantire uno sviluppo più equo e sostenibile (pag.51)
👃Investimenti in ambito dati e algoritmi. AI Auditors: a tech game changer according to CbInsights
In questo report di CBInsights sono indicate le tecnologie, o meglio, gli ambiti tecnologici che potrebbero cambiare il mondo nei prossimi 10 anni. Tra questi ce n’è uno che sta emergendo grazie alla sempre maggiore integrazione ed uso di sistemi di machine learning all’interno delle aziende e nei loro prodotti: si tratta dell’AI Auditors. Contrariamente a quello che potrebbe far pensare la parola non si tratta di auditor umani ma di piattaforme che forniscono sistemi per monitorare gli algoritmi in uso dalle aziende sia in termini di prestazioni che di rischi legati a attacchi informatici o eccessive polarizzazioni dei risultati. Il tutto è normalmente sintetizzato in report e dashboard. Report e dashboard che possono avere una valenza sia per condividere all’interno dell’azienda questi risultati in ottica di miglioramento delle performance e della gestione dei rischi ma anche come adempimento verso normative in essere ed in arrivo. Tutte e tre le start-up che sono segnalate nel report sono interessanti anche se hanno un livello di maturità e di focalizzazione sul tema diverso. Cognitive scale AI copre questi aspetti ma all’interno di un portafoglio prodotti più ampi mentre Snitch.ai e Kosa.ai hanno soluzioni molto più verticali ma che mi sembrano molto interessanti sia in ottica di investimento che di utilizzo sul campo. In questo ambito, anche se più focalizzata sui dati e sul loro impatto su modelli e metriche, ti avevo segnato anche la svizzera Modulos.ai.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!