For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il centosettantunesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del centosettantunesimo numero:
đInvestimenti in ambito dati e algoritmi. Raffaele Mauro: spazio, neurotecnologie, il futuro dei dati e tanto altro âŚ
Presentati
Raffaele Mauro. Sono appassionato di finanza, tecnologia, geopolitica e neuroscienze. Attualmente sono General Partner in Primo Space, un fondo di venture capital specializzato nel deep tech e nella space economy. In passato sono stato Managing Director di Endeavor Italia, unâorganizzazione che supporta le imprese ad alta crescita su scala internazionale, precedentemente mi sono occupato di investimenti high-tech e sviluppo di iniziative per lâimprenditorialitĂ innovativa presso il gruppo Intesa Sanpaolo e in fondi di venture capital come United Ventures e P101. Sono membro della Kauffman Society of Fellows e dei Karman Fellows, ho ottenuto lâMPA ad Harvard con specializzazione in finanza internazionale, il Ph.D. in Bocconi ed il GSP presso la Singularity University nel campus NASA Ames. Ho fatto parte dei Junior Fellow dellâAspen Institute, sono stato membro degli Young Leaders presso lo US-Italy Council, del gruppo âYoung European Leaders â 40under40â e dei Future Leaders dellâISPI. Faccio parte attualmente parte di quattro consigli di amministrazione, sono stato angel investor in societĂ come Serenis Health, ho scritto in passato per Harvard Business Review â Italia, Limes, Aspenia, ENEA Magazine e Pandora Rivista e sono stato autore dei libri âHacking Financeâ, âQuantum Computingâ e âI cancelli del cielo: Economia e politica della grande corsa allo spazioâ.
Trovate qualcosa in piĂš su di me qui: https://linktr.ee/raffaelemauro
Il mio ruolo tra 10 anni sarĂ ...
Credo che il mio ruolo sarĂ quello di creare impatto per le persone facendo leva su una combinazione di creativitĂ , empatia e tecnologia. Il mio cappello professionale attuale è quello di investitore, condizione che fornisce un buon livello di esposizione a persone interessanti, innovazioni e mercati di frontiera. Mi piace trovarmi in contesti dove sia possibile costruire un arricchimento umano e culturale reciproco. Inoltre, nella mia scala di valori, la ricerca della conoscenza scientifica ha un posto elevatissimo e credo faccia parte di ciò che conta veramente, profondamente, nella storia umana e nel lungo termine. Tuttavia tra dieci anni, viste le onde di trasformazione radicale che stiamo vivendo, tutto può accadere. Mi sento curioso e aperto rispetto alle opportunitĂ e alle sfide del futuro. In questo momento sono profondamente affascinato e sto studiando estesamente tutto ciò che riguarda neurotecnologie, neuroscienze, psicotecnologie, nuovi tipi di terapie e modelli di servizio, applicazione dellâintelligenza artificiale in ambito biomedico e psicofarmacologico.
Quale è la sfida piÚ importante che il mondo dei dati e algoritmi ha di fronte a sÊ oggi?
Si parla spesso e giustamente dei vincoli fisici e informazionali come lâapprovvigionamento energetico dei data center, la capacitĂ computazionale e la disponibilitĂ di dataset per il training degli algoritmi. Se pensiamo al contesto Europeo, un vincolo essenziale è la creazione, lâattrazione e la valorizzazione del talento. Eâ necessario sia offrire maggiori opportunitĂ alle nuove classi di neolaureati, dottorandi, post doc prodotti dal sistema attuale, sia attrarre persone dallâestero. Nella storia delle societĂ e delle civiltĂ umane la prosperità è sempre stata generata tramite un'elevata combinazione di tolleranza, attrazione del talento e apertura nei confronti dellâinnovazione tecnologica. Oggi lâEuropa vive unâopportunitĂ storica dato che negli Stati Uniti, almeno nel breve termine, sono state imposte politiche folli e autolesioniste a riguardo. Se siamo intelligenti e lungimiranti, gli equivalenti attuali di Einstein, Fermi, von Neumann, Teller potrebbero potenzialmente fare il percorso geografico inverso. E' difficile ma qualche passo in questa direzione si può fare. Speriamo !
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno âŚ
Potrei dire sicuramente Francesco De Collibus, che hai giĂ intervistato.
Non ho una singola risorsa da segnarle, tuttavia posso raccontare strumenti con cui sto giocando in questi giorni: ad esempio Pinal, un tool che permette di progettare nuove proteine che possano rispondere a esigenze specifiche, ad esempio in ambito biomedico. Il sistema è addestrato su 1,7 miliardi di coppie proteina-testo e consente la progettazione proteica partendo dal linguaggio naturale, qui un breve paper a riguardo. A differenza dei metodi tradizionali, Pinal genera prima una struttura 3D basata su istruzioni testuali (ad esempio "proteina che neutralizza tossine nell'ambito X nel modo Y") e poi progetta la sequenza amminoacidica ottimale, combinando la struttura creata con il contesto linguistico iniziale. Si tratta ancora di strumenti che hanno molti limiti ma la direzione in cui puntano è interessantissima e credo che lâimpatto sarĂ molto elevato.
Un secondo esempio, con cui però non posso sperimentare direttamente, è quello di societĂ come Mindstate Design Labs. Lâazienda si dedica allo studio di varianti molecolari di psichedelici tradizionali, un ambito di grande attualitĂ che alimenta una nuova fase di ricerca per il trattamento di patologie come depressione e disturbo da stress post-traumatico, procedendo grazie al supporto di modelli generativi capaci di prevedere gli effetti cognitivi e psicotropi delle nuove molecole. In questo contesto, la startup ha adottato approcci originali in parte basati sulla data science, analizzando la âstoria naturaleâ delle esperienze soggettive e utilizzando sistemi di analisi del linguaggio applicati a circa 70.000 trip report, ossia resoconti delle esperienze vissute con queste sostanze, reperiti su piattaforme come Erowid e Reddit. Il tutto è fatto con lâintento di trovare potenziali collegamenti tra le descrizioni degli effetti e le strutture molecolari note. Anche in questo caso, oggi si può fare leva sulla miniera di informazioni raccolte nel passato grazie a nuovi metodi e approcci di tipo ibrido e interdisciplinare.
đď¸Tecnologia (data engineering). Deep-ML: allenarsi con le sfide giuste, nel modo giusto
In un mondo dinamico come quello del machine learning e, piĂš in generale, dellâintelligenza artificiale è facile perdersi tra video tutorial, corsi online e librerie che cambiano ogni sei mesi. Inoltre, soprattutto per chi è alle prime armi o non ha mai scritto codice specifico per il mondo dei dati e dellâAI, non è cosĂŹ immediato capire le basi matematiche e come queste si traducano in codice ottimizzato. Avere delle buone basi è un grande vantaggio, anche quando si usano strumenti low-code o no-code. Anzi, diventa uno strumento chiave per andare piĂš veloci, sfruttare meglio queste tecnologie e comprendere eventuali errori generati dagli strumenti stessi, intelligenze artificiali incluse.
Ă per questo che oggi voglio segnalarti una piattaforma interessante se vuoi imparare (o anche ripassare) queste basi attraverso sfide mirate e un pizzico di gamification. Deep-ML funziona un poâ come LeetCode, di cui ti ho giĂ parlato, ma al posto di esercizi di programmazione generici, propone attivitĂ focalizzate su ciò che davvero conta per chi lavora con i dati: algebra lineare, regressione, reti neurali, computer vision. Ogni sfida è curata da ricercatori e ingegneri del settore, e riflette problemi realistici che potresti incontrare in un laboratorio R&D, in un hackathon o durante un colloquio tecnico. La piattaforma è in gran parte gratuita e accessibile a tutti. Esiste anche una versione a pagamento con funzionalitĂ aggiuntive, come lâinterazione con una AI generativa, ma non sono elementi fondamentali. Le metriche di progresso, i grafici, i badge e le leaderboard aggiungono un tocco di sana competizione e aiutano a mantenere alta la motivazione nel tempo đŞ
Ma il vero cuore del progetto è la community. Deep-ML è infatti anche un repository GitHub dove chiunque può contribuire con nuove sfide, migliorare quelle giĂ presenti o proporre correzioni. Ă un laboratorio aperto, dove si costruisce insieme una conoscenza operativa. In unâepoca in cui lâaccesso alla conoscenza è vasto ma dispersivo, progetti come Deep-ML aiutano a concentrarsi sulle competenze che contano davvero, in un formato aperto, concreto e ben strutturato.
đđžOrganizzazione e cultura dei dati e algoritmi nelle organizzazioni. Organizzazioni sotto stress? La bussola di Schein e le dritte di Mollick e Ng
Stiamo vivendo un momento di cambiamento molto forte a livello organizzativo allâinterno delle nostre aziende. E lâAI generativa è sicuramente uno, forse sta per diventare il principale, motore di questo cambiamento. Per questo credo sia interessante recuperare quella che, secondo me, è la miglior definizione di cultura organizzativa: quella di Edgar Schein, uno dei massimi studiosi in materia. Schein definisce la cultura come:
"Un modello di presupposti condivisi che un gruppo ha appreso mentre risolveva i problemi di adattamento esterno e di integrazione interna, e che ha funzionato abbastanza bene da essere considerato valido e da essere insegnato ai nuovi membri come il modo corretto di percepire, pensare e sentire rispetto a quei problemi."
Ă una definizione molto concreta e pratica, che, come dettaglierĂ in seguito lo stesso Schein, si basa su tre livelli:
Artefatti
Sono gli elementi visibili e tangibili della cultura, ma spesso difficili da interpretare. Includono, ad esempio, lâambiente fisico e il layout degli uffici, lâabbigliamento, le tecnologie usate, i riti, le cerimonie, il linguaggio e i comportamenti osservabili. Sono ciò che si vede, ma non sempre si comprende senza conoscere il contesto. Per esperienza personale, sono aspetti spesso sottovalutati ma fondamentali per come la cultura è percepita, soprattutto da chi arriva da fuori o sta decidendo se unirsi o meno al team.
Valori dichiarati o espliciti
Sono i principi, le strategie e gli obiettivi dichiarati dallâorganizzazione, spesso presenti in mission, vision, codici etici e regolamenti. Rappresentano ciò che lâorganizzazione dice di credere, anche se non sempre questi valori si traducono in comportamenti reali. Proprio perchĂŠ spesso non sono vissuti in modo coerente in ogni momento e da tutti, sono anche gli aspetti piĂš rischiosi su cui esporsi. E, per certi versi, anche i piĂš sopravvalutati.
Assunti di base
Sono le credenze profonde, inconsce e date per scontate che guidano i comportamenti delle persone. Ad esempio: idee implicite su cosa significhi âsuccessoâ, convinzioni sulla natura umana (fiducia o sfiducia), modalitĂ implicite su come si prendono decisioni (con o senza dati⌠per stare nel nostro ambito). Sono invisibili ma potentissimi, e spesso nemmeno i membri dellâorganizzazione ne sono consapevoli. Ă la componente piĂš complessa e lenta da modificare, ma probabilmente anche la piĂš importante.
Per approfondire questi temi (e quelli della leadership) in questo momento storico, ti consiglio tre punti di vista per molti versi complementari:
đ Un articolo di Ethan Mollick che ha tutte le carte in regola per diventare iconico e invecchiare bene: âMaking AI Work: Leadership, Lab, and Crowdâ. Il titolo è giĂ molto esplicativo, e lâarticolo è ben sintetizzato da unâimmagine⌠ma mi raccomando: leggilo tutto, non fartelo sintetizzare da Claude đ
đ Questo contributo di Andrew Ng, che si concentra sullâimportanza, anche per le grandi aziende, di muoversi in fretta grazie allâAI e alla sua implementazione strategica.
đ Un post di Jan Bosch che approfondisce il tema della cultura organizzativa, riprende e smonta la definizione di Schein da cui eravamo partiti, offrendo un punto di vista per certi versi molto âradicaleâ.
â
Memo
Per chi si fosse perso la news, è uscito Intelligenza Artificiale in 4D! Un libro pratico sull'AI, scritto a quattro mani da me e
, pensato per chi vuole orientarsi nel mondo dellâAI senza perdersi tra slogan e tecnicismi.Lo trovate su Amazon in formato eBook e cartaceo, dove potete anche leggerne un estratto!
đ Data Science. A volte le previsioni non bastano: esplorare le serie temporali con STUMPY
Le serie temporali sono un tipo di dato molto presente in azienda e possono aiutare tantissimo le strategie e le decisioni che si prendono. Ma sono anche dati molto difficili da usare, perchÊ per loro natura fotografano un processo (o un suo attributo) in un mondo (esterno) che è cambiato e sta cambiando. Senza fare dissertazioni filosofiche sul concetto di tempo, per quelle ti rimando al grande Carlo Rovelli, devo dire che lavorare con questo tipo di dataset mi ha sempre dato grandi grattacapi. Anche per via delle aspettative che tutti gli stakeholder dei progetti su cui ho lavorato, CEO compresi, hanno avuto sui risultati della data science applicata a questi dati.
SĂŹ, perchĂŠ quando si parla di time series, il primo istinto è spesso âfare previsioniâ. Ă il regno di Prophet, ARIMA e altre librerie super collaudate. Tutti strumenti focalizzati su capire cosa succederĂ domani, dato quello che è successo oggi.
Ma cosa succede se vogliamo rispondere a domande diverse, tipo: "Quando si è verificato un comportamento simile a questo?", "Ci sono pattern ripetitivi o anomalie nel tempo?", "Come faccio a segmentare una serie senza ipotesi di stagionalità ?".
Qui entra in gioco (anche) un altro tipo di approccio, ben rappresentato dallâapprofondimento che ti suggerisco oggi: STUMPY, una libreria Python pensata per l'analisi esplorativa delle serie temporali tramite il concetto di matrix profile, una struttura dati che ti dice, per ogni finestra della serie, quanto somiglia al resto della serie.
Con STUMPY non fai previsioni, ma puoi:
Scoprire pattern ricorrenti
Trovare anomalie locali o globali
Segmentare automaticamente eventi simili (es. cicli, attivitĂ , comportamenti)
Un esempio pratico, preso dal mondo della medicina, potrebbe essere questo: hai una serie temporale con i battiti cardiaci registrati minuto per minuto. Con Prophet potresti stimare il battito previsto alle 10:00 di domani. Con STUMPY, invece, puoi dire: âQuesto comportamento anomalo si è verificato anche alle 02:17 e alle 14:23â oppure âTra le 03:00 e le 04:00 è successo qualcosa di mai visto primaâ.
Il tutto senza modelli. Senza assunzioni di stagionalitĂ . Solo pura similaritĂ . In sintesi: forecasting â pattern discovery. STUMPY non rimpiazza Prophet, lo completa. Serve quando vuoi esplorare, non prevedere. E se ti stai chiedendo se è scalabile: sĂŹ, STUMPY usa Numba per compilare il codice numerico in linguaggio macchina e lavora tranquillamente su serie da milioni di punti.
E se sei curioso di approfondire, dal punto di vista tecnico e matematico, lâalgoritmo di matrix profile, ti consiglio vivamente questo tutorial (e la sua prosecuzione) del Department of Computer Science and Engineering (CSE) dell'University of California, Riverside, che è stato tra gli artefici di questo tipo di algoritmo da cui è nata proprio la libreria STUMPY.
đ
Etica & regolamentazione & impatto sulla societĂ . AI e umani: non siamo poi cosĂŹ diversi
Era stato lâapprofondimento piĂš apprezzato di febbraio 2023, piĂš di 120 numeri fa. E la nostra percezione delle intelligenze artificiali generative era, mediamente, molto diversa da quella che abbiamo oggi. Allâepoca andava per la maggiore considerarli pappagalli stocastici e sottovalutarne il valore e il potenziale di miglioramento. Gli LLM con sistemi di reasoning (chain of thoughts, per intenderci) erano ancora allo stadio di pura ricerca.
Ma giĂ allora
, che mi e ci aveva aiutato a capire il Web, le sue potenzialitĂ e i suoi pericoli ben prima che ce ne accorgessimo, scriveva, appunto nel febbraio 2023, di quanto fosse necessario lavorare con queste intelligenze, anche solo per rendersi conto che non erano poi cosĂŹ diverse da noi. Ma Mafe andava oltre: intuiva la loro diversitĂ e, per certi versi, la complementarietĂ rispetto ai motori di ricerca. E sottolineava come, in fondo, âanche noi umani generiamo testi a partire dalla probabilitĂ di distribuzione di parole o sequenze di parole, applicando regole grammaticali, sintattiche, stilistiche, semanticheâ.Gradualmente, lo abbiamo capito (quasi) tutti.
Mafe, che è anche una persona che stimo molto e che mi ha aiutato a progettare questa newsletter (almeno nelle sue fasi meno logorroiche đ ), ha una rara capacitĂ : capire la tecnologia non per se stessa, ma inserita nel mondo, indicandoci futuri preferibili verso cui provare a indirizzarla e a indirizzarci.
Per questo, oltre a consigliarti questa piacevole lettura (o rilettura) che è invecchiata benissimo, ti suggerisco anche di ascoltare questo recente suo intervento con
, dove racconta la sua visione della co-evoluzione con queste intelligenze. Una visione che, ovviamente, si è affinata nel tempo.Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!
Miao đ