For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il sessantunesimo numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del sessantunesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. Data, Insights, and Impact: The Davide Cervellin Story
Presentati:
sono Davide Cervellin, nato a Verona nel 1980 e laureato in Ingegneria Elettrica presso il Politecnico di Milano. Attualmente ricopro il ruolo di Chief Marketing Officer presso Cairo RCS Media.
Per tre anni consecutivi, sono stato riconosciuto come uno dei leader nel campo dell'Analytics, entrando nella lista delle 100 persone più influenti nel settore del Data Driven business (2018, 2019, 2020). Da quattro anni ho intrapreso un percorso verso ruoli di Marketing, Digital, Prodotto e General Management.
Il mio background lavorativo include esperienze in aziende di rilievo come Siemens, Vodafone, Pirelli, eBay, PayPal, Booking.com e Telepass. Supporto diverse start-up in qualità di advisor e coach e collaboro con università prestigiose, tra cui il Politecnico di Milano e Ca’ Foscari Venezia. Ho avuto l'opportunità di partecipare come keynote speaker a più di 20 conferenze in tutta Europa. Ho vissuto in Italia, Svizzera, Inghilterra e Olanda, e attualmente risiedo a Milano con mia moglie Cinzia e le mie figlie, Arya e Julia.
Sono anche autore di un Libro, un podcast, una newsletter e un canale YouTube, tutti sotto l'etichetta di "Office of Cards".
Il mio ruolo tra 10 anni sarà ... (continua la frase come fossi GPT-10) … Il mio ruolo tra 10 anni sarà... sicuramente, in un modo o nell'altro, al servizio degli altri. Il lavoro che sto portando avanti con Office of Cards e, soprattutto, i feedback che ricevo da perfetti sconosciuti che mi ringraziano per il contributo che i miei contenuti apportano alle loro vite, mi hanno fatto comprendere che il vero senso dei nostri sforzi non può e non deve limitarsi a noi stessi o al mero servizio di un’azienda, ma deve avere uno scopo più grande: aiutare gli altri. Mi piacerebbe aiutare i giovani a trovare la loro strada in un mondo che sta cambiando alla velocità della luce. Mi piacerebbe contribuire a ridurre il gap tecnologico dell’Italia rispetto ai paesi più "evoluti". Mi piacerebbe avere a che fare con l’industria della ristorazione, che è una mia grande passione.
E dove entrano in gioco i dati in tutto questo? Beh, sono OVUNQUE. Tra 10 anni, ogni business sarà pervaso dai dati e credo che gli anni che ho trascorso per capire come usarli al meglio mi saranno molto utili. Per questo motivo, penso che ogni giovane oggi dovrebbe dedicare almeno qualche anno ad imparare a gestirli, proprio come ai miei tempi era fondamentale saper scrivere bene in corsivo a mano o saper fare di conto senza l'ausilio di una calcolatrice.
Quale è la sfida più importante che il mondo dei dati e algoritmi ha di fronte a sé oggi?
Il mondo dei dati ha un problema di brand, molti vedono il dato come qualcosa di autonomo (motivo per cui vediamo sempre più spesso la figura del 'data officer' in molte aziende).
Spesso vedo figure aziendali, CEO inclusi, chiedere report, numeri, grafici… e, tristemente, vedo analisti limitarsi a questo.
A mio parere, questo è un approccio sbagliato. Nel business dovrebbe essere richiesta un'ANALISI o un INSIGHT, non un semplice dato.
L’analista o il data scientist dovrebbero lavorare per sintetizzare il proprio lavoro, offrendo non solo grafici o tabelle, ma presentando un messaggio, una storia, un problema… che poi verrà discusso con la figura aziendale per prendere decisioni basate su fatti concreti.
Segnalaci il progetto o la risorsa nel mondo dei dati di cui non potresti fare a meno …
Più che nel mondo dei dati, direi nel mondo Tech in generale: TechCrunch. Da quando sono tornato in Italia, mi rendo conto che sto perdendo 'grip' con quello che succede nei luoghi in cui si crea il futuro (Silicon Valley, ma non solo). Leggere TechCrunch è per me un modo per restare aggiornato, seguire i trend, ricevere stimoli che posso fare miei e riutilizzare al servizio delle realtà italiane. Allo stesso modo, citerei ProductHunt, perché è una miniera di stimoli su nuovi strumenti per la produttività personale e di team.
🖐️Tecnologia (data engineering). Jupyter AI Plugin: Your Playground for Generative AI in Jupyter
È una notizia che personalmente, da utilizzatore di Jupyter Notebook, aspettavo da settimane e per questo te la condivido con grande piacere: "Benvenuti in Jupyter AI, che porta l'AI generativa in Jupyter. Jupyter AI offre un modo semplice e potente per esplorare modelli di AI generativa nei notebook e migliorare la produttività in JupyterLab e Jupyter Notebook. In particolare, Jupyter AI offre:
Una cella magica %%ai che trasforma il notebook Jupyter in un parco giochi di AI generativa riproducibile. Funziona ovunque venga eseguito il kernel IPython (JupyterLab, Jupyter Notebook, Google Colab, VSCode, ecc.).
Un'interfaccia di chat nativa in JupyterLab che consente di lavorare con l'AI generativa come un assistente di conversazione.
Supporto per un'ampia gamma di fornitori di modelli generativi e di modelli (AI21, Anthropic, Cohere, Hugging Face, OpenAI, SageMaker, ecc.)"
Questa è la presentazione del plugin per Jupyter notebook che consente di utilizzare vari servizi di AI generativa all'interno dello strumento di lavoro preferito da molti data expert in tutto il mondo. Per provarlo, segui le istruzioni dettagliate sul sito del progetto o, se vuoi saperne di più dal punto di vista tecnico, visita l'area GitHub dedicata.
L'ho provato personalmente sia con Anaconda che con VSCode e funziona perfettamente come descritto sopra, sia con Jupyter Notebook che con JupyterLab. Tuttavia, ho riscontrato problemi su Colab (alla data del 01/05/2023) dove, oltre all'installazione di jupyter_ai, occorre installare la versione della libreria langchain 0.0.153 e non l'ultima versione 0.0.154 che viene installata di default. Ma con questa accortezza tutto fila liscio. Peccato che in questo caso nessuna intelligenza artificiale mi sia stata d'aiuto per il momento...🙂
👀 Data Science. Coping with the Performance Decay of Machine Learning Models: What You Need to Know
Se lavori con algoritmi in produzione e temi il degrado temporale dei modelli di machine learning, ti consiglio di leggere uno dei migliori studi sull'argomento in cui mi sono finora imbattuto. Lo studio è stato condotto dalle migliori università del mondo, tra cui MIT e Harvard, ed elimina il rischio di bias su algoritmi e settori industriali utilizzando quattro modelli comuni (Linear Regression, Random Forest Regressor, XGBoost e una Multilayer Perceptron Neural Network) su 32 dataset provenienti da quattro settori industriali diversi (Healthcare, Weather, Airport Traffic e Financial). La metodologia utilizzata è robusta e spiegata in modo trasparente e visuale anche nell'articolo che sintetizza lo studio.
Il 91% di degrado nel titolo dell’articolo deve essere letto come il 91% dei modelli presentano un significativo degrado dopo circa un anno dalla messa in produzione. L'articolo non solo descrive il problema, ma presenta anche diverse soluzioni potenziali che non puoi perdere se sei un data scientist o un machine learning engineer. Inoltre, le conclusioni forniscono un buon punto di partenza per approfondire un tool molto interessante per mitigare i problemi descritti. Eccole: “Lo studio di Daniel Vela et al. ha dimostrato che le prestazioni dei modelli di machine learning non rimangono statiche, anche quando raggiungono un'elevata accuratezza al momento dell'implementazione. Inoltre, i diversi modelli invecchiano a ritmi diversi, anche se addestrati sugli stessi set di dati. La scelta del modello e la sua stabilità diventano quindi uno dei fattori più critici nel gestire il degrado temporale delle prestazioni. Questi risultati forniscono una conferma teorica del motivo per cui strumenti come il progetto open source NannyML sono importanti per l'industria del machine learning. Inoltre, dimostrano che le prestazioni dei modelli sono soggette a degrado e, per questo motivo, ogni modello in produzione deve essere monitorato per evitare che il modello fallisca senza avvisare gli utenti.”
👃Investimenti in ambito dati e algoritmi. Navigating the Investment Landscape of Generative AI
Se vuoi avere una sintesi di come e dove stanno andando gli investimenti nell’ambito della generative AI, non perderti questo breve ma molto data-driven report che puoi scaricare dal sito di CBInsights. La sintesi estrema, dal punto di vista di chi investe, è questa: “La stragrande maggioranza delle start-up che usano la Generative AI ha ricevuto poco o nessun finanziamento azionario. Questo è un segnale che esiste ancora un'enorme opportunità per gli investitori di entrare presto in questa tecnologia potenzialmente trasformativa.” Sono sostanzialmente d’accordo con questo punto di vista. Finora, la maggior parte degli investimenti è stata attratta dalle aziende che sviluppano i modelli LLMs. Se confrontiamo i 10 miliardi di dollari che ha ricevuto OpenAI da Microsoft con il dato, riportato in una delle 7 chart, dei 2.6 miliardi di dollari ricevuti nel 2022 da tutte le start-up che usano questi modelli, la differenza è notevole. Ma lo scenario potrebbe cambiare anche nel breve periodo, soprattutto se si considerano i dati di incremento degli investimenti nella categoria Generative Interfaces. “Queste aziende stanno usando i modelli generativi in tutti i settori per elaborare i comandi in linguaggio naturale e alimentare applicazioni come la ricerca sul web, la ricerca privata (all'interno dei server e delle applicazioni aziendali) e la gestione della conoscenza e produttività.” L’impatto sul mondo del lavoro e sull’economia globale sarà sicuramente grande. Tuttavia, non sono completamente d'accordo con i numeri che questo recente rapporto di Goldman Sachs evidenzia: 300 mln di posti di lavoro a rischio nel mondo occidentale con una potenziale crescita del Pil globale del 7% entro 10 anni. Gli scenari, del resto, sono costruiti per riflettere sul futuro che potrebbe accadere, e non su quello che necessariamente avverrà.
👅Etica & regolamentazione & impatto sulla società. ChatGPT Takes on the Professional and Academic Tests: But Remember, Intelligence is More Than Just a Number!
Se vuoi sapere quanto possa valere oggi il tipo di intelligenza di ChatGPT rispetto a quella di un essere umano, usando come metrica i più famosi test professionali e accademici, questa accattivante infografica di VisualCapitalist e il relativo breve articolo fanno al caso tuo.
Ancora più interessante è visualizzare il progresso compiuto da ChatGPT 4.0 rispetto alla precedente versione 3.5. Devo dire che, avendo a disposizione entrambe, mi sono reso conto fin dall'inizio della differenza, provando a replicare la stessa interazione con i due modelli. Per il momento, questo è dovuto, nel mio caso, a uno dei tre grandi miglioramenti della versione 4 rispetto alla 3.5, ovvero la maggiore ampiezza del contesto che viene considerata. Non riesco ancora a valutare gli altri due aspetti che impattano molto i miglioramenti nei test evidenziati nell'infografica, perché non ancora accessibili al mio account, ovvero l'accesso a Internet (da parte di ChatGPT4) e all'ecosistema dei plugin e la possibilità di fornire anche input grafici.
Se vuoi poi rassicurarti un po', nell'infografica guarda anche ai test in cui ChatGPT è ancora lontana dalle performance degli esseri umani! 😰
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!