For my English speaking friends, click here for the translated version
Ciao,
sono Stefano Gatti e questo è il cinquantantotto numero della newsletter LaCulturaDelDato: dati & algoritmi attraverso i nostri 5 sensi. Le regole che ci siamo dati per questo viaggio le puoi trovare qui.
Ecco i cinque spunti del cinquantottesimo numero:
👂🏾Organizzazione e cultura dei dati e algoritmi nelle organizzazioni. 2023 AI Report: Key Insights and Trends from Stanford's Human-Centered Artificial Intelligence Institut
È stato da poco pubblicato, come ogni anno dal 2017, il 2023 AI Report redatto dallo Stanford Institute for Human-Centered Artificial Intelligence. Come ti avevo sottolineato anche lo scorso anno, è tra i miei tre report preferiti proprio perché basato su dati trasparenti e accessibili e realizzato da persone con competenze molto ben diversificate e che coprono tutti gli ambiti dell'AI. Quest'anno è addirittura quasi raddoppiato in lunghezza, passando a 386 pagine e aggiungendo 3 sezioni alle 5 esistenti già nel 2022: una dedicata all'education, una alla diversity e una a ciò che le persone, nelle diverse geografie, pensano dell'AI. Non devi necessariamente leggerlo tutto perché sia nel sito web che nel PDF ci sono diverse sintesi degli argomenti principali. Ti segnalo comunque le 7 cose che mi hanno più colpito:
La maturità dell'intelligenza artificiale è testimoniata dalla maggiore presenza dell'industria rispetto all'accademia in tutti gli indicatori di sviluppo di sistemi innovativi basati su AI.
Gli investimenti scendono anno su anno, per la prima volta da un decennio, ma la discesa è meno forte rispetto agli altri settori dell'economia.
C'è una leadership a due teste nella corsa all'intelligenza artificiale tra Cina, avanti sulla robotica, e Stati Uniti, che invece hanno la meglio su tutte le applicazioni non connesse alla robotica. Da notare (pag. 225-226) il buon posizionamento dell'Italia nella robotica a testimonianza della vocazione manifatturiera del nostro paese.
La crescita del numero di casistiche legali relative all'AI è quasi esponenziale, ed è anche un segnale della maturità raggiunta dal settore.
Il tema della diversità di genere è ancora molto vivo, sebbene il gap si stia molto lentamente colmando. I rapporti, a seconda degli ambiti, 8:2 o 7:3 tra uomini e donne impegnati in ambito intelligenza artificiale, devono far riflettere senza una eccessiva e controproducente ambizione di voler risolvere il problema in pochi anni.
Sulla richiesta di figure lavorative, i dati sono sempre in crescita e molto positivi anche nel 2022, nonostante i licenziamenti nelle big tech. Ci sono tanti report interessanti di dettaglio sulle competenze più richieste in tutte le geografie, Italia compresa. Da notare, proprio nel nostro paese, una crescita di richiesta da parte del mercato ma non una equivalente crescita delle competenze dei lavoratori (pag. 180-183).
Riguardo all'opinione sulla capacità dell'intelligenza artificiale di migliorare la nostra esistenza, si nota una correlazione inversa tra una visione positiva e gli stati con più alto livello di democrazia (pag. 324).
👅Etica & regolamentazione & impatto sulla società. Unlocking Data Treasures: Dive into the Exciting World of Open Data with Top-notch Courses
La definizione di dato aperto, più comunemente chiamato anche in italiano "open data", si riferisce a dati che sono liberamente accessibili (sebbene sia possibile stabilire un costo marginale di accesso per coprire i costi di gestione), utilizzabili e condivisibili da chiunque senza alcuna restrizione. Gli obiettivi del movimento open data, come riporta la voce inglese di Wikipedia, sono simili a quelli di altri movimenti "open" come il software open source, i contenuti aperti, le specifiche aperte, l'istruzione aperta, le risorse educative aperte, il governo aperto, e così via. A differenza del movimento software open source, il movimento open data ha avuto ancora un impatto basso sulla società per diversi motivi; il principale, a mio avviso, è dovuto al ritardo nell'evoluzione dell'uso dei dati su larga scala rispetto all'evoluzione dell'uso del software. Un altro motivo è il fattore culturale necessario per saperli utilizzare nel loro pieno valore. Per questo motivo, questa settimana ti consiglio questa serie di corsi, a livello crescente di difficoltà, che il portale della Comunità Europea mette a disposizione di tutti. Si parte dai concetti di base, come la definizione e il tipo di licenze degli open data, per arrivare a concetti più complessi e che impattano il nostro futuro di data-expert, come i data spaces. Alcuni di questi corsi sono tenuti dall'Open Data Institute, con cui ho lavorato in passato, e che vanta docenti di assoluto valore ed esperienza.
🖐️Tecnologia (data engineering). Heating Up Language: A Cozy Exploration of Temperature in NLP Models and Beyond
Uno dei parametri più importanti nel fine-tuning dei modelli di NLP (Natural Language Processing), come i Large Language Models utilizzati dalla generative AI, è la temperatura. La temperatura è un parametro impiegato per controllare il livello di casualità e diversità delle previsioni del modello. Quando un modello generativo produce un output, assegna una probabilità a ciascuna possibile parola o token successivo. La temperatura viene utilizzata per bilanciare queste probabilità durante la selezione del token successivo.
Con una temperatura più alta (ad esempio 1.0), il modello è più incline a scegliere token con probabilità più basse, il che porta a output più casuali e creativi, ma potenzialmente meno coerenti. Con una temperatura più bassa (ad esempio 0.5 o inferiore), il modello tende a scegliere token con probabilità più alte, il che produce output più conservatori, prevedibili e coerenti, ma meno vari e creativi. Se desideri provare concretamente tutto questo, ti consiglio questo post di un esperto Machine Learning Engineer, Luke Salomone, che progetta questi sistemi e ha creato un piccolo playground dove puoi sperimentare questo concetto in pratica. Se vuoi approfondire altre tematiche riguardanti i modelli di NLP, nel suo blog e nel suo GitHub troverai pane per i tuoi denti. Se frequenti il playground di OpenAI, anche lì la temperatura è un parametro che puoi configurare, ottenendo spesso risultati sorprendenti.
👀 Data Science. Tailor Your Own Data Dataset with the UK Office for National Statistics
La tradizione inglese nella gestione degli Open Data è importante e ha ispirato l’evoluzione di queste politiche in molte regioni mondiali, Europa continentale compresa. Dal 2012, il governo britannico ha adottato una politica "Open by Default" per i dati del settore pubblico in tutti i dipartimenti. Questo per garantire responsabilità, efficienza e innovazione nell’intero sistema economico.
Quello che ti segnalo in questo numero è un servizio innovativo che ha lanciato da poco l’Office of National Statistics, il più grande produttore indipendente di statistiche ufficiali del Regno Unito e il suo istituto statistico nazionale riconosciuto. Il servizio permette di creare un dataset in formato CSV (o in altri formati a tua scelta) relativo al Censimento 2021 guidandoti nella selezione delle variabili di interesse e alla giusta granularità geografica. Questo nuovo servizio non ha chiaramente un tasso di innovazione straordinaria ma l'esperienza di uso nella scelta delle variabili e della relativa descrizione semantica è degna di nota. Con l’occasione ti consiglio anche di esplorare il sito dell’istituto perché fornisce un'esperienza di accesso e un’architettura delle informazioni difficilmente riscontrabile in altre organizzazioni analoghe.
👃Investimenti in ambito dati e algoritmi. Start of the Month - March 2023: Adept.ai - Pioneering Human-Centric Software Interaction with Generative AI and Natural Language
Come ogni mese, approfitto di un'attività che sto svolgendo per studiare il mercato dell'innovazione e degli investimenti per segnalarti la startup internazionale che più mi ha colpito e che ha ricevuto finanziamenti nel mese. Questa startup deve operare nel campo dei dati e degli algoritmi o farne ampio uso (avendo al suo interno o nelle selezioni in corso un numero significativo di data-expert). Tra le 88 startup classificate come "data & algorithms" a marzo (su 524 visionate, ovvero circa il 16%, dato in crescita rispetto ai mesi precedenti), ti segnalo Adept.ai, che può essere inserita nel segmento delle aziende che operano utilizzando la generative AI. Questo segmento a marzo ha raggiunto il 25% del finanziamento di tutto il settore AI, secondo i miei dati. Tale risultato è stato raggiunto anche grazie ad Adept.ai, che ha già ricevuto un finanziamento totale di 415 milioni di dollari grazie, tra l'altro, al round B di 350 milioni di dollari di questo mese, con investitori di spicco come Nvidia, Microsoft e Atlassian, pur senza avere ancora un prodotto offerto al pubblico. La tecnologia alla base di Adept si chiama ACT-1 ed è, come quella di ChatGPT, un Transformer addestrato a utilizzare strumenti digitali, progettato e allenato specificamente per intraprendere azioni sui nostri software in risposta ai nostri comandi in linguaggio naturale. Il team è di prim'ordine, a partire dal CEO, David Luan, che ha ricoperto ruoli importanti in OpenAI, e dai principali leader tecnici provenienti da DeepMind, Google e altre grandi realtà del settore. Mi sono iscritto alla lista d'attesa perché sono molto curioso di scoprire come si svilupperà questo progetto, che potrebbe generare un altro caso di successo. Non sempre un team di talento e finanziamenti importanti portano a risultati entusiasmanti: rimango tuttavia ottimista riguardo a questo specifico progetto.
Se hai ulteriori suggerimenti e riflessioni sui temi di questo numero o per migliorare questa newsletter scrivimi (st.gatti@gmail.com) o commenta su substack.
Se ti è piaciuta e non sei ancora iscritto lascia la tua mail qui sotto e aiutami a diffonderla!
Alla prossima!
Sempre piena di info, grazie! Per l'analisi delle startup, come hai scelto il totale di 524 da visionare?