Vai al contenuto principale
Immagine di copertina

All'alba dell'intelligenza artificiale

Di Andrea Daniele Signorelli • febbraio 04, 2025


Nel 2012, la ImageNet Challenge era giunta alla sua terza edizione. Ufficialmente noto come ImageNet Large Scale Visual Recognition Challenge, il concorso – ancora oggi attivo – era stato lanciato nel 2010 dalla docente di Stanford Fei-Fei Li per permettere ai migliori software di riconoscimento immagini (in grado quindi di riconoscere gli oggetti o gli esseri viventi presenti in una fotografia) di sfidarsi, premiando il più preciso ad analizzare correttamente le immagini presenti nel database.

La realizzazione del database, battezzato ImageNet, era stato l’immane compito a cui proprio Fei-Fei Li si era dedicata per anni nonostante lo scetticismo dei colleghi, portandolo a termine nel 2009 anche grazie alle intuizioni informatiche dei suoi studenti.

Come racconta Fei-Fei Li nel suo memoir Tutti i mondi che vedo (Luiss University Press), ImageNet era un database di dimensioni che all’epoca non si erano mai viste: “Quindici milioni di immagini suddivise in ventiduemila categorie distinte, selezionate da un totale di quasi un miliardo e annotate da una squadra internazionale di oltre quarantottomila collaboratori provenienti da centosessantasette Paesi. Possedeva la scala e la varietà che avevamo sognato per anni, pur mantenendo un livello stabile di precisione: ciascuna singola immagine non era soltanto etichettata manualmente, ma anche organizzata all’interno di una gerarchia e verificata tre volte”.

Fin qui, questa vicenda riguarda soltanto gli addetti ai lavori: i docenti e i ricercatori che, principalmente nelle università statunitensi e canadesi, lavoravano allo sviluppo dei primi sistemi in grado di riconoscere automaticamente immagini e caratteri o di portare a termine alcune attività in maniera autonoma.

Quello che nessuno invece avrebbe potuto immaginare era che, il 30 settembre 2012, proprio durante la terza ImageNet Challenge, si sarebbe verificata una svolta improvvisa. Che avrebbe dato il via alla rivoluzione tecnologica delle reti neurali e del deep learning. E che avrebbe portato il mondo intero a fare conoscenza con i sistemi informatici che oggi chiamiamo “intelligenza artificiale”.

Fino a quel momento, i vincitori del contest erano stati degli algoritmi di computer vision (noti come Svm, support-vector-machine) realizzati dai ricercatori dei Nec Labs o dal centro di ricerca della Xerox in Francia. Nel 2012, questi sistemi sarebbero però stati sconfitti da un algoritmo noto come AlexNet. In realtà, dire che AlexNet abbia sconfitto gli avversari è riduttivo: l’algoritmo di riconoscimento immagini sviluppato all’Università di Toronto ha infatti stracciato la concorrenza, raggiungendo un livello di accuratezza mai visto prima, che si avvicinava in maniera sorprendente all’abilità degli esseri umani di distinguere e catalogare ciò che vedono.

Per la precisione, nel 2012 AlexNet ha raggiunto un livello di accuratezza dell’85%, mentre il secondo classificato si è fermato al 74%. Solo due anni prima, il vincitore non aveva superato quota 71%. Il salto qualitativo di AlexNet non è quindi stato solo enorme, ma improvviso e imprevisto da tutti gli addetti ai lavori.

A stupire Fei-Fei Li più di ogni altra cosa, era stato soprattutto il tipo di software che era riuscito in questa impresa. AlexNet era infatti una rete neurale basata su machine learning: una tecnologia vecchia ormai decenni e che da lungo tempo era stata praticamente abbandonata dalla comunità scientifica, durante il periodo noto come “inverno dell’intelligenza artificiale”.

“Negli anni Dieci”, spiega nel libro Fei-Fei Li, “la maggior parte di noi considerava la rete neurale – quella serie di unità decisionali interconnesse organizzate in una gerarchia di ispirazione biologica – un oggetto polveroso, racchiuso in una teca e protetto da cordoni di velluto (...) Era come se mi avessero detto che il record di velocità su strada era stato infranto con un margine di centocinquanta chilometri all’ora da un’Honda Civic. Il progresso non funziona così”.

Com’era potuto avvenire? Come aveva fatto una vecchia tecnologia abbandonata da tutti i ricercatori a stracciare la concorrenza dei più avanzati modelli dell’epoca? In realtà, negli anni Novanta e Duemila, le reti neurali non erano state abbandonate da tutti i ricercatori: alcuni di loro continuavano a lavorarci, convinti che – nonostante le difficoltà – fosse quella la strada migliore per conquistare il Sacro Graal tecnologico dell’intelligenza artificiale.

Il problema non erano le limitazioni intrinseche delle reti neurali o degli algoritmi di machine learning. Non era la teoria a essere sbagliata. Era il progresso tecnologico che, nei decenni precedenti, non era stato in grado di fornire gli strumenti adatti affinché le reti neurali esprimessero tutte le loro potenzialità.

Come lo stesso sviluppo del database ImageNet dimostrava (visto che non sarebbe stato possibile crearlo senza l’enorme quantità di immagini reperibile in rete), negli anni Dieci la situazione stava rapidamente cambiando. Da una parte, internet aveva permesso un’esplosione di dati che adesso potevano essere sfruttati per creare i database necessari ad addestrare le reti neurali. Dall’altra, la potenza di calcolo a disposizione degli scienziati continuava a crescere.

Come scrive sempre Fei-Fei Li, “AlexNet, a quanto pareva, non era soltanto uno dei partecipanti al concorso. Era un momento di rivalsa progettato un quarto di secolo prima”. A essere convinti che fosse solo una questione di tempo prima che la storia desse loro ragione erano infatti scienziati informatici come Yann LeCun, Yoshua Bengio e Geoff Hinton, che avevano continuato a lavorare sulle reti neurali nonostante il mondo accademico li trattasse come reietti (si sarebbero presto abbondantemente rifatti).

Proprio Hinton, all’epoca docente all’università di Toronto, risulta come terzo firmatario del paper che presentava AlexNet, assieme ai suoi due studenti Alex Krizhevsky e Ilya Sutskever, che qualche anno dopo avrebbe ceduto alla corte di Elon Musk e Sam Altman e avrebbe cofondato OpenAI.

Con AlexNet, nel 2012, inizia ufficialmente l’epoca del machine/deep learning, delle reti neurali e di tutto ciò che oggi chiamiamo “intelligenza artificiale”: la tecnologia che ha reso possibili i sistemi di riconoscimento immagini impiegati dalle telecamere di sorveglianza o gli algoritmi predittivi usati da Amazon per suggerirci cosa comprare, da Instagram e TikTok per individuare quali video hanno le maggiori possibilità di piacerci, dai laboratori di biologia per prevedere la struttura di una proteina e, ovviamente, da OpenAI e da DeepSeek per dare vita ai loro stupefacenti modelli linguistici.

E quindi, i dati necessari all’addestramento delle reti neurali che nel 2012 hanno dato il via alla rivoluzione dell’intelligenza artificiale erano diventati disponibili grazie a internet e ai social network. E per quanto invece riguarda la potenza di calcolo, che cosa aveva consentito di fare il salto di qualità così lungamente atteso? Per rispondere a questa domanda, facciamo prima un passo indietro.

Il cuore di ogni sistema informatico è rappresentato dal suo chip, che a partire dagli anni Sessanta, grazie alle innovazioni di Intel, si stava rapidamente trasformando. Come racconta Cesare Alemanni in Il re invisibile (Luiss University Press), in quegli anni “grazie a innovazioni come il processo di fabbricazione Mos, si producevano ormai circuiti che riuscivano a integrare migliaia di transistor in un unico chip, con tempi e costi molto più ridotti”.

“Condensando alcuni di questi fondamentali sviluppi in un singolo progetto, nel 1971 un gruppo di ingegneri e ricercatori di Intel (guidati dall’italiano Federico Faggin) riuscì a realizzare (...) il primo microprocessore della storia. Messo sul mercato con il nome di Intel 4004, esso conteneva 2300 transistor e poteva eseguire 60mila istruzioni al secondo. In meno di un anno, Intel fu già in grado di presentare un esemplare di processore ulteriormente migliorato, l’Intel 8008, un nome che suggeriva un raddoppio delle prestazioni che era in grado di offrire. (...) Si era all’inizio di un decennio in cui Intel avrebbe ridefinito la curva di avanzamento dell’industria informatica e del suo impatto sulla società, immettendo sul mercato, uno dopo l’altro, una serie di chip e microprocessori sempre più performanti”.

Come abbiamo visto, mentre le CPU di Intel facevano rapidissimi passi da gigante, le reti neurali affrontavano invece l’inverno dell’intelligenza artificiale, senza quindi riuscire ad avvantaggiarsi degli inarrestabili progressi informatici. Com’è possibile, considerando che proprio la crescita del potere computazionale, assieme ai dati, è il fulcro dell’avanzata dell’intelligenza artificiale?

Per capirlo, bisogna osservare una foto, descritta da Alessandro Aresu in Geopolitica dell’intelligenza artificiale (Feltrinelli): “C’è una foto del 2012 che ritrae Geoffrey (Hinton) in primo piano, sulla destra. Sorride ed è chiaramente felice. (...) Dietro di lui, oltre alle lavagne che riportano le sue reti neurali, ci sono due suoi studenti. Uno, che sta sulla sinistra dell'immagine, è ancora più sorridente di Geoffrey, visibilmente soddisfatto e in posa, coi suoi abiti comodi. Al centro, ma fuori fuoco, c’è l’altro, che non guarda verso la camera. Lo sguardo sembra distratto, perso. Si tratta di Alex”.

Come avrete capito, la foto descritta da Aresu ritrae i tre ricercatori immortalati dopo aver presentato l’algoritmo AlexNet. “L’immagine rende visibili tre persone”, prosegue Aresu, “il maestro e i due allievi. A tenerli insieme, c’è anche un dettaglio che non viene fotografato: la GPU di Jensen”.

Jensen è Jensen Huang, il fondatore di Nvidia. E la GPU è la graphic processing unit prodotta proprio da Nvidia che, grazie alle sue caratteristiche, ha permesso al deep learning di esplodere, soppiantando – almeno nei settori tecnologicamente più avanzati – le CPU (central processing unit) di Intel, che avevano invece permesso la rivoluzione informatica dei personal computer.

Qual è la differenza? Per spiegarlo, Aresu si rifà alla vita di Jensen Huang, immigrato da Taiwan negli Stati Uniti all’età di nove anni e che, prima di fondare Nvidia nel 1993, aveva svolto ogni sorta di umile lavoro, compreso pulire i bagni della scuola pubblica in cui studiava in Kentucky o fare il cameriere nel fast food Denny’s in Oregon.

“Jensen si è abituato a vivere in parallelo. Aiutare Lori (sua moglie) coi bambini, andare da Denny’s, parlare con i clienti per LSI (l’azienda in cui lavorava prima di Nvidia, ndr), andare di nuovo da Denny’s, poi di nuovo i bambini, giocare ai videogiochi nelle pause dallo studio per Stanford. Questa è la sua assurda agenda giornaliera. Un essere umano può effettivamente svolgere questi compiti insieme, nella stessa giornata. Non può però svolgerli nello stesso momento. Le operazioni dell’economia del silicio, fondate sul processore centrale (CPU), attorno a cui già ruota un mondo di calcoli e di prodotti, non funzionavano in modo troppo diverso. Tanti compiti da fare, uno dopo l’altro”.

Le GPU di Jensen Huang, invece, mirano a superare questo limite e a eseguire i calcoli in parallelo, “tramite la suddivisione di ogni singola grande computazione in una serie di computazioni più piccole da svolgere in parallelo”, spiega Alemanni in Il re invisibile. “Sul piano fisico di chip e transistor, questo si traduceva in un’architettura logica meno sofisticata e ‘intelligente’ rispetto a quella di una CPU ma molto più specializzata, rapida e potente a livello puramente computativo. Nacquero così le GPU”.

Inizialmente il successo delle GPU (e quindi di Nvidia) è legato al boom che nel frattempo sta attraversando il mondo dei videogiochi, che grazie a esse riesce a fare enormi passi avanti soprattutto dal punto di vista grafico. Si scopre poi che questi stessi processori si prestano perfettamente al mining di criptovalute (la corsa computazionale per validare le transazioni che avvengono sulla blockchain, e che consente di ottenere delle criptovalute come ricompensa).

E poi, si scopre anche un’altra cosa: “A metà degli anni zero”, prosegue Alemanni, “ci si è resi conto che il sistema di parallel computing che rende le GPU particolarmente brave a calcolare i poligoni di un videogioco in 3D, le rende anche decisamente abili a risolvere i calcoli coinvolti nell’addestramento delle reti neurali alla base del funzionamento di alcune tipologie di AI, inclusi i cosiddetti large language model come ChatGPT”.

È quindi la GPU a rendere possibile il big bang dell’intelligenza artificiale e il trionfo, nel 2012, di AlexNet. In una testimonianza raccolta da Aresu in Geopolitica dell’intelligenza artificiale, la potenza delle GPU viene riassunta così: “Per insegnare a un computer come riconoscere con precisione i veicoli, per esempio, c’è bisogno di 100 milioni di immagini di automobili, camion, autobus, veicoli di emergenza, ecc. Senza GPU sarebbe necessario addestrare un sistema a riconoscere quelle immagini per mesi. I sistemi all’avanguardia di oggi possono ridurre questo tempo a un giorno”.

Assieme ai dati resi disponibili da internet e dai social network, e assieme alla perseveranza dei “padrini del deep learning” Geoff Hinton, Yann LeCun e Yoshua Bengio (insigniti nel 2018, per le loro conquiste, del Turing Award: il “nobel dell’informatica”), sono le GPU ad aver reso possibile la rivoluzione tecnologica in cui oggi siamo immersi.

Una rivoluzione che, tra le altre cose, ha portato Nvidia al vertice delle aziende più ricche del mondo. E che ha fatto sì che i chip – come raccontato da Aresu e da Alemanni – finissero al centro di una colossale competizione tecnologica, economica e politica tra le due superpotenze della nostra epoca.

Tutti i mondi che vedo: Curiosità, scoperta e meraviglia all'alba dell'intelligenza artificiale di Li Fei-Fei

”Sono convinta che la nostra civiltà sia sull’orlo di una rivoluzione tecnologica che ha il potere di rimodellare la vita come la conosciamo. Ignorare i millenni di lotta che sono alla base della nostra società, però, sarebbe un errore intollerabile. Questa rivoluzione deve fondarsi su quelle basi, in modo fedele. Deve rispettare la dignità collettiva di una comunità globale. E deve sempre ricordare le sue origini: l’immaginazione inquieta di una specie di ominidi altrimenti ordinaria, talmente disorientata dalla propria natura che tenta di ricrearla in silicio.

Visualizza eBook

Il re invisibile: Storia, economia e sconfinato potere del microchip di Cesare Alemanni

È stato detto che i microchip sono “il nuovo petrolio”. Questa suggestiva definizione è tuttavia errata: i circuiti integrati racchiudono un potere persino più grande e pervasivo di quello dell’oro nero. Dalla fabbricazione dei dispositivi tecnologici all’esplorazione spaziale, dalla produzione di energia atomica all’industria militare, il microchip è oggi la tecnologia più importante e strategica al mondo.

Visualizza eBook

Geopolitica dell'intelligenza artificiale di Alessandro Aresu

L’intelligenza artificiale è l’invenzione definitiva dell’umanità. La sua comparsa sulla scena evoca il rischio dell’estinzione del suo creatore, poiché la sua diffusione porterà, forse, al suo superamento. Queste visioni apocalittiche pervadono ormai il discorso pubblico sulla tecnologia, in un mondo dove la stessa espressione “intelligenza artificiale” è divenuta onnipresente e ossessiva.

Visualizza eBook

Andrea Daniele Signorelli è giornalista freelance, si occupa del rapporto tra nuove tecnologie, politica e società. Scrive per Domani, Wired, Repubblica, Il Tascabile e altri. È autore del podcast “Crash - La chiave per il digitale”.



Hai bisogno di contattarci?

If you would like to be the first to know about bookish blogs, please subscribe. We promise to provided only relevant articles.

Le tue impostazioni sulla privacy

Rakuten Kobo raccoglie ed elabora i tuoi dati tramite l'uso di cookie, al fine di far funzionare il sito web e assicurarne il corretto funzionamento. Per maggiori informazioni si prega di leggere la nostra informativa sulla privacy.