Dalle reti neurali all’inferenza artificiale avanzata: cosa fanno davvero le AI
Le reti neurali non “riproducono” il funzionamento del cervello umano, questa è un’eccessiva semplificazione. Una rete neurale artificiale è una struttura matematica, costituita da nodi a loro volta organizzati in strati, dove le reti trasformano dati in ingresso in risultati in uscita, applicando pesi, bias e funzioni di attivazione. Ecco come funzionano le AI.
Oggi la dicitura intelligenza artificiale è ubiquitaria. Si trova nei titoli dei giornali, nelle descrizioni dei prodotti, nella divulgazione e la ricerca. Si ha l’idea che possieda delle capacità cognitive assimilabili a quelle dell’uomo.
Dietro questa nomenclatura suggestiva, si nasconde però un problema di fondo concettuale: si attribuiscono delle qualità complesse a dei sistemi che, sia pur sofisticati, funzionano su delle basi computazionale matematiche precise, che sono lontane dalla cognizione nel suo senso stretto.
Attualmente i sistemi di intelligenza artificiale si basano principalmente sulle reti neurali artificiali e questi sistemi sono estremamente potenti nell’elaborare i dati, ma il confronto diretto col cervello umano, che le ha pure ispirate, rischia di diventare fuorviante.
Come funziona il cervello umano
Il cervello umano è un sistema biologico molto complesso, composto da circa 86 miliardi di neuroni interconnessi tra di loro, tramite delle giunzioni dette sinapsi.
Ogni singolo neurone riceve segnali da altri neuroni, elabora l’informazione ricevuta e decide se trasmetterla.
La comunicazione tra neuroni non è semplicemente elettrica, coinvolge anche segnali di altro genere, chimici per esempio. Infatti è sottoposto a modulazioni ormonali, nell’ambito di processi di adattamento continuo e dinamiche non lineari.
Da un punto di vista funzionale, il cervello è un sistema distribuito, plastico e con un funzionamento contestuale. Non elabora tutte le informazioni della stessa maniera, per esempio la memoria, l’attenzione, l’esperienza e anche lo stato emotivo, possono influenzare ogni singolo processo.
Oltre a ciò, la organizzazione tridimensionale del cervello e la sua capacità di ristrutturarsi dinamicamente detta neuroplasticità, lo rendono profondamente interattivo con l’ambiente circostante e un sistema adattivo.
Inizialmente i modelli di reti neuronali artificiali sono stati ispirati da questa complessità biologica, ma il paragone ha un senso solo fino a un dato termine.
Le reti neurali artificiali sono strutture costruite su basi matematiche semplificate e seguono delle logiche molto più rigide.
Reti neurali: cosa sono e cosa fanno
Una rete neurale artificiale è una struttura matematica, costituita da nodi a loro volta organizzati in strati.
Queste reti, sono in grado di trasformare i dati in ingresso in risultati in uscita, applicando pesi, bias e funzioni di attivazione.
I pesi
I pesi sono valori numerici che determinano quanto un certo input influisce sull’output.
L’addestramento della rete consiste nell’aggiustare questi pesi per ridurre l’errore.
Il bias
Il bias è un valore aggiuntivo che permette al nodo di attivarsi in assenza di input forti. Serve a rendere la rete più flessibile e generalizzabile.
La funzione di attivazione
È una regola matematica che decide se un nodo dovrà attivarsi o meno, ed eventualmente, con quale intensità. Rende possibili elaborazioni complesse, introducendo elementi non lineari nel sistema.
Queste reti riescono ad apprendere correlazioni nei dati a loro forniti, e a generalizzare su esempi nuovi. Raggiungono oggi risultati eccellenti in ambiti diversi: visione artificiale, traduzione automatica, generazione di testo e analisi predittiva.
Dunque è importante sottolineare che queste operazioni sono basate su inferenze apprese dai dati a loro forniti, e non su una comprensione semantica, e sono prive di una concreta intenzionalità.
Per inferenza, si intende, quindi, il processo con cui si deduce un’informazione sconosciuta, sulla base di dati noti. È un’operazione matematica e induttiva, non un ragionamento consapevole.
Architetture: panoramica dei modelli principali
Ecco i modelli principali delle architetture di reti neurali:
- Feedforward Neural Networks (FNN);
- Reti neurali ricorrenti (RNN).
Feedforward Neural Networks (FNN)
Sono le reti più semplici. L’informazione attraversa i layer (strati) in una sola direzione: dall’ingresso all’uscita, senza mai tornare indietro.
Queste reti sono adatte a compiti in cui i dati non possiedano una dimensione temporale o sequenziale.
Sono propriamente utilizzate, per esempio, nel riconoscimento di immagini statiche.
Reti neurali ricorrenti (RNN)
Quando l’ordine degli input è significativo – come nel linguaggio naturale, nei segnali audio o nelle serie temporali – servono architetture in grado di memorizzare il contesto.
Le reti neurali Ricorrenti (RNN) sono state progettate proprio per questo: introducono feedback loop, ovvero connessioni che reinseriscono l’output di un passo come input per quello successivo (in senso temporale, non spaziale). Questo consente al modello di costruire una sorta di memoria interna lungo la sequenza.
Per essere chiari, un feedback loop è un ciclo in cui l’uscita di un nodo, torna in input al ciclo successivo.
Nelle RNN si utilizza per dare una continuità temporale all’elaborazione,per tenere traccia dello “stato” della rete nel tempo.
Durante la fase di addestramento, le RNN utilizzano un metodo chiamato Backpropagation Through Time (BPTT), che consiste nel calcolare e propagare i gradienti attraverso l’intera sequenza per aggiornare i pesi.
Per gradiente, si intende qui una misurazione di come varia l’errore, rispetto ai pesi del modello.
In pratica, indica come modificare i pesi per ridurre l’errore. Viene calcolato tramite derivate e propagato a ritroso nella rete, Backpropagation, appunto.
Tuttavia, proprio questa struttura ricorrente le espone al problema del gradiente evanescente: man mano che il gradiente si propaga indietro nel tempo, può diventare sempre più piccolo fino a perdere del tutto la capacità di aggiornare i pesi per gli stati più lontani nel passato.
Di conseguenza, la rete ‘fatica’ ad apprendere relazioni a lungo termine. In pratica, il gradiente evanescente è un fenomeno in cui, durante l’addestramento, il segnale di errore si attenua troppo rapidamente, man mano che si propaga.
Il risultato è che la rete dimentica le informazioni passate, anche se potenzialmente rilevanti.
Per mitigare questo problema sono stati sviluppati modelli più complessi che includono meccanismi interni di controllo della memoria, capaci di regolare meglio quali informazioni conservare e quali dimenticare lungo la sequenza.
Questi accorgimenti permettono di gestire più efficacemente le relazioni temporali estese, anche se hanno un costo in termini di una maggiore complessità architetturale.
Transformer e meccanismi di attenzione
L’introduzione dei Transformer ha segnato un cambiamento radicale. Questi modelli non elaborano l’input in maniera sequenziale, ma, in parallelo, sfruttando un meccanismo chiamato self-attention (auto-attenzione), che permette di analizzare le relazioni interne tra i dati.
Utilizzando questo meccanismo, ogni elemento dell’input (per esempio una parola) viene confrontato con tutti gli altri per calcolare quanto dovrebbe influenzare l’elaborazione di ciascuna unità di testo (parola o frammento di essa).
Le unità di testo vengono denominate in questo contesto, ‘token’. Questo meccanismo, in ogni modo, è alla base dell’efficacia di modelli come GPT.
Grazie a questa struttura, i Transformer sono oggi lo standard per il trattamento del linguaggio naturale e la generazione di contenuti.
Reti dinamiche e ad albero
Alcuni problemi richiedono una flessibilità maggiore rispetto alle reti a strati fissi. Le reti dinamiche, che possono avere strutture ad albero o a grafo, possono modificare la propria topologia in funzione dei dati.
Si parla di, architetture dinamiche. In questi modelli, la struttura della rete non è predeterminata: si adatta dinamicamente alla forma del dato, per esempio seguendo la struttura della sintassi di una frase o la gerarchia di un grafo.
Sono usate in ambiti specialistici, come il parsing linguistico avanzato o l’analisi strutturale dei dati complessi.
Ispirazione biologica: un riferimento utile, non un confronto tecnico
Verrebbe spontaneo pensare che una rete neurale “riproduca” il funzionamento del cervello umano. Ma questa è una semplificazione eccessiva.
Come detto, un neurone biologico è una struttura complessa, elettrochimica, modulata da ormoni, esperienze e retroazioni ambientali. È immerso in un sistema vivente in cui agiscono memoria, emozione e contesto.
Una rete neurale artificiale, per quanto efficace, è un modello computazionale astratto. Funziona su matrici di numeri, e anche i suoi comportamenti più sofisticati emergono da trasformazioni matematiche, apprese su dati.
In sintesi, l’analogia biologica ha valore ispirativo, ma non deve essere scambiata per un’equivalenza funzionale.
I due sistemi operano su logiche radicalmente diverse.
Una proposta: inferenza artificiale avanzata
L’etichetta “intelligenza artificiale” è efficace dal punto di vista comunicativo, ma ambigua sul piano tecnico.
Proporre il termine Inferenza artificiale avanzata (IAA) non è un gioco di parole, ma un tentativo di descrivere con maggiore precisione quello che questi sistemi fanno veramente: estrarre correlazioni, stimare relazioni, generalizzare da esempi osservati.
Non pensano, ma simulano in maniera molto efficace, alcune dinamiche dell’inferenza.
Non comprendono, ma producono risposte coerenti rispetto ai dati. Inoltre, non hanno una coscienza, ma riescono a gestire le informazioni in modi utili e spesso sofisticati.
Reti neurali, per una comprensione più solida e concreta dell’AI
Il termine “intelligenza artificiale” ha un impatto forte e una storia lunga, può però alimentare aspettative che non corrispondono alla realtà dei sistemi attualmente disponibili.
Una comprensione migliore del funzionamento di queste tecnologie, e anche denominarle in modo più accurato può portare ad una valutazione più reale di cosa siano: strumenti di inferenza complessi, molto utili per automatizzare dei compiti ardui, ma differenti dall’intelligenza umana.
Spostare l’attenzione dalla suggestione alla precisione non significa ridimensionare il progresso, ma porre basi più solide per un uso consapevole, critico e produttivo di queste tecnologie.