Il software che vede 5 minuti nel futuro

Il progresso dell'intelligenza artificiale

Nuovi passi per l'intelligenza artificale con il software che predice fino a 5 minuti nel futuro. Credits: sanvada.com

Siamo ormai abituati a convivere con software di scrittura predittiva, che sulla base delle nostre abitudini riescono ad anticipare le nostre parole. E se il passo successivo fosse predirre intere azioni?

Questo è quello che si sono chiesti iricercatori dell’Università di Bonn, cercando di capire se fosse possibile. E la risposta è stata affermativa.

Il software sviluppato dai ricercatori è infatti in grado di predirre quali azioni faranno determinate persone in situazioni nuove per il programma, per periodi lunghi qualche minuto. Vediamo come.

Video di ricette di insalate

Tranquilli, non siamo impazziti, e siete ancora su Systems. Questi video infatti hanno rappresentato il training set del software, dai quali è riuscito a “imparare” determinate sequenze di azioni. Un totale di 40 video di 6 minuti l’uno, che contenevano una media di 20 azioni diverse tra loro. In ognuno di essi, inoltre, erano indicati i dettagli relativi al momento in cui un’azione veniva iniziata e la sua durata.

L’obiettivo era quello di valutare se il programma fosse poi in grado di anticipare le azioni da lì a 5 minuti, basandosi soltanto sui primi step dell’intera attività. Per i test sono stati poi utilizzati dei video (completamente nuovi) in cui altre persone si accingevano a prepare un pasto uguale o simile a quelli del training.

Le reti neurali

Per la fase di testing sono stati utilizzati due tipi di reti neurali artificiali: una che anticipava il futuro ed eseguiva delle riflessioni prima di anticiparlo nuovamente, l’altra che utilizzava una matrice per il calcolo dei frame successivi.

Nel primo caso si parla di predizione ricorsiva, nella quale l’algoritmo riceve in input tutti i frame già predetti tranne parte dell’ultimo. Da essi poi cerca di predirre il rimanente pezzo dell’ultimo e il nuovo frame da aggiungere alla sequenza. La nuova sequenza diventerà poi l’input del passo successivo. Ciò viene ripetuto finché non si raggiunge il numero desiderato di frame che si vogliono predirre.

Rete neurale con predizione ricorsiva
La rete neurale che predice ricorsivamente i frame del video. Credits: Yazan Abu Farha, Alexander Richard, Juergen Gal.

Nel secondo caso, invece, cerca di anticipare le azioni in un singolo step, e non ricorsivamente. Viene piuttosto creata una matrice binaria con C colonne (che identificano le classi di azioni) e S righe (che identificano i segmenti di un’azione). Per ogni cella viene inserito 1 se per quella classe di azione esiste quel segmento, altrimenti 0.

La matrice viene riempita man mano che vengono visualizzate le azioni a video. Per ottenere la matrice di output, che descrive i frame dei momenti successivi, si utilizza il principio della rete neurale convoluzionale. La matrice viene poi normalizzata, le viene applicato un filtro Gaussiano per ogni colonna, e infine riportata nella forma CxS binaria. Infine, per ogni riga viene calcolato l’argomento massimo.

Rete neurale convoluzionale
La rete neurale convoluzionale, uno dei due metodi utilizzati per il testing. Credits: Yazan Abu Farha, Alexander Richard, Juergen Gal.

Per una spiegazione più completa, si rimanda al documento tecnico redatto dai ricercatori.

Risultati

Le performance dell’algoritmo non sono state elevate quanto uno potrebbe aspettarsi: l‘accuratezza è arrivata al 40% per brevi periodi di tempo, per poi crollare man mano che si proseguiva. In generale, il primo approccio di rete neurale si è dimostrato più performante dell’altro nei primi 20 secondi di predizione, per poi appiattirsi alle statistiche dell’approccio a matrice. Per periodi più lunghi, come ad esempio 3 minuti, l’accuratezza è arrivata solo al 15%.

I risultati potrebbero sembrare deludenti, ma non è così. Questo piccolo successo fornisce un’ottima base per gli sviluppi futuri dell’intelligenza artificiale predittiva, che potrà pian piano spingersi a predizioni più lunghe e più accurate.

I ricercatori dell'università di Bonn
Il professore Dr. Jürgen Gall e Yazan Abu Farha dell’università di Bonn. Credits: www.elektroniknet.de

Il progetto è stato presentato ufficialmente alla conferenza CVPR (Computer Vision & Pattern Recognition) tenutasi a Salt Lake City in questi giorni.

Un nuovo passo verso il futuro, che ci fa ben sperare per quanto riguarda il campo dell’Intelligenza Artificiale. Se la possibilità di anticipare i crimini sembra ancora molto lontana, gli sviluppi attuali possono essere utilizzati per migliorare, ad esempio, l’intelligenza delle macchine a guida autonoma. E a quanto pare non è lontano il giorno in cui i robot accenderanno i fornelli non appena ci vedranno cercare la pasta nella dispensa.