L’Intelligenza Artificiale di Google riesce a creare video a partire da una singola immagine

Il team che lavora alla rete neurale avanzata DeepMind di Google, ha svelato i nuovi progressi raggiunti con una feature molto interessante: chiamata Transframer, consente al software di Intelligenza Artificiale in questione di generare video di 30 secondi a partire da un singolo input sotto forma di immagine. A prima vista può sembrare un piccolo trucco ingegnoso, ma le implicazioni sono molto più grandi di un semplice file .GIF.

intelligenza artificiale

I software di Intelligenza Artificiale sempre più avanzati

In realtà, Transframer è qualcosa di più grande: si tratta di un nuovo framework generico per la modellazione di immagini e attività di visione basate sulla previsione probabilistica del frame. Questo nuovo modello unifica un’ampia gamma di attività, tra cui la segmentazione delle immagini, la sintesi delle viste e l’interpolazione video. Il framwork quindi unifica una vasta gamma di attività dedite alla modellazione e alla visione delle immagini con la capacità di creare video o altre funzionalità a partire da una singola immagine con uno o più frame di contesto.

Presentiamo un framework generico per la modellazione di immagini e compiti di visione basati sulla previsione probabilistica del frame. Il nostro approccio unifica un’ampia gamma di attività, dalla segmentazione delle immagini, alla nuova visualizzazione sintesi e interpolazione video. Abbiniamo questo framework con un’architettura che chiamiamo Transframer, che utilizza componenti U-Net e Transformer per condizionare frame di contesto annotati e sequenze di output di caratteristiche dell’immagine sparse e compresse.

Il modello proposto, su cui si basa quest’Intelligenza Artificiale, ha infatti mostrato risultati promettenti su otto attività in totale, alcune delle quali sono la segmentazione semantica, la classificazione delle immagini e la previsione del flusso ottico. Quello su cui vuole focalizzarsi questo articolo è pero la capacità di Transframer di creare diversi video, anche se a bassa qualità. Il team di ricerca afferma che si tratta di un modello all’avanguardia che dovrebbe essere il più forte e competitivo sulla sintesi di video, e basandosi su poche informazioni può generare video coerenti di 30 secondi a partire da una singola immagine.

Essendo un framework dedito alla previsione visiva, basa il suo funzionamento su una raccolta di immagini di contesto con varie annotazioni associate (timestamp, punti di vista della telecamera, ecc.) e un’annotazione di query, il compito è prevedere una distribuzione di probabilità sull’immagine finale. Questo gli permette di “addestrarsi” e di conseguenza capire come immaginare un oggetto reale e come debba apparire se visto da un’angolazione differente.

Transframer è lo stato dell’arte su una varietà di benchmark di generazione video, è competitivo con il modelli più potenti sulla sintesi della vista a pochi scatti e può generare video coerenti di 30 secondi da una singola immagine senza alcuna geometria esplicita informazione. Un singolo Transframer generalista produce simultaneamente risultati promettenti su 8 compiti, tra cui segmentazione semantica, immagine classificazione e previsione del flusso ottico senza componenti architetturali specifici per attività, dimostrando che la visione artificiale multitasking può essere affrontato utilizzando modelli di immagini probabilistici. In linea di principio, il nostro approccio può essere applicato a un’ampia gamma di applicazioni che richiedono l’apprendimento del struttura condizionale dei dati annotati in formato immagine.

Sviluppi interessanti per DeepMind

Gli sviluppi sono stati annunciati da Google su un proprio blog e pubblicati come paper scientifico da titolo “Transframer: Arbitrary Frame Prediction with Generative Models” il cui abstract recita:

Anche se i video mostrati sono a bassissima risoluzione, si tratta comunque di un modello di AI particolarmente interessante. Riesce infatti a dimostrare una certa capacità nel percepire la profondità e prospettiva degli oggetti per realizzare una serie di immagini che diano un senso di movimento se messe una dietro l’altra. Vengono sicuramente diversi campi d’impiego per questa tecnologia.