Come funziona Sora, la nuova frontiera della generazione video di OpenAI

L’intelligenza artificiale sta entrando in una nuova era: quella della simulazione del mondo fisico in movimento. Tra i pionieri di questo progresso tecnologico c’è Sora di OpenAI, un modello di intelligenza artificiale che promette di rivoluzionare il modo in cui generiamo i video.

Un passo avanti nell’IA: Sora spiega le ali

Come annunciato sul sito ufficiale di OpenAI, Sora non è solo un modello di generazione di testo-a-video; è un ambizioso progetto che si propone di insegnare all’intelligenza artificiale a comprendere e simulare il mondo fisico in movimento. Ciò apre porte precedentemente chiuse a problemi reali che richiedono interazione nel mondo fisico, con un obiettivo chiaro: aiutare le persone a risolvere complessi quesiti pratici.

Caratteristiche principali di Sora

Qualità Visiva e Adesione ai Prompt: Sora può generare video fino a un minuto mantenendo una qualità visiva eccellente e aderendo strettamente alle indicazioni degli utenti.
Feedback Professionale: Attualmente disponibile per i red teamer per valutare aree critiche per rischi o danni, Sora è anche accessibile a un numero selezionato di artisti visivi, designer e cineasti, con l’obiettivo di raccogliere feedback per migliorare il modello a beneficio dei professionisti creativi.
Ricerca Aperta: La condivisione precoce dei progressi nella ricerca ha lo scopo di collaborare e ricevere feedback da persone esterne a OpenAI, offrendo al pubblico un’anteprima delle capacità AI all’orizzonte.

La principale concorrente di Sora

Gen 2 di Runway è la principale concorrente di Sora, anch’essa una tecnologia all’avanguardia nel campo dell’intelligenza artificiale generativa, specializzata nella crezione di video partendo da input testuali, immagini o video. Questa piattaforma si distingue per la sua capacità di interpretare e trasformare vari tipi di input in contenuti video dinamici e personalizzabili, abbracciando modalità creative come testo in video, testo e immagine in video, e immagine in video.

Alla prima occhiata, potrebbe sembrare che Sora abbia un vantaggio netto su Gen 2. Tuttavia, sarà necessario attendere che Sora sia disponibile al pubblico per poter effettuare un confronto oggettivo e basato su criteri solidi. Questa valutazione permetterà di comprendere appieno le capacità e le prestazioni di entrambi i sistemi in contesti reali di utilizzo.

Un’accuratezza mai vista prima d’ora

Prompt: A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.

Dai video disponibili possiamo notare come Sora sia capace di generare scene complesse con più personaggi, tipologie di movimento specifiche, e dettagli accurati di soggetto e sfondo. I video condivisi da OpenAI accompagnati dal promp che li ha generati testimoniano la potenza di questo nuovo strumento. Una cosa sulla quale si sofferma OpenAI è che il modello non solo comprende ciò che viene chiesto tramite il prompt, ma anche come questi elementi esistono nel mondo fisico. In particolare, OpenAI risalta due caratteristiche:

Comprensione del Linguaggio: Il modello ha una profonda comprensione del linguaggio, permettendogli di interpretare i prompt in modo accurato e generare personaggi che esprimono emozioni vibranti.
Persistenza Visiva: Sora può creare più inquadrature all’interno di un singolo video generato, mantenendo con accuratezza i personaggi e lo stile visivo.

Le sfide di Sora

Nonostante le sue notevoli capacità, Sora presenta alcune limitazioni:

Simulazione Fisica: Potrebbe incontrare difficoltà nel simulare accuratamente la fisica di una scena complessa, come nel caso di un biscotto morso che non mostra il segno del morso.
Dettagli Spaziali e Temporali: Il modello potrebbe confondere i dettagli spaziali, come invertire sinistra e destra, e lottare con descrizioni precise di eventi che si svolgono nel tempo.

Sicurezza e innovazione: i passi avanti di Sora

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

Mentre Sora apre nuove frontiere nella generazione di video tramite intelligenza artificiale, la sicurezza rimane un pilastro centrale nella sua evoluzione, secondo quanto dichiarato dall’azienda sviluppatrice. OpenAI intraprende misure di sicurezza cruciali prima di rendere Sora disponibile nei propri prodotti, affrontando proattivamente le sfide legate alla disinformazione, ai contenuti d’odio e ai bias.

Collaborazioni strategiche per la sicurezza e strumenti innovativi per la veridicità dei contenuti

Seconod OpenAI, la collaborazione con red teamers (professionisti della sicurezza informatica specializzati nell’imitare gli attacchi contro i sistemi informatici di un’organizzazione per valutarne la sicurezza e le difese.), esperti in vari domini come la disinformazione, i contenuti d’odio e i pregiudizi, è un passo fondamentale. Questi professionisti sono incaricati di testare il modello in modo avversario, assicurando una valutazione critica delle sue capacità e delle potenziali aree di rischio.

OpenAI sta sviluppando strumenti dedicati a rilevare contenuti fuorvianti, incluso un classificatore di rilevamento capace di identificare i video generati da Sora. In futuro, si prevede di includere metadati C2PA nei prodotti OpenAI che utilizzano Sora, migliorando ulteriormente la trasparenza e la sicurezza.

Tecniche di sicurezza ereditate e nuove

Le metodologie di sicurezza sviluppate per DALL·E 3 (lo strumento text-to-image disponibile nella suite di ChatGPT plus) trovano applicazione anche in Sora, integrando nuove tecniche preparatorie per il suo impiego. Una volta integrato in un prodotto OpenAI, un classificatore di testo esaminerà e rifiuterà i prompt di testo che violano le politiche d’uso, come richieste di violenza estrema o contenuti sessuali. Classificatori d’immagine avanzati revisioneranno ogni frame video generato, assicurando l’adesione alle linee guida d’uso prima della sua presentazione all’utente.

L’engagement con policymaker, educatori e artisti a livello mondiale è essenziale per comprendere le preoccupazioni e identificare casi d’uso positivi per questa nuova tecnologia. Nonostante una ricerca e testing estensivi, è impossibile prevedere tutte le modalità benefiche o dannose con cui la nostra tecnologia verrà utilizzata. Per questo, imparare dall’uso nel mondo reale è considerato un componente critico per la creazione e il rilascio di sistemi AI sempre più sicuri nel tempo.

Tecniche di ricerca e sviluppo di Sora

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Sora si avvale di un modello di diffusione, che inizia con un video simile a rumore statico e lo trasforma gradualmente rimuovendo il rumore in molti passaggi. Capace di generare video interi in una volta o estendere video esistenti, Sora sfrutta un’architettura transformer simile ai modelli GPT, garantendo prestazioni di scalabilità superiori.

Rappresentando video e immagini come collezioni di unità di dati più piccole, chiamate patch, simili ai token in GPT, Sora unifica il modo in cui rappresentiamo i dati. Questo consente l’addestramento su una gamma più ampia di dati visivi, abbracciando diverse durate, risoluzioni e rapporti d’aspetto. Basandosi sulla ricerca precedente in DALL·E e modelli GPT, Sora rappresenta un fondamento per modelli capaci di comprendere e simulare il mondo reale, una pietra miliare verso il raggiungimento dell’AGI (intelligenza generale artificiale).

L’avvento di Sora segna un importante passo avanti nella generazione di contenuti visivi attraverso l’intelligenza artificiale. Mentre le sfide rimangono, la strada intrapresa apre a nuove possibilità creative e professionali, promettendo di trasformare il panorama della produzione video. Non ci resta che attendere la versione disponibile al pubblico in modo da verificare le potenzialità di questo nuovo strumento.