L’intelligenza artificiale sta entrando in una nuova era: quella della simulazione del mondo fisico in movimento. Tra i pionieri di questo progresso tecnologico c’è Sora di OpenAI, un modello di intelligenza artificiale che promette di rivoluzionare il modo in cui generiamo i video.
Come annunciato sul sito ufficiale di OpenAI, Sora non è solo un modello di generazione di testo-a-video; è un ambizioso progetto che si propone di insegnare all’intelligenza artificiale a comprendere e simulare il mondo fisico in movimento. Ciò apre porte precedentemente chiuse a problemi reali che richiedono interazione nel mondo fisico, con un obiettivo chiaro: aiutare le persone a risolvere complessi quesiti pratici.
Gen 2 di Runway è la principale concorrente di Sora, anch’essa una tecnologia all’avanguardia nel campo dell’intelligenza artificiale generativa, specializzata nella crezione di video partendo da input testuali, immagini o video. Questa piattaforma si distingue per la sua capacità di interpretare e trasformare vari tipi di input in contenuti video dinamici e personalizzabili, abbracciando modalità creative come testo in video, testo e immagine in video, e immagine in video.
Alla prima occhiata, potrebbe sembrare che Sora abbia un vantaggio netto su Gen 2. Tuttavia, sarà necessario attendere che Sora sia disponibile al pubblico per poter effettuare un confronto oggettivo e basato su criteri solidi. Questa valutazione permetterà di comprendere appieno le capacità e le prestazioni di entrambi i sistemi in contesti reali di utilizzo.
Dai video disponibili possiamo notare come Sora sia capace di generare scene complesse con più personaggi, tipologie di movimento specifiche, e dettagli accurati di soggetto e sfondo. I video condivisi da OpenAI accompagnati dal promp che li ha generati testimoniano la potenza di questo nuovo strumento. Una cosa sulla quale si sofferma OpenAI è che il modello non solo comprende ciò che viene chiesto tramite il prompt, ma anche come questi elementi esistono nel mondo fisico. In particolare, OpenAI risalta due caratteristiche:
Nonostante le sue notevoli capacità, Sora presenta alcune limitazioni:
Mentre Sora apre nuove frontiere nella generazione di video tramite intelligenza artificiale, la sicurezza rimane un pilastro centrale nella sua evoluzione, secondo quanto dichiarato dall’azienda sviluppatrice. OpenAI intraprende misure di sicurezza cruciali prima di rendere Sora disponibile nei propri prodotti, affrontando proattivamente le sfide legate alla disinformazione, ai contenuti d’odio e ai bias.
Seconod OpenAI, la collaborazione con red teamers (professionisti della sicurezza informatica specializzati nell’imitare gli attacchi contro i sistemi informatici di un’organizzazione per valutarne la sicurezza e le difese.), esperti in vari domini come la disinformazione, i contenuti d’odio e i pregiudizi, è un passo fondamentale. Questi professionisti sono incaricati di testare il modello in modo avversario, assicurando una valutazione critica delle sue capacità e delle potenziali aree di rischio.
OpenAI sta sviluppando strumenti dedicati a rilevare contenuti fuorvianti, incluso un classificatore di rilevamento capace di identificare i video generati da Sora. In futuro, si prevede di includere metadati C2PA nei prodotti OpenAI che utilizzano Sora, migliorando ulteriormente la trasparenza e la sicurezza.
Le metodologie di sicurezza sviluppate per DALL·E 3 (lo strumento text-to-image disponibile nella suite di ChatGPT plus) trovano applicazione anche in Sora, integrando nuove tecniche preparatorie per il suo impiego. Una volta integrato in un prodotto OpenAI, un classificatore di testo esaminerà e rifiuterà i prompt di testo che violano le politiche d’uso, come richieste di violenza estrema o contenuti sessuali. Classificatori d’immagine avanzati revisioneranno ogni frame video generato, assicurando l’adesione alle linee guida d’uso prima della sua presentazione all’utente.
L’engagement con policymaker, educatori e artisti a livello mondiale è essenziale per comprendere le preoccupazioni e identificare casi d’uso positivi per questa nuova tecnologia. Nonostante una ricerca e testing estensivi, è impossibile prevedere tutte le modalità benefiche o dannose con cui la nostra tecnologia verrà utilizzata. Per questo, imparare dall’uso nel mondo reale è considerato un componente critico per la creazione e il rilascio di sistemi AI sempre più sicuri nel tempo.
Sora si avvale di un modello di diffusione, che inizia con un video simile a rumore statico e lo trasforma gradualmente rimuovendo il rumore in molti passaggi. Capace di generare video interi in una volta o estendere video esistenti, Sora sfrutta un’architettura transformer simile ai modelli GPT, garantendo prestazioni di scalabilità superiori.
Rappresentando video e immagini come collezioni di unità di dati più piccole, chiamate patch, simili ai token in GPT, Sora unifica il modo in cui rappresentiamo i dati. Questo consente l’addestramento su una gamma più ampia di dati visivi, abbracciando diverse durate, risoluzioni e rapporti d’aspetto. Basandosi sulla ricerca precedente in DALL·E e modelli GPT, Sora rappresenta un fondamento per modelli capaci di comprendere e simulare il mondo reale, una pietra miliare verso il raggiungimento dell’AGI (intelligenza generale artificiale).
L’avvento di Sora segna un importante passo avanti nella generazione di contenuti visivi attraverso l’intelligenza artificiale. Mentre le sfide rimangono, la strada intrapresa apre a nuove possibilità creative e professionali, promettendo di trasformare il panorama della produzione video. Non ci resta che attendere la versione disponibile al pubblico in modo da verificare le potenzialità di questo nuovo strumento.