La Disney, regno dell’immaginazione e della fantasia, ha svelato in questi giorni l’ambizioso progetto a cui sta lavorando: un robot dallo sguardo umano, capace di sbattere le palpebre e guardarci negli occhi.
Dietro il robot ci sono gli ingegneri migliori del comparto di ricerca e sviluppo di Disney, al lavoro sugli Animatronics. Un progetto che vuole dare l’ “illusione della vita”, sfruttando l’IA per realizzare un robot che sappia individuare una persona nella stanza e osservarla.
Per quanto un robot sia realistico nell’aspetto e nel linguaggio, l’essere umano è fatto di gestualità e impercettibili movimenti che lo distinguono da un automa. Dietro il lavoro degli ingegneri di Disney c’è proprio questa idea, assieme alla volontà di creare un’interazione uomo-robot più realistica basata sullo scambio di sguardi.
I ricercatori della sezione Walt Disney Imagineering Research & Development si occupano di progettare e costruire le attrazioni dei parchi a tema della compagnia, compresi gli Animatronics utilizzati negli show dei parchi. Per far sì che l’esperienza sia più immersiva e autentica gli ingegneri si sono focalizzati sugli occhi dei robot e su come possano osservare le persone in modo realistico.
Nel paper ufficiale rilasciato dal team di ricerca gli ingegneri descrivono l’architettura e l’algoritmo usato per raggiungere l’obiettivo. Del robot oggetto di studio i ricercatori si sono concentrati sui movimenti del collo, degli occhi, delle palpebre e delle sopracciglia. Per quanto riguarda la percezione delle persone si è usata una camera Mynt Eye D-1000, con un range di visibilità fino a 10 metri e una visione di 105° orizzontalmente e 50° verticalmente.
Il motore di percezione usato dalla videocamera utilizza una tecnica di skeleton fitting che ha alla base il software wrnch di computer vision. Questo viene usato per fornire alle applicazioni la capacità di individuare e comprendere i movimenti, le forme e le intenzioni delle persone. La tecnica si concentra su dei punti di interesse della persona, quali ad esempio gli occhi, il naso, le spalle, le anche e le ginocchia. I movimenti di questi punti sono registrati dalla camera del robot come frame di riferimento.
L’architettura utilizzata è formata da 3 livelli: il motore dell’attenzione, quello di selezione del comportamento e la libreria dei comportamenti. Tutti i componenti comunicano bidirezionalmente tra di loro e sono alla base dell’animazione del robot.
Il primo motore identifica gli stimoli provenienti dall’ambiente, in questo caso concentrandosi solo su quelli delle persone e dai loro punti di interesse. Ogni persona nell’ambiente ha un valore numerico assegnato che la distingue dalle altre, e un valore di curiosità che indica quanto è significativa e interessante la sua azione. Ad esempio, una persona che agita la mano per salutare è considerata più importante di altre azioni minori. La valutazione viene fatta principalmente sulla velocità del movimento dei punti di interesse. Ad ogni punto, movimento o feature dell’ambiente viene dato un peso, utilizzato nella funzione usata dal motore.
Il motore di behavior selection invece lavora a più alto livello, definendo in quale stato si trova il robot. Quello di default è il read, durante il quale analizza gli stimoli attorno a lui. Lo stato di glance si attiva quando c’è uno stimolo ambientale abbastanza forte, ma non troppo da attivare lo stato di engage. Se nel primo dei due il robot si limita a osservare una particolare sorgente (persona), nel secondo c’è una vera e propria osservazione e una reazione di sguardo da parte del robot. Infine, lo stato di acknowledge permette al robot di identificare la persona come famigliare e quindi di riconoscerla.
Infine, la behavior library definisce tutte le azioni e i movimenti del robot in risposta agli stimoli e agli stati in cui si trova. Nella libreria esistono degli show objects, ovvero dei gruppi di comandi che definiscono un’azione del robot. Questi oggetti sono poi organizzati in livelli di comportamenti, che vanno da quelli più semplici (con meno animazioni e movimenti) a quelli di più alto livello, nei quali vengono fatte azioni complesse quali direzionare la testa verso lo stimolo, alzare le sopracciglia per indicare un certo livello di attenzione o annuire.
La ricerca degli ingegneri Disney mira a rendere più reale l’interazione uomo-robot, aggiungendo anche la comunicazione non verbale. Il sistema di sguardi, infatti, rende più immersiva l’esperienza, aumentando il coinvolgimento emotivo della persona.
L’ottica in cui è stata svolta la ricerca riguarda principalmente gli show che si tengono nei parchi Disney, dove viene fatto ampio uso degli Animatronics. Attualmente questi robot svolgono azioni ripetitive, per quanto fluide, e che non si discostano da movimenti prefissati.
Introducendo una percezione più profonda dell’ambiente e la capacità di guardare oltre che soltanto vedere si aumenterebbe il coinvolgimento della narrazione, immergendo gli spettatori ad un livello più profondo.