J.A.R.V.I.S

OpenAI e i bot “Hide and Seek”

OpenAI è un’organizzazione no-profit fondata da Elon Musk e Sam Altman nel 2015, con lo scopo di riunire numerosi organi di ricerca da tutto il mondo per collaborare liberamente su progetti di ricerca di intelligenza artificiale.

L’obiettivo principale di questi progetti è testare l’automiglioramento dell’IA, diventando inarrestabile e superando anche l’intelligenza umana che l’ha progettata. Come dichiarato nel sito ufficiale dalla stessa organizzazione, i loro progetti saranno interamente basati su sistemi di intelligenza artificiale vantaggiosi e sicuri.

La maggior parte dei progetti sono sviluppati in Python e sono principalmente per testare il software, mentre “Retro Gym”, tradizionale video-game sviluppato in C. Principalmente le categorie dei software sono due: istruzione per insegnare a chiunque come diventare un esperto di deep learning, piattaforme per insieme di problemi e implementazioni base adatte agli artificial agents. Il progetto “Hide and Seek” che sta avendo un notevole successo, si basa infatti sui dei bot che emulano il gioco infantile nascondino.

Progetto Dexterity: una mano robotica manipola oggetti del mondo attorno con naturale destrezza

Artificial Agents che giocano a nascondino

Col termine Artificial Agents si intende qualcosa che possa percepire l’ambiente circostante attraverso sensori e agire di conseguenza. Nello specifico quelli usati nel progetto “Hide and Seek” sono dei bot, raggruppati in due squadre. Una squadra si nasconde usando ciò che trova nella stanza e l’altra li cerca sfruttando gli stessi oggetti, ma solo la squadra che blocca quel passaggio potrà successivamente sbloccarlo.

Il progetto è nato osservando gli Artificial Agents imparare autonomamente come adattarsi all’ambiente circostante, creando un algoritmo supervisionato in cui le due squadra attuano 6 strategie e controstrategie per giocare a nascondino. L’algoritmo utilizzato è stato l’LSM (Long Short Term Memory networks, una particolarizzazione dell’RNN) a singolo strato.

La squadra che si nasconde ha +1 punto se tutti i nascondigli sono difficili da raggiungere/vedere mentre -1 se c’è anche un solo nascondiglio visibile. La squadra che cerca invece ha +1 punto se trova un nascondiglio e -1 se non vede alcun nascondiglio. Se entrambe le squadre vanno al di fuori dell’area di gioco vengono penalizzate, all’inizio si parte con punteggio zero per entrambe.

In totale si possono avere 6 configurazioni e ognuna porta i partecipanti a creare la situazione per avanzare al livello successivo. Le strategie di gioco non sono implementate ma ogni agente le impara da solo in base al proprio passato di nascondigli e dalla concorrenza di gioco, nonchè dalle semplici dinamiche del gioco di nascondino.

Nella ricerca sono stati sviluppati diversi scenari con un numero crescente di oggetti utilizzabili e componenti delle squadre, differenziati dalle azioni svolte. In entrambi gli step gli agenti hanno imparato come muoversi randomicamente nello spazio, inseguire, muovere gli oggetti e raggirarli, usare delle rampe, coordinarsi. Il livello di gioco degli agenti dipende però anche dall’ambiente circostante e ad esempio il livello rampa si raggiunge solo nel 32k.

Primi risultati del progetto

Il livello raggiunto, al contrario delle aspettative, ha confermato la teoria che un giorno l’intelligenza artificiale potrà raggiungere un comportamento estremamente complesso e intelligente.

Complessivamente si distinguono due classi di agenti, una dal comportamento più umano in grado di costruire nel modo migliore un rifugio. L’altra è invece addestrata con motivazione intrinseca e sposta gli oggetti in modo non indirizzato. La misura delle prestazioni è stata fatta con algoritmi ELO e TrueSkills ma non si ha un miglioramento delle prestazioni o del tempo di convergenza.

Misura delle prestazioni per prova

Per ottenere risultati ancor più soddisfacenti secondo gli sviluppatori bisogna far agire gli agenti in un ambiente più complesso in cui testare meglio le attività svolte e avere il segnale puro. La parte di sviluppo dell’ambiente è il lavoro più diffcile e a causa di bug è possibile che la facilità nello scoprire il nascondiglio sia una diretta conseguenza di ciò.

Ci si pone però una domanda etica: “si potrebbe pensare che gli agenti siano soggetti all’emulazione di sentimenti umani diventando tanto intelligenti da rimpiazzare l’uomo?”. Per questa domanda ancora non esiste una risposta chiara ed è proprio uno degli obiettivi futuri da risolvere e oggetto della ricerca.

Published by

Silvia Sanna