Intelligenza artificiale batte un pilota di F-16 in AlphaDogfight

Dagli scacchi al poker, fino ai video deepfake, l’IA sta sbaragliando l’essere umano. Adesso, come se non bastasse, arriva un’altra sconfitta: l’intelligenza artificiale ha battuto un pilota di F-16 in uno scontro tra caccia.

Parliamo ovviamente di una gara virtuale, tenutasi nel terreno del torneo AlphaDogfight organizzato dalla DARPA. L’algoritmo ha battuto 5 a 0 il pilota professionista.

Quando l’intelligenza artificiale batte un pilota di F-16

Chissà cosa si prova ad essere battuti dall’intelligenza artificiale nel campo in cui si hanno anni di esperienza. È questo quello che è successo a un pilota dell’esercito americano, sconfitto dall’IA in una gara tra caccia.

L’AlphaDogfight è un torneo indetto dalla DARPA (Defense Advanced Research Projects Agency) con l’obiettivo di individuare il miglior sistema di intelligenza artificiale in campo militare. Dopo diversi match tra IA, l’algoritmo della software house Heron System ha avuto la meglio e si è trovato ad affrontare un pilota in carne e ossa nel round finale.

Il pilota, da poco diventato istruttore e con più di 2000 ore di combattimenti sul campo, non ha potuto fare altro che accettare la sconfitta schiacciante di 5 a 0. I due contendenti si sono sfidati in cinque diversi scenari con manovre base di combattimento. Ogni volta l’IA è stata in grado di eseguire le manovre corrette e abbattere il pilota.

L’AlphaDogfight si colloca all’intero del programma ACE (Air Combat Evolution) della DARPA, che mira a migliorare il combattimento autonomo in aria, sollevando i piloti da più task possibili.

“In uno scontro aria-aria un singolo pilota umano potrebbe aumentare la letalità gestendo più piattaforme autonome contemporaneamente” ha spiegato un referente dell’agenzia americana. “Ciò cambierebbe il ruolo dell’essere umano da semplice operatore a comandante di missione”.

Il sistema di simulazione AlphaDogfight, nel quale l'intelligenza artificiale ha sconfitto un pilota di f-16. Credits: Daily Express — Il sistema di simulazione AlphaDogfight, nel quale l’intelligenza artificiale ha sconfitto un pilota di f-16. Credits: Daily Express

“L’umano si concentra su ciò che sa fare meglio, come il pensiero strategico” ha detto Timothy Grayson di fronte alla paura del tramonto degli umani nel pilotare gli aerei, “e l’IA gestisce il resto come si trattasse di un’arma evoluta“. Una collaborazione e non un’esclusione, quindi.

Il reinforcement learning

Dietro l’intelligenza artificiale vincitrice c’è uno specifico approccio di apprendimento chiamato reinforcement learning o apprendimento per rinforzo. Tra i paradigmi principali di apprendimento automatico assieme a quelli supervisionato e non supervisionato, questa tecnica viene utilizzata per problemi di natura decisionale-sequenziale.

Questo particolare processo di addestramento si basa sul concetto di premio: l’algoritmo studia l’ambiente dove si trova, in cui ogni azione fatta da un agente ne modifica lo stato e causa un feedback. Se il feedback è positivo viene assegnato un premio (valore reale positivo), mentre se è negativo si assegna una penalità (valore reale negativo). Per misurare il grado di successo di un’azione rispetto a un obiettivo si usa una funzione di rinforzo.

Schema del funzionamento dell'apprendimento di rinforzo. Credits: andreamimini.com — Schema del funzionamento dell’apprendimento di rinforzo. Credits: andreamimini.com

La funzione lavora sull’ambiente esterno rappresentandolo come un vettore di caratteristiche. Un ambiente, ad esempio, può avere tre caratteristiche binarie: x1 = pioggia, x2 = nuvole, x3 = vento. La combinazione di questi valori dà origine al vettore con i diversi stati in cui si può trovare l’ambiente. Scopo dell’agente è massimizzare la funzione di rinforzo.

Poiché le decisioni di ogni step dipendono da quelle prese precedentemente il sistema ha bisogno di “ricordare”. La memoria è rappresentata dalla Knowledge base, nella quale si associa un certo valore numerico ad ogni stato Xi. L’agente, quindi, ripeterà nel tempo solo le azioni più profittevoli.

I dati raccolti vengono usati per generalizzare il modello decisionale in modo da fare delle scelte anche per gli stati in cui non il sistema non si è mai trovato. Le scelte vengono prese per “somiglianza” rispetto a uno stato profittevole già sperimentato.

Tags: IA, machine learning, simulazione