Modelli Bayesiani per la comprensione del linguaggio umano
Cercare di trarre conclusioni e teorie sul mondo è un aspetto chiave dell’intelligenza umana. Tale facoltà si manifesta principalmente nello sviluppo storico della scienza, ma anche nella cognizione quotidiana e lo sviluppo infantile. Un obiettivo chiave sia per l’intelligenza artificiale che per le scienze cognitive comportamentali è quindi lo sviluppo di metodi per capire il processo di inferenza.
Ricercatori del MIT e Cornell University, insieme a quelli della McGill, hanno in questo senso studiato il problema della scoperta teorica guidata dall’IA. Grazie allo sviluppo di Modelli Bayesiani, hanno utilizzato il linguaggio umano come banco di prova.
La scelta del linguaggio per allenare i Modelli Bayesiani
I linguaggi umani sono notoriamente complessi, e i linguisti hanno a lungo pensato che una macchina non potesse analizzare suoni del discorso e strutture delle parole. Non come possono i ricercatori umani almeno.
Ma allora perchè dare in “pasto” e testare il modello di intelligenza Artificiale con fonemi e grammatica?
Un assistente professore di computer science alla Cornell University, lead autor dello studio, ha risposto:
Una delle motivazioni di questo lavoro è stato il desiderio di studiare sistemi che apprendano modelli di insiemi di dati rappresentati in modo comprensibile per gli esseri umani. Invece dei pesi, il modello può imparare espressioni o regole? E volevamo vedere se potevamo costruire questo sistema in modo che imparasse su un’intera batteria di insiemi di dati interconnessi, per far sì che imparasse un po’ di cose su come modellare meglio ciascuno di essi.
Kevin Ellis
In pratica, attraverso questo prototipo di IA, i ricercatori possono studiare ipotesi linguistiche. E anche indagare sulle sottili somiglianze nel modo in cui lingue diverse trasformano le parole. La sua particolarità risiede nel fatto che gli esseri umani possono comprendere facilmente i modelli scoperti grazie ad esso. Questo perché il sistema acquisisce tali modelli (schemi, regole) da piccole quantità di dati, come poche decine di parole.
Invece di utilizzare un’enorme serie di dati per un singolo compito, l’IA utilizza molte piccole serie di dati. Cosa più vicina al modo in cui gli scienziati propongono le ipotesi: esaminano più serie di dati correlati e propongono modelli per spiegare i fenomeni.
Il materiale utilizzato e le caratteristiche dell’uso dei modelli bayesiani
Gli scienziati, per lo sviluppo di un sistema capace di imparare uno schema da più set dati, hanno scelto l’interazione tra fonologia e morfologia. In particolare, hanno testato e allenato il modello attraverso problemi presi da libri di testo di linguistica con 58 lingue differenti.
Ogni problema presentava una serie di parole e i corrispondenti cambiamenti di forma delle parole. Il modello ha fornito una serie di regole corrette per descrivere i cambiamenti di forma delle parole nel 60% dei problemi.
Cioè, date delle parole ed esempi di come queste parole cambiano per esprimere diverse funzioni grammaticali (come il tempo, il caso o il genere) in una lingua, questo modello di apprendimento automatico elabora delle regole che spiegano perché le forme di quelle parole cambiano. Per esempio, può imparare che la lettera “a” deve essere aggiunta alla fine di una parola per rendere femminile la forma maschile in serbo-croato.
Per la costruzione dell’IA in grado di apprendere un insieme di regole per l’assemblaggio delle parole, (grammatica), i ricercatori hanno utilizzato una tecnica di apprendimento automatico che fa uso di modelli bayesiani. Con questa tecnica, il modello risolve un problema scrivendo un programma per computer.
Dividi et Impera
In questo caso, il programma è la grammatica che il modello ritiene sia la spiegazione più probabile delle parole e dei significati in un problema linguistico. Il modello è stato costruito utilizzando Sketch, un popolare sintetizzatore di programmi sviluppato sempre al MIT.
Ma Sketch può richiedere molto tempo per ragionare sul programma più probabile. Per ovviare a questo problema, come fatto per i dataset, i ricercatori hanno fatto lavorare il modello un pezzo alla volta, scrivendo un piccolo programma per spiegare alcuni dati, poi scrivendo un programma più grande che modifica il piccolo programma per coprire altri dati, e così via.
Ciò che riserva il futuro
Il modello ha spesso trovato soluzioni inaspettate. In un caso, ha scoperto la risposta di un problema in lingua polacca, ma anche un’altra risposta corretta che sfruttava un errore del libro di testo. Questo dimostra che il modello è in grado di fare debug di analisi linguistiche, in un certo senso.
I ricercatori hanno anche condotto dei test dimostrando che il modello era in grado di apprendere alcune regole fonologiche che potevano essere applicate a tutti i problemi. Imparando da una lingua all’altra e suggerendo due cose. C’è bisogno di metodi migliori per imparare tra i vari problemi e se non si riesce a trovare questi metodi, questo lavoro può aiutare a sondare le diverse idee su quali conoscenze condividere per risolverli.
Nonostante gli eccezionali progressi gli studiosi non hanno ancora capito, quale sia il bias induttivo che permette a un linguista di accettare le grammatiche plausibili e di rifiutare quelle ridicole.