Natural Language Processing è quella branca dell’informatica che si occupa degli algoritmi di interpretazione del linguaggio naturale (linguaggio umano):
Avete presente quando Cortana o Siri interpretano quello che gli dite? Ecco.
Se da una parte qualche settimana fa Google con AlphaGo ha superato uno dei grossi limiti dell’IA nel General Game Playing, il progresso dell’IA in quest’ambito è estremamente rallentato.
Natural Language processing
Il linguaggio umano è composto da varie forme di comunicazione:
testuale, vocale, gestuale, micro-espressiva facciale, cinestesica, ecc..
Per ora, la maggior parte della ricerca in ambito di NLP si è concentrata sul linguaggio testuale e vocale.
Ogni forma di linguaggio ha un significato letterale e un significato semantico, che dipende dalla situazione e dagli interlocutori.
La maggior parte dei problemi dell’interpretazione del linguaggio umano emergono proprio dal significato semantico che associamo ad esso: questo significato dipende da un’infinità di variabili, che vanno dalla cultura che possediamo agli ultimi eventi avvenuti nella nostra vita.
Il Sarcasmo
Il sarcasmo è una delle forme retoriche più complesse da interpretare a livello informatico:
Per essere compreso, necessita che gli interlocutori siano a conoscenza di una stessa informazione, al quale la frase sarcastica si riferisce.
In termini informatici questo complica la faccenda:
Se la maggior parte dei problemi relativi al NLP è stato affrontato solo da un punto di vista linguistico, in questo caso si tratta di capire il contesto in cui una frase è collocata.
Rilevamento contestualizzato del sarcasmo su Twitter.
Una fonte inesauribile per le ricerche in ambito psicologico, sociologico e linguistico è proprio Twitter. Ogni secondo vengono postati migliaia di Tweet, molti della quale sarcastici.
I ricercatori David Bamman e Noah A. Smith hanno di recente lavorato a una ricerca molto importante, per riconoscere il sarcasmo non solo linguisticamente (procedimento complesso ed efficace solo al 70%) ma contestualizzando i Tweet.
Un Tweet come questo è evidentemente sarcastico, e lo capite perchè state leggendo questo articolo, citato nel Tweet e viceversa. Ma senza contesto, è difficile, in termini informatici e linguistici, capire il sarcasmo del tweet.
Una delle tecniche usate finora è quella di cercare rafforzativi tipici del sarcasmo, ad esempio “mi piace davvero tantissimo” o simili. Ma questo risulta inefficace, perchè non sempre il sarcasmo in una frase è così accentuato.
I due ricercatori hanno allora creato dei vari livelli di ispezione del Tweet: si passa dal controllare l’audience e le risposte, all’analizzare i Tweet precedenti e successivi dello stesso autore.
In questo modo, si possono trovare informazioni utili che possono essere decisive nell’etichettatura del tweet.
Raccolti i dati, si giunge infatti alla conclusione che più si aumentano le informazioni di contesto, e più accuratezza avrà il riconoscimento.
Infatti, unendo le informazioni sull’audience, sulle risposte, e sull’autore ed i suoi tweet precedenti, si è arrivati ad un’accuratezza dell’85%.
Non solo sarcasmo
Ovviamente, questo approccio non sarà utile solo nel riconoscimento del sarcasmo, ma con qualsiasi figura retorica che preveda la pre-condivisione di un’informazione tra gli interlocutori, o il riferimento esplicito alla situazione vissuta in quel momento.
Capire il contesto è fondamentale per capire la semantica di una frase, ma non solo, questo approccio dovrà essere applicato anche per capire altre forme di comunicazione:
per il linguaggio del corpo, ad esempio, sarà infatti necessario contestualizzare ogni gesto.
Leggi anche: I robot ci leggeranno nel pensiero entro 10 anni.