J.A.R.V.I.S

Meta e il Machine Learning: data2vec impara da testi, audio e discorsi

Che Meta ormai riscuota l’interesse di tutti è risaputo. Perlomeno da un punto di vista di marketing la mossa di Zuckerberg ha sortito gli effetti sperati. Inevitabile, quindi, che ogni nuova attività della sua azienda assuma connotati ancora più affascinanti e innovativi di quanto non siano nella realtà. All’interesse che l’azienda suscita di per sé, si aggiunge l’appeal che ha il settore su consumatori e aziende. Non è casuale che questo mercato dell’AI sia fortemente in crescita negli ultimi anni, pandemia a parte.

Chiaramente però, tra il molto fumo inizia ad esserci anche molto arrosto. Alcune iniziative hanno riscosso già tanto successo, basti pensare al guanto tattile lanciato per la realtà virtuale, in grado di toccare e percepire (nel vero senso della parola) il tatto nel metaverso.

Com’è logico, inoltre, quando un’azienda colossale come quella di Zuckerberg rivolge la propria attenzione ad un campo specifico, si avranno molti follower (è il caso di dirlo) che puntano ad esplorare questi nuovi mercati. Compreso il funzionamento ma soprattutto le potenzialità del metaverso, molti hanno iniziato ad investirci (un caso interessante è sicuramente Sandbox). E in tanti, Meta compresa, danno molto peso al Machine Learning.

Machine Learning: cos’è e come si articola

Un breve ripasso o introduzione per chi non ne ha mai sentito parlare o ha conoscenze distorte può essere utile per aggiornarsi sulla situazione attuale. Il Machine Learning (ML) è una branca dell’informatica in forte diffusione in quanto consente ad una macchina “intelligente” di imparare, migliorando le proprie abilità e prestazioni nel tempo sfruttando l’esperienza pregressa.

Fino ad oggi, sono stati individuati tre meccanismi che consentono alle macchine di apprendere:

  • apprendimento supervisionato: alla macchina sono forniti esempi pratici e dati strutturati sui quali la macchina trarrà le conclusioni corrette se avrà un numero adeguato di esempi da cui partire. Più precisamente, alla macchina sono forniti dati etichettati. Questo significa che gli output attesi sono già noti perché appunto precedentemente catalogati. Se ad esempio vogliamo che la macchina distingua cosa è un cane, possiamo “insegnare dall’alto” a distinguere cosa è un cane e cosa no. In tal caso, la macchina apprende e la volta successiva riuscirà da sola a distinguere un cane dagli altri animali. In genere questa tipologia è utilizzata per previsioni su dati incerti o futuri;
  • apprendimento non supervisionato: in questo caso l’apprendimento è completamente autonomo. Non si potrà contare qui su una variabile nota relativa all’output. Tornando all’esempio di prima, non vi sarà alcuna guida iniziale che indicherà come distinguere un cane dal resto degli animali. Piuttosto, l’algoritmo stesso inizia a separare le immagini ricevute in base alle differenze che riesce ad individuare, creando subset di dati. Così si riesce a impostare la categorizzazione dei dati futuri;
  • deep learning: probabilmente il più noto dei tre, “l’apprendimento profondo” si ispira alle funzioni del cervello adoperando le reti neurali. Esse sono costituite da più componenti, detti neuroni, che “imitano” i neuroni del nostro cervello. Le reti dati degli input restituiscono un numero N di output. Questi output a loro volta vengono riusati come input per calcolare nuovi output, e così via. Dopo aver aggregato più layer (livelli) viene prodotto l’output finale vero e proprio. In genere, si adopera il termine deep learning quando una rete neurale ha almeno due layer intermedi.
    Gli algoritmi di apprendimento sono ordinati gerarchicamente in ordine crescente di complessità e astrazione. Viene costruita una gerarchia in cui ogni livello di astrazione viene creato grazie alla conoscenza acquisita al livello precedente. Un esempio può essere l’addestramento di un sistema che giochi efficacemente a scacchi. Inizialmente l’algoritmo farà delle mosse completamente casuali. Non appena compirà una mossa corretta (che può essere rappresentata, nell’esempio considerato, dall’aver “mangiato” la pedina avversaria) riceverà un feedback positivo. Quindi, quella mossa assumerà un peso maggiore e un rinforzo positivo su quell’azione (si parla altresì di apprendimento per rinforzo). Viceversa, qualora il sistema effettui una mossa negativa. Nel tempo, si riuscirà ad affinare parecchio la sua abilità nel gioco degli scacchi e, più in generale, ne beneficeranno qualità e performance.

Data2vec, l’algoritmo di Meta per il machine learning ad apprendimento auto-supervisionato

Tra le innovazioni del settore, data2vec è stato presentato da Meta in antitesi a ciò che conoscevamo sul machine learning. Ovvero, la maggior parte delle macchine impara da dati etichettati. Gli attuali sistemi sono carenti in termini di attività multitasking in quanto sfruttano algoritmi monouso.

Ecco, data2vec punta ad andare oltre. Attraverso l’apprendimento auto-supervisionato (o autogestito) ad alte prestazioni si riesce a sfruttare la struttura di immagini, testo e audio. Cioè si riesce a comprendere il tipo di modello che caratterizza il set di dati. Così si riesce ad affrontare una sfida complessa: la comprensione dei discorsi, non solo in quanto tali ma anche per più lingue parlate. In sostanza, il principio di comprensione del mondo circostante.

Dato che le fonti di input alla macchina sono diverse (testo, audio, immagini per l’appunto) è sempre stato necessario un approccio ad hoc ad ognuna delle fonti in ingresso. Pertanto, le ricerche sono sempre state “limitate” nell’ampiezza del loro raggio di azione. Nel concreto, una persona oggi riesce a distinguere un animale sia se ne vede la foto, sia se ascolta una sua fedele descrizione. Cosa che le macchine ad oggi non riescono a fare. Non sono ancora in grado di svolgere entrambi i processi in simultanea.

Il vantaggio competitivo di data2vec

Data2vec di Meta ha costruito un solido vantaggio competitivo rispetto ai competitor nel campo del machine learning. Ovviamente, ci stiamo riferendo al lato prettamente tecnico (inutile sottolineare i vantaggi che afferiscono all’azienda, quali marketing, forza del brand, canali di comunicazione, e così via).

Il vantaggio che innalza la proposta di Zuckerberg rispetto al resto è l’aver unificato i vari modelli sotto un unico algoritmo, cosicché esso possa lavorare tranquillamente con dati di input completamente differenti.

Questo fattore competitivo è nato utilizzando due reti neurali. La rete neurale maestra viene addestrata sui dati in ingresso in modo che la volta successiva riesca a comprendere se ciò che sta ricevendo è un testo, un’immagine o altro. L’altra rete neurale si occupa della previsione delle rappresentazioni interne di quella maestra, quindi non necessita di adattarsi al tipo di dati in input.

Cosa si potrà fare in futuro?

Tengono già da adesso banco le ormai note questioni sull’etica dell’intelligenza artificiale. Soprattutto se essa imparerà effettivamente dall’ambiente circostante, con molte zone grigie che si presenterebbero su privacy e sicurezza.

Considerando il lato prettamente tecnico, se le premesse saranno rispettate, sarà un primo passo per far comprendere alle macchine il mondo circostante. Se così fosse, gli scenari di applicazione sarebbero innumerevoli. Alcuni forse ad oggi inimmaginabili.

Tutto ciò sarà sicuramente integrato negli occhiali AR. Quindi, la macchina potrà imparare ricette sempre nuove e suggerirti ingredienti o indicarti se ne stai dimenticando qualcuno. Oppure potrà essere applicata ancora più attivamente al mondo del calcio. Già le figure di Analyst hanno preso la ribalta anche nella galassia sportiva, figuriamoci se si avrà a disposizione un algoritmo del genere.

Oltre questi banali esempi, è evidente come, essendo più adattabile delle macchine attuali, potrà non solo svolgere molte più funzioni complesse di quelle che riescono a svolgere le altre macchine, ma anche funzionare in contesti completamente inimmaginabili. Ad oggi.

Articolo a cura di Nicolò Bonaccorso

Published by
Redazione