Common Voice: Mozilla Italia dà il via al nuovo contest

Dopo un primo contest sperimentale di Common Voice, Mozilla Italia torna con un nuovo concorso all’interno del progetto per la raccolta di registrazioni vocali. L’obiettivo è promuovere l’iniziativa di Mozilla anche per la lingua italiana, arricchendo un database open-source, collaborativo e pubblico. A giovarne sarebbero molti ambiti, tra i quali quello dell’accessibilità, ancora troppo poco considerato e sviluppato.

Common Voice: il progetto Mozilla

Common Voice rientra nell’iniziativa di Mozilla volta a migliorare il settore del riconoscimento vocale digitale. Il progetto fornisce un database pubblico di registrazioni vocali, scaricabili e utilizzabili in vari sistemi di machine learning che lavorano nell’ambito dello speech recognition. La capacità di sfruttare tecnologie in grado di comprende il linguaggio naturale fornisce numerosi vantaggi, velocizzando e automatizzando molti processi.

L’iniziativa è nata nel 2017 e si tratta di un progetto di crowdsourcing per la costruzione di un database pubblico e gratuito di registrazioni. Per sviluppare software di speech recognition, infatti, è necessario avere accesso ad una grande ed eterogenea quantità di dati vocali da usare come training per gli algoritmi di learning. Uno dei principali problemi nel reperimento delle registrazioni, però, è l’assenza di una base dati ben fornita: la maggior parte dei set disponibili, infatti, sono proprietari e quindi a pagamento; da qui l’idea open-source di Mozilla.

L’interfaccia di ascolto di una delle frasi registrate e in attesa di convalida. Fonte: Libreadvice

Il progetto richiede di “fornire la propria voce” per costruire un database vocale così da permettere agli sviluppatori di creare sistemi sempre più precisi. Ci sono due modi per contribuire (gratuitamente) al progetto: parlare e ascoltare. Nel primo caso si registra un breve testo fornito da Mozilla e si invia la registrazione in una coda d’ascolto: il pezzo sarà poi ascoltato da altri utenti e sarà valutata l’accuratezza della lettura. Se almeno due utenti validano la clip questa sarà aggiunta al dataset condiviso. Se, invece, la registrazione viene bocciata da due collaboratori, questa viene inserita nel cosiddetto “cimitero delle registrazioni”, che rimane comunque accessibile pubblicamente. Nel secondo caso il contributo avviene tramite l’ascolto, diventando validatori delle frasi lette e promuovendo o bocciando le clip audio.

Il contest di Mozilla Italia

Se i database di lingue come l’inglese, il francese e il tedesco sono molto forniti, lo stesso non possiamo dire per l’italiano. Il Common Voice Corpus 6.1, l’ultima versione del dataset, possiede infatti ben 56GB di dati per la lingua inglese, contro soli 5GB per la nostra lingua. Tra le caratteristiche che determinano la bontà di un dataset, oltre alla quantità di dati, c’è la diversità delle registrazioni. Oltre al sesso e l’età è importante effettuare il training anche sui diversi accenti degli utenti, soprattutto in un paese come l’Italia in cui le inflessioni dialettali sono molto marcate ed eterogenee.

Per questo motivo Mozilla Italia ha indetto un concorso al fine di promuovere il progetto Common Voice e rimpinguare il database italiano. Il contest è iniziato da una settimana e ha già raccolto 20 ore di registrazioni, con 35 collaboratori registrati. Partecipare è molto semplice: dopo aver scaricato l’app Donate your voice: CV Project (solo su PlayStore per Android 6+) e aver creato un account, occorre andare su Impostazioni -> Avanzate e cliccare su Mostrami la riga che mi identifica nell’app, poi fare uno screenshot del proprio ID utente e inviarlo agli organizzatori. Questa procedura va poi ripetuta al termine del contest. Per tutta la durata dell’evento ogni convalida fa acquisire 1 punto, mentre ogni registrazione 2 punti. I primi 20 classificati che avranno totalizzato più punti riceveranno gadget e magliette.

Common Voice, iniziativa di Mozilla per la creazione di un database di registrazioni vocali. Fonte: Mozilla Italia

Avere libero accesso a un dataset multilingua e di grandi dimensioni è indispensabile per migliorare la tecnologia del riconoscimento vocale. Gli strumenti a supporto dell’innovazione devono però essere di qualità facilmente accessibili da tutti, così che ognuno possa dare il suo contributo e velocizzare i nuovi sviluppi. Arricchire il dataset significa facilitare il lavoro di ricercatori, studenti e chiunque voglia fornire il proprio apporto al miglioramento delle tecnologie per il riconoscimento vocale.

Tags: machine learning, mozilla, speech recognition