Musixmatch: l'IA ad hoc per Sanremo

Musixmatch è una startup italiana, precisamente di Bologna, fondata nel 2010 offrendo un ampio servizio su tutte li i sistemi operativi. Grazie ai milioni di utenti, la piattaforma offre testi per canzoni da visualizzare anche in background. Può essere utilizzato anche come player musicale e ogni utente può creare o condividere i testi delle canzoni.
Nelle ultime ore Musixmatch sta avendo molto successo grazie al recente lavoro di creazione di brani in stile Sanremo da parte di un’IA.

Nel 2019 Musixmatch ha condotto uno studio sulla correlazione tra testi/audio con le emozioni indotte dalla canzone. Le analisi effettuate comprendono studi di Natural Language Processing e Music Information Retrieval.

Dettagli dello studio NLP/MIR

La processazione tramite testo è avvenuta usando 3 diverse tecniche:

fast-Text: per ottenere una rappresentazione fissa. Ogni parola ha una dimensione di incorporamento pari a 300. Si calcola la media di tutti gli incorporamenti presenti nella parola e gli n-grammi che compaiono nell’input. Sono state utilizzate singolarmente GRU e LSTM, una versione bidirezionale di entrambi e infine l’aggiunta di un layer per la classificazione basata sull’attenzione
ELMo: applicazione di due diverse metodiche per estrarre gli incorporamenti. Il primo ELMo+LSTM che comprende la somma pesata dei layer nascosti e due layer densi finali per la predizione del task. Il secondo ELMo+DENSE in cui il testo si rappresenta a dimensione fissa 1024, calcolando la media tra tutte le parole in modo da ottenere un unico vettore delle feature. E’ presente inoltre un layer finale con rate 0.2 seguito da due layer densi per la predizione.
BERT: rappresentazione linguistica pre-addestrata. Ogni token della frase è stato rappresentato fino al penultimo livello nascosto, scartando l’ultimo poiché conteneva il livello di bias con cui la rete era stata precedentemente addestrata.

La classificazione basata sull’audio è avvenuta tramite rete neurale convoluzionale (CNN), solitamente usati in ambiti Computer Vision. I brani dati in input hanno durata di 30s campionate in un unico campione da 12kHz.
Il primo layer è il Mel-Spectrogram che da in output il mel-spectrograms in 2D con bande a 128mel e normalizzazione delle frequenze. Succesivamente sono presenti 5 blocchi convoluzionali 2D comprendente una normalizzazione, attivazione ELU e la ricerca del massimo alla fine di ognuno.

Illustrazione dell’intero processo del progetto NLP/MIR

Il dataset utilizzato è basato sulla sincronizzazione attiva testo-audio effettuata da ogni utente. Sia per la parte di train che per quella di test il gruppo si è affidato al lavoro svolto dalla piattaforma Amazon Sagemaker.

I classificatori di testo hanno ottenuto punteggio maggiore nella classificazione delle emozioni. Per quanto riguarda l’audio, separando la voce voce dagli strumenti, grazie all’utilizzo di WaveNet di Google, si ottiene una classificazione più accurata.

Grazie a questo studio abbiamo le basi per la classificazione dei testi in base alle emozioni che susciterebbero, studiando semplicemente audio (voce e musica) e testo.

Il nuovo studio sanremese

Il nuovo studio di Musixmatch riguarda la creazione di brani da parte di un’intelligenza artificiale. L’addestramento è avvenuto utilizzando tutti i brani che hanno partecipato al Festival di Sanremo dal 1951 al 2019, avendo così numerosi e svariati generi musicali.

La rete neurale è stata in grado di creare nuovi brani (solo dal punto di vista testuale) inediti ma interamente appartenenti alla linea sanremese. Questa rete è basata sul modello GPT-2: cattura le caratteristiche linguistiche e il significato del brano.

Attualmente il modello ha generato solo 20 testi inediti e non ripetitivi tra loro sull’amore, tristezza, amicizia, paura, felicità, litigio, rabbia, libertà. In questi testi spiccano delle frasi molto naturali come: “Ho fatto il mio viaggio con te in questo film”, “È una questione di sguardi che si perdono dentro una canzone”. Passaggi nonsense: “Noi che abbiamo ancora da fare, noi che siamo come isole di vita e di quel dolore che fa volare, noi che come le rondini”. Immagini infantili “Ho un grande amore che mi porti qui, è come un fiore che porti qui”. Frasi involontariamente comiche: “E le nostre corse come in bici in ascensore”, “Quando il vento soffia sulle tue parole si ferma sulle tue zie”. Queste frasi sono state riportate in un articolo di RollingStones condiviso dal Chief di Musixmatch Loreto Parisi.

In realtà questi brani non sono pochi vista la poca quantità di testi con cui la rete è stata addestrata. Attualmente il team cerca di espandere il dataset in modo da avere risultati ancora migliori. Certo non si potrà sostituire la capacità umana di un paroliere ma molte volte questi algoritmi potranno essere di grande aiuto.

Questo esperimento non è stato il primo di questo genere, infatti il direttore di Musixmatch Loreto Parisi ha partecipato a un lavoro di tesi nella creazione di testo rap da parte di un’intelligenza artificiale. Il rapper e dottorando Curtis Northcutt ha prodotto la versione cantata del progetto.

Tags: intelligenza artificale, musica, Natural Language Processing