J.A.R.V.I.S

MusicLM: Intelligenza Artificiale genera musica dal testo

Raise of the machines in music - artificial intelligence, robot, cyborg concept

Abbiamo già parlato a lungo di intelligenze artificiali nell’ulitmo periodo. Alcune hanno risolto esami universitari con un livello pari a quello di un umano. Altre generato immagini a partire da un input di testo, altre ancora aiutato nella diagnostica per le immagini. Ora, Google ha presentato MusicLM, un modello di intelligenza artificiale in grado di generare qualsiasi tipo di musica a partire da testo. Tuttavia, il gigante della tecnologia ha scelto di non rendere pubblicamente disponibile il sistema a causa di problemi etici.

Il sistema di intelligenza artificiale MusicLM

Se ve lo avessero detto anni e anni fa forse non ci avreste creduto. Un computer che produce musica a partire da una descrizione in forma testuale sa molto di futuro distopico. Un futuro che però non immaginavamo potesse arrivare così presto.

L’abstract del paper recita così:

Introduciamo MusicLM, un modello per la generazione di musica ad alta fedeltà da descrizioni di testo, come “una rilassante melodia di violino accompagnata da un riff di chitarra distorto”. MusicLM lanica il processo di generazione di musica condizionale come un’attività di modellazione gerarchica da sequenza a sequenza e genera musica a 24 kHz che rimane coerente per diversi minuti. I nostri esperimenti mostrano che MusicLM supera i sistemi precedenti sia in termini di qualità audio e rispetto delle descrizioni testuali. Inoltre, dimostriamo che MusicLM può essere influenzato sia dal testo che da una melodia in quanto può trasformare tracce fischiate e canticchiate secondo lo stile descritto in una didascalia testuale.

Il team di autori

Caretteristiche dell’algoritmo

Sebbene MusicLM non sia il primo sistema di intelligenza artificiale generativa per la musica, è il primo a creare canzoni con “alta fedeltà”. L’algoritmo può produrre canzoni che abbiano senso per le descrizioni di “sostanziale complessità”; ovviamente dopo essere stato addestrato su un set di dati di 280.000 ore di musica.

Il sistema può, come detto, basarsi su melodie esistenti, siano esse fischiate, canticchiate, cantate o suonate su uno strumento. Può anche prendere una serie di descrizioni scritte in sequenza e trasformarle in una “storia” musicale o narrativa, secondo i ricercatori di Google.

Cosa interesante è che MusicLM può produrre musica dalla combinazione di un’immagine e una didascalia. Oppure può creare musica che viene “suonata” da un certo tipo di strumento in uno stile particolare. Sebbene però il sistema possa sintetizzare tecnicamente le voci, i risultati sono tutt’altro che ideali e presentano problemi come campioni distorti.

Nonostante ciò molti continuano ad essere sorpresi dagli esiti rilasciati dall’intelligenza artificiale di Google. Come afferma un utente su Twitter, “Sono impressionato nel vedere che la qualità della voce generata automaticamente è aumentata! Sembra reale ma in una lingua straniera”.

A questo link è possibile ascoltare le creazioni dell’intelligenza artificiale di Google (una repo di GitHub). Dalle composizioni brevi a quelle più lunghe, passando per le descrizioni più complicate, fino all’accoppiata immagini e didascalia.

Il problema del copyright

La difficoltà principale per Google è la possibilità che MusicLM utilizzi dati di addestramento che contengono materiale protetto da copyright nelle canzoni prodotte. I ricercatori infatti, hanno scoperto in un esperimento che l’1 % della musica prodotta dal sistema copiava direttamente le canzoni d’addestramento.

Qundi, come accennato nell’introduzione, la cifra è abbastanza alta da trattenere Google per un eventuale rilascio del sistema. Per ovviare a ciò, i ricercatori hanno evidenziato la necessità di maggiori sforzi futuri per affrontare tali pericoli legati alla generazione di musica. Proprio perchè ci potrebbe essere appropriazione indebita di contenuti creati con il sistema.

Non è la prima volta che la musica generata da intelligenaza artificiale da vita a problemi di natura legale. Difatti, una società afferente all’artista Jay-Z ha presentato reclami per violazione di copyright contro Vocal Synthesis nel 2020. L’accusa era quella di aver utilizzato l’intelligenza artificiale per produrre interpretazioni di Jay-Z su canzoni come “We Didn’t Start the Fire” di Billy Joel.

È necessario garantire che la musica generata dall’intelligenza artificiale possa essere utilizzata in modo equo sia per i compositori che per gli utenti. Uno strumento che si può utilizzare per creare canzoni con l’intelligenza artificiale è invece Canva, il suo tool di ultima generazione ti permette di comporre canzoni e suoni così da sfogare la tua creatività.

L’industria deve affrontare queste sfide etiche e legali man mano che la tecnologia dell’IA si sviluppa. Tuttavia, potrebbe volerci del tempo prima che ci sia una certa chiarezza su come i tribunali decideranno sull’uso della musica generata dall’intelligenza artificiale.

Published by

Antonio Aversano