banner
Centro notizie
Offriamo prezzi imbattibili senza sacrificare la qualità.

Meta AudioCraft: generatore di musica AI basato su istruzioni di testo

Aug 18, 2023

Di Todd Spangler

Redattore digitale di New York

Meta ha rilasciato AudioCraft, un nuovo set di strumenti di intelligenza artificiale per generare ciò che il gigante della tecnologia afferma essere "audio e musica realistici e di alta qualità da testo" - ad esempio, producendo una sequenza musicale basata sulla stringa di testo "DJ set reggae elettronico giamaicano .”

"Immaginate che un musicista professionista sia in grado di esplorare nuove composizioni senza dover suonare una sola nota su uno strumento", afferma Meta in un post sul blog su AudioCraft. "Oppure un piccolo imprenditore che aggiunge facilmente una colonna sonora al suo ultimo annuncio video su Instagram."

AudioCraft è composto da tre modelli: MusicGen (per la musica), AudioGen (per gli effetti sonori) ed EnCodec (un decoder AI generativo). MusicGen è stato addestrato su circa 400.000 registrazioni insieme a descrizioni di testo e metadati, per un totale di 20.000 ore di musica di proprietà di Meta o concessa in licenza appositamente per questo scopo, secondo il colosso della tecnologia. "Le tracce musicali sono più complesse dei suoni ambientali e generare campioni coerenti sulla struttura a lungo termine è particolarmente importante quando si creano nuovi brani musicali", afferma l'azienda.

"Con ancora più controlli, pensiamo che MusicGen possa trasformarsi in un nuovo tipo di strumento, proprio come i sintetizzatori quando apparvero per la prima volta", ha affermato la società nel post sul blog.

Meta ha condiviso una clip di come suona la musica generata da MusicGen. Oltre al riff reggae, gli esempi includono "Scena di un film in un deserto con percussioni", "Elettronica anni '80 con ritmi di batteria", "Jazz strumentale, tempo medio, pianoforte vivace" e "Molto hip-hop, scratching in vinile, deep basso":

Nel frattempo, Meta ha affermato che AudioGen è stato addestrato sugli “effetti sonori pubblici” e può generare suoni ambientali ed effetti sonori come l’abbaiare di un cane, il suono del clacson di un’auto o i passi su un pavimento di legno. La società ha anche rilasciato quella che viene definita una versione migliorata del decoder EnCodec, "che consente la generazione di musica di qualità superiore con meno artefatti".

L’azienda sta rilasciando i modelli AudioCraft come codice open source, spiegando che l’obiettivo è quello di fornire “a ricercatori e professionisti l’accesso in modo che possano addestrare i propri modelli con i propri set di dati per la prima volta e aiutare a far avanzare il campo dell’intelligenza artificiale generata”. audio e musica."

Meta ha riconosciuto che i set di dati utilizzati per addestrare i modelli AudioCraft mancano di diversità: in particolare, il set di dati musicali utilizzato “contiene una porzione più ampia di musica in stile occidentale” ed è limitato a coppie audio-testo con testo e metadati scritti in inglese. "Condividendo il codice per AudioCraft, speriamo che altri ricercatori possano testare più facilmente nuovi approcci per limitare o eliminare potenziali distorsioni e usi impropri dei modelli generativi", ha affermato la società.