2023-08-02 18:01:22
MADRID, il y a 2 ans. (Portail/EP) –
Méta a créé un outil d’intelligence artificielle (IA) génératif appelé AudioCraft, qui est conçu pour générer de l’audio et de la musique à partir de la saisie de texte et est formé sur des signaux audio bruts.
AudioCraft comprend trois modèles de langage : EnCodec, AudioGen et MusicGen, ce dernier étant celui présenté en juin dernier comme un modèle de langage simple développé sous un modèles à une seule étape de jetons entrelacés efficaces.
Dans ce cas, Meta a rappelé que MusicGen est un modèle formé sur la musique détenue par l’entreprise et spécifiquement sous licence, qui génère de la musique à partir d’une entrée utilisateur basée sur du texte.
AudioGen, pour sa part, formé avec des effets sonores à usage public et générer de l’audio à partir de l’entrée de l’utilisateur basé sur le texte. Enfin, le décodeur EnCodec permet de « générer une musique de meilleure qualité avec moins d’artifices ». Tous ces modèles sont disponibles à des fins de recherche.
Meta a reconnu que si les modèles de langage d’IA générative ont généré du buzz et démontré des “capacités exceptionnelles”, le même intérêt n’a pas été montré pour l’IA générative audio.
Cela pourrait être dû au fait que “la musique est le type d’audio le plus difficile à générer car elle est composée de modèles locaux et à longue portée, d’un ensemble de notes à une structure musicale globale avec plusieurs instruments”, comme il l’a commenté dans l’annonce l’AudioCraft.
Outre le fait que “la musique est le type d’audio le plus difficile à générer car il est composé de motifs à longue portée et locaux”, les approches avec lesquelles sa création a été abordée via l’IA générative ont été “incapable de saisir pleinement les nuances éléments expressifs et stylistiques ».
En ce sens, la famille de modèles AudioCrafy est capable de produire un son de haute qualité avec une cohérence à long terme et offre une interface “naturelle” avec une conception simplifiée pour améliorer l’expérience utilisateur.
Cet outil d’IA génératrice de musique et de son open source, qui offre également une capacité de compression, permet aux utilisateurs de travailler sur la même base de code bien construite que d’autres ont fait.
De cette façon, ces développeurs peuvent étendre ces modèles et les adapter à leurs cas d’utilisation de recherche, pour lesquels Meta offre “des possibilités presque illimitées”, selon ce document.
COMMENT ÇA MARCHE
Meta a reconnu que “la génération d’audio à partir de signaux bruts est un défi”, car elle nécessite la modélisation de séquences “extrêmement longues”. En réponse à ce défi, la société utilise des jetons audio bruts en utilisant EnCodec, qui vous donne un nouveau vocabulaire pour les échantillons de musique.
“Nous pouvons ensuite former des modèles de langage autorégressifs sur ces jetons audio discrets pour générer de nouveaux jetons et de nouveaux sons et musiques en les reconvertissant en espace audio avec le décodeur”, a précisé la société.
La société utilise un seul modèle de langage autorégressif pour modéliser les jetons audio et les tisse ensemble, “modélisant ainsi efficacement les flux audio, capturant simultanément les dépendances à long terme sur l’audio”, lui permettant de générer un son de haute qualité.
AudioGen, quant à lui, génère le son ambiant correspondant à la description du texte, aspect réalistetandis que MusicGen se charge de générer les pistes musicales, qui sont plus complexes que les sons ambiants proposés par AudioGen.
Meta a enfin précisé qu’AudioCraft est un outil open source qui répond à son concept d’innovation responsable, qui “ne peut pas se produire isolément” et doit garantir que tous les chercheurs y ont accès.
#Meta #lance #lIA #générative #AudioCraft #conçue #pour #générer #laudio #musique #partir #texte
1691007463