Crédit photo : Igor Omilaev
Les entreprises de génération IA développent-elles activement leurs modèles musicaux avec les mêmes collections de morceaux protégés par le droit d’auteur ? Et malgré les discussions en cours sur la formation gratuite, ce processus est-il beaucoup plus systématique qu’on nous laisse croire ?
Ces questions et d’autres questions urgentes occupent le devant de la scène à la suite d’un rapport d’enquête d’Alex Reisner de The Atlantic, qui a identifié « quatre ensembles de données géants de chansons partagées au sein de la communauté de développement de l’IA ».
Dès le départ, le présent « être » continu saute aux yeux ici. Dernièrement, avec Udio et Suno se battre pour cacher leurs « numéros d’entraînement », il y a eu de nombreuses spéculations concernant la quantité précise de musique utilisé pour adapter leurs modèles. Mais qu’en est-il de l’étendue de leurs processus de formation active ?
Sans surprise, même à la lumière du rapport mentionné, nous n’avons pas de réponse concrète. Ce rapport a identifié quatre ensembles de données de formation comprenant au total plus de 22 millions d’enregistrements – dont deux collections comptant plus de 100 000 enregistrements chacune, l’une contenant 9,7 millions de chansons et la dernière avec environ 12,3 millions de pistes.
Selon The Atlantic, le deuxième plus grand ensemble de données a été compilé par des chercheurs en IA associés à Sleeping AI ; L’organisation allemande à but non lucratif LAION a publié le plus grand ensemble de données.
Google et Stability AI auraient utilisé des morceaux de l’un des ensembles de données de 100 000 chansons, les Free Music Archive. En raison du « secret de l’industrie autour des données de formation, nous ne savons pas actuellement qui a utilisé les autres » – même si les quatre auraient été « téléchargées des milliers de fois » au total, selon le rapport.
Néanmoins, grâce à un outil de recherche d’ensembles de données, nous savons quelles sorties d’artistes font partie des bibliothèques.
La présence de succès d’acteurs commercialement importants ne sera pas une surprise ; environ 300 morceaux des Beatles se trouvent dans chacun des deux plus grands ensembles de données, tout comme des centaines de chansons de Taylor Swift, ABBA, Snoop Dogg et Michael Jackson, pour n’en nommer que quelques-unes.
À ce titre, on pourrait simplement réitérer que les plateformes musicales IA semblent s’entraîner sur des montagnes de musique protégée et sont aux prises avec plusieurs poursuites judiciaires connexes. Bien que techniquement exacte, la conclusion pourrait cependant ne pas raconter toute l’histoire.
Premièrement, les deux plus grands ensembles de données ne sont pas que grand; à titre de référence, une fois combinés, ils représentent moins de 9 % de la bibliothèque de Spotify, sur la base des spécifications de volume du co-PDG Gustav Söderström et différentes sources.
Nous ne savons pas exactement comment ces ensembles de données ont été assemblés, mais il semble prudent de dire qu’ils n’ont pas été rassemblés au hasard.
Et c’est là que les choses deviennent intéressantes : les ensembles de données contiennent bien plus que de simples hits publiés par des noms connus. Bien que minimisés dans l’article mentionné, nous parlons d’une vaste sélection d’excellente musique produite par des indépendants extrêmement talentueux.
En l’absence de détails sur la manière dont les morceaux ont été choisis, nous ne pouvons que spéculer. Mais ce n’est un secret pour personne que les modèles génératifs nécessitent des chansons de haute qualité (et plus) pour la formation. Et surtout à l’ère du slop de l’IA, toutes les musiques ne sont pas créées égales. Les développeurs se concentrent-ils en particulier sur les sorties fortes d’actes non-majors ?
Compte tenu des preuves disponibles, cela semble être une possibilité. Les morceaux d’entraînement, certains sortis par un artiste indépendant qui plaide déjà contre Suno et Udion’ont probablement pas non plus été sélectionnés en fonction du volume de consommation.
De nombreux professionnels concernés ont un nombre impressionnant d’abonnés au streaming, mais les deux plus grands ensembles de données contiennent également des sorties vieilles de plusieurs années avec environ 100 streams/écoutes chacune – une excellente musique qu’il faudrait presque rechercher pour ses caractéristiques techniques.
Enfin, les ensembles de données ont été rassemblés ou du moins renforcés dans un passé pas si lointain, car ils incluent des projets abandonnés fin 2024.

Leave a Reply