Classification en temps réel de techniques extrêmes de distorsions vocales utilisées dans le heavy métal


Date : 2022
Auteur : Modan TAILLEUR
Directeur(s) de mémoire : Laurent Millot & Julien Pinquier

Son

Résumé :

Les techniques de saturation vocale sont très communément employées par les chanteurs de musique metal, particulièrement dans les sous-genres les plus extrêmes.

De multiples techniques peuvent être utilisées au sein d’un même morceau par les chanteurs.

Ces techniques peuvent bénéficier de traitements radicalement différents de la part des ingénieurs du son, traitements qui sont particulièrement difficiles à mettre en oeuvre lors de performances live. Ce mémoire constitue une étude préliminaire au développement d’un plug-in qui permettrait de détecter en temps réel différentes techniques extrêmes de saturation vocale, et de rediriger le signal vers des bus de traitement adaptés à chaque technique. Après avoir présenté une nouvelle taxonomie des chants extrêmes saturés, plusieurs méthodes de Machine Learning sont explorées à partir d’enregistrements de voix de 27 chanteurs et chanteuses de metal : le perception multicouche, la forêt d’arbres décisionnels, et la classification naïve bayésienne. Lors de ce travail, de nouveaux descripteurs acoustiques nommés DAFCC (Data Adjusted Frequencies Cepstral Coefficients) ont été élaborés afin de s’adapter au mieux aux données du problème. Ces descripteurs sont directement inspirés des MFCC. L’extraction des DAFCC, comparée à celle des MFCC, permet de passer d’une précision de 74,5% à une précision de 75,5% tout en réduisant le temps de calcul de l’algorithme. En créant des modèles personnalisés pour chaque sous-genre du heavy metal, la précision atteint un score variant entre 77,9% et 96,4%. Ces scores de précision, obtenus à partir du perceptron multicouche exploitant des trames de 1024 échantillons, montrent beaucoup de potentiel pour le développement futur d’un programme susceptible de fonctionner en temps-réel.

 

Mots-clés : voix chantée, distorsion vocale, rugosité vocale, DAFCC, MLP, temps-réel.

 

 

Abstract:  Vocal distortion techniques are very commonly used by metal singers, especially in the more extreme sub-genres. Singers can sometimes use multiple techniques within the same piece of music. These techniques can be processed very differently by the sound engineers, and using different sound effects on each technique can be particularly difficult to implement during live performances. This master’s thesis is a preliminary study for the development of a plug-in that would be able to detect in real time different extreme vocal distortion techniques, and to redirect the signal to processing buses adapted to each technique. After presenting a new taxonomy of extreme distorted vocals, several Machine Learning methods are explored based on voice recordings of 27 metal singers : the multilayer perceptron, the random forest, and the Gaussian Naive Bayes classification. In this work, new acoustic features named DAFCC (Data Adjusted Frequencies Cepstral Coefficients) were developed in order to best fit the data. These descriptors are directly inspired by the MFCC. The extraction of DAFCCs, compared to MFCCs, leads to an improvement of the accuracy while reducing the computation time of the algorithm. The accuracy is 74.5% with the use of MFCCs, and 75.5% with the use of DAFCCs. By creating custom models for each heavy metal sub-genre, the accuracy scores range from 77.9% to 96.4%. These accuracy scores, obtained from the multilayer perceptron using 1024 sample frames, show a lot of potential for the future development of a program able to perform in real-time.

 

Keywords: singing voice, vocal distortion, vocal roughness, DAFCC, MLP, real-time.

Lire le mémoire


Lien vers document PDF

Mémoires similaires