Dénonciation d'un crime contre l'humanité

mardi 20 juillet 2010

La synthèse vocale

La synthèse vocale

  1. La voix

    On considère que la voix humaine est le résultat d'une modification continuelle par le conduit vocal du signal émis par trois types de sources sonores:

    • une source voisée, qui correspond à la vibration des cordes vocales et se présente sous la forme d'un signal quasi-périodique,
    • une source fricative, qui correspond aux turbulences engendrées par les rétrécissements en certains points du conduit buccal (lèvres, langue-palais, glotte), et
    • une source plosive qui correspond au bruit d'explosion engendré par la fermeture puis l'ouverture brusque du conduit buccal avec les lèvres ou la langue.

    On peut modéliser la production de voix chantée par un modèle de synthèse sonore du type excitateur-résonateur:

    • l'excitateur correspond aux cordes vocales et définit le timbre de la voix; il est modélisé par une impulsion ou un arc.
    • le résonateur correspond au conduit vocal et définit la voyelle chantée; il est modélisé par un jeu de filtres en parallèle pour constituer une enveloppe spectrale comprenant des formants.

    Sur la figure ci-dessus, on peut observer le spectre de l'onde émise par les cordes vocales avant et après filtrage par le conduit vocal.

  2. Les formants

    Un formant est un « pic » d’amplitude dans le spectre d’un son composé de fréquences harmoniques, inharmoniques et/ou du bruit. Ci-contre est représenté un formant centré sur la fréquence 1 kHz.

    Les pics formantiques sont caractéristiques des sons vocaux voisés (voyelles chantées, parlées ou murmurées) et de plusieurs instruments de musique.

    Une voyelle est produite en imposant une position particulière aux différents articulateurs (lèvres, langue, ...). Le conduit vocal présente des fréquences de résonance, ce qui se manifeste dans le spectre en l'apparition de pics formantiques.

    La position des formants est indépendante de la hauteur (fréquence fondamentale) et est caractéristique d'une voyelle particulière, comme l'illustre la figure ci-contre donnant le spectre de trois sons voisés ("I", "A", "OU").

    Mais il faut aussi préciser que la position des formants pour une même voyelle peut différer d'un locuteur (ou chanteur) à l'autre. La figure ci-dessous donne l'enveloppe spectrale de la voyelle "a" chantée par une chanteuse soprano à gauche et par un chanteur à tessiture basse à droite. On peut en effet remarquer que les enveloppes spectrales différent, surtout dans les plus hautes fréquences, alors que la voyelle chantée est la même.

    Les analyses spectrales rapportent aussi que de quatre à cinq formants importants sont présents dans tous les spectres de voix.

    Il est donc possible de simuler un timbre de voix chantée si on peut générer ces zones formantiques. Nous étudierons la méthode FOF (Forme d’Onde Formantique) développée à l’Ircam dans les années 80.

    Le manuel Csound comprend une annexe donnant les valeurs des paramètres des formants (fréquence centrale, amplitude et largeur de bande) pour différentes voyelles et différentes tessitures de voix. Ce tableau se trouve également sur la page Web suivante: Formants Values.

  3. Les transitions de formants des consonnes plosives

    Considérons maintenant les consonnes plosives (ou occlusives). Les consonnes plosives sourdes (non voisées) sont : /p/, /t/ et /k/. Les consonnes plosives sonores (voisées) sont: /b/, /d/ et /g/.

    La figure ci-contre représente le spectrogramme simplifié pour les syllabes /di/ et /du/. On remarque les transitions de formants au moment où la consonne plosive dentale /d/ est prononcée. La trajectoire du premier formant est montante. C'est aussi le cas pour les consonnes plosives voisées labiale /b/ et gutturale /g/.

    Dans le cas de la syllabe /di/, la trajectoire du second formant est montante, approximativement de 2200 à 2600 Hz.

    Dans le cas de la syllabe /du/, la trajectoire du second formant est descendante, approximativement de 1200 à 700 Hz.

    On comprend donc que le spectre d'une consonne dépend du contexte. En réalité, la transition de formant fournit à tout instant de l'information sur les deux phonèmes constituant la syllabe (la consonne et la voyelle).

    La figure suivante illustre les transitions de formant caractéristiques pour les syllabes /ba/, /da/ et /ga/ ainsi que des sons intermédiaires.

    ba_da_ga.mp3

    Cette démonstration permet d'illustrer la perception catégorielle des sons de la parole. En effet, la transition entre /ba/ et /da/ et la transition entre /da/ et /ga/ apparaissent brusquement. On ne perçoit pas de consonne intermédiaire. Par contre, si on isole le deuxième formant, les sons entendus ne sont plus perçus comme des sons vocaux et toutes les transitions intermédiaires sont entendues distinctement.

    ba_da_ga_2eformant.mp3

    En pratique, pour synthétiser un /b/, peu importe la voyelle ou presque, il suffit de partir de la fréquence du formant divisée par deux, et de parcourir le chemin avec une enveloppe exponentielle, en environ 100 ms.

    Le tableau ci-dessous donne la représentation spectrographique schématique de transitions voyelle-consonne-voyelle.

    Pour en savoir plus sur la phonétique, consultez par exemple le site web du Laboratoire de Phonétique et Phonologie de l'Université Laval à Québec. Sur ce site, la page intitulée "Identification des sons du français" comprend notamment des tableaux donnant les caractéristiques acoustiques des différents phonèmes du français.

  4. La synthèse à forme d’onde formantique (FOF)

    La synthèse à forme d'onde formantique est à la base du système de synthèse sonore CHANT développé à l'IRCAM. Cette technique a été implantée dans les synthétiseurs 4X (1980) et dans Csound en 1990 par J. M. Clarke.

    CHANT a été conçu pour modéliser une classe large de mécanismes naturels qui résonnent quand ils sont excités, et qui sont atténués par des forces physiques (de friction par exemple).

    La méthode FOF part des méthodes de synthèse à formants basée sur une approche soustractive traditionnelle. En synthèse soustractive, une source à spectre large (comme un train d'impulsions ou un signal de bruit) est envoyé au travers d'un filtre complexe qui en modifie le contenu spectral pour faire apparaître des formants.

    Xavier Rodet (Ircam) a montré que les filtres complexes utilisés en synthèse soustractive peuvent être décomposés en un ensemble équivalent de filtres passe-bande en parallèle excités par des impulsions.

    Comme les FOFs ont une nature duale, une implantation alternative consiste à remplacer les filtres par une banque de générateurs d'ondes sinusoïdales amorties. Le signal temporel et le spectre de ces générateurs sont équivalents à ceux générés par des filtres passe-bande excités par des impulsions, comme illustré sur la figure ci-dessous (Rappel : la réponse en fréquence d'un filtre est la transformée de Fourier de sa réponse impulsionnelle).

    Le signal produit par un générateur FOF est appelé grain formantique ou grain FOF.

    D'après Rodet, remplacer les filtres par des générateurs offre plusieurs avantages : les générateurs sinusoïdaux sont efficaces et requièrent moins de précision numérique que les filtres correspondants. De plus, les grains formantiques peuvent être progressivement changés en sinusoïdes (contrôlables en amplitude et en fréquence) permettant une transition continue entre de la synthèse FOF et de la synthèse additive.

    On peut facilement valider ce concept de grain formantique en se tapant sur la joue avec un doigt, ce qui a pour effet de faire résonner la cavité buccale. Cette impulsion produit un "pop". À la manière des cordes vocales qui génèrent une série d'impulsions rapides pour exciter les résonances du conduit vocal d'une manière continue (résultant en un son à hauteur déterminée), la synthèse FOF produit des grains de son au rythme de la fréquence fondamentale désirée, ces grains étant "colorés" spectralement, de manière à reproduire les résonances formantiques.

  5. Anatomie et paramètres d'un grain FOF

    Un générateur FOF produit un grain de son à chaque période fondamentale. À 440 Hz par exemple, 440 grains sont produits par seconde. Chaque note contient donc un grand nombre de grains. Puisque la durée de chacun de ces grains est indépendante de la fréquence fondamentale, plusieurs grains pourront se superposer. Ceci implique que les FOFs à fréquence élevée sont plus onéreux à générer.

    Un grain formantique est constitué d'une onde sinusoïdale amortie, d'une durée fixe, avec une attaque plus ou moins raide et une atténuation quasi-exponentielle. L'enveloppe temporelle d'un grain FOF est appelée l'enveloppe locale, en opposition à l'enveloppe globale de la note.

    Le spectre d'une sinusoïde amortie est équivalent à la réponse en fréquence d'un filtre passe-bande. Le résultat de la somme de plusieurs générateurs FOF est donc un signal dont le spectre comprend plusieurs formants.

    Chaque générateur FOF est contrôlé par un certain nombre de paramètres, incluant la fréquence fondamentale et l'amplitude. La figure suivante illustre les quatre paramètres de formant principaux, dans le domaine temporel à gauche (a) et dans le domaine fréquentiel à droite (b).

    • x1 est la fréquence centrale du formant,
    • x2 est la largeur de bande du formant, définie comme la largeur de bande entre les points à -6 dB par rapport à la crête du formant,
    • x3 est l'amplitude du formant,
    • x4 est la largeur de jupe du formant qui se situe à -40 dB par rapport à la crête du formant.

    Les liens entre domaine temporel et domaine fréquentiel se manifestent dans la manière dont les paramètres FOF sont spécifiés. En effet, deux paramètres du formant (x4 et x2) sont spécifiés dans le domaine temporel.

    • x4 est spécifié en secondes pour la durée de l'attaque. Si l'attaque s'allonge, la jupe du formant se rétrécit.
    • x2 est également spécifié en secondes pour la durée de l'atténuation du grain FOF. Une longue atténuation se traduit en un pic de résonance étroit .

Aucun commentaire: