Dénonciation d'un crime contre l'humanité

samedi 12 octobre 2013

Synthèse sonore de la voix

Extrait


Introduction

La production de la voix se fait en trois étapes. Les poumons compressent de l'air qui est envoyé à travers la trachée. Cet air passe par le larynx qui est composé d'un système de cartilages et de muscles incluant les cordes vocales. Le larynx produit alors un signal d'excitation qui se propage à travers le conduit vocal (bouche, langue, lévres, narines,...). C'est la déformation du conduit vocal qui produit les articulations de la voix.

Le larynx peut produire des signaux d'excitation très différents. Les voyelles par exemple, sont produites par vibration des cordes vocales. L'air forcé à travers les cordes vocales produit un train de quasi-impulsions qui est envoyé dans le conduit vocal. La fréquence de répétition de ces impulsions est essentiellement controlée par la tension des cordes vocales et permet de controler la hauteur du son produit. Dans le cas de la voix parlée cette fréquence est typiquement entre 100Hz et 300Hz. Une soprano peut, quant à elle, ``monter'' jusqu'à 3600Hz.

Le conduit vocal, quant à lui, est bien modélisé par un filtre fréquentiel qui évolue (relativement lentement) en fonction du temps. Ce filtre est composé de plusieursrésonances appelés formants. Chaque formant correspond à un filtre passe bande et est principalement caractérisé par 3 paramètres : la fréquence de résonance(c-à-d., la fréquence la moins atténuée par le filtre), la largeur de bande et l'amplitude.

La production de la voix, comme celle de nombreux sons ou signaux musicaux, est donc souvent représentée par un modèle comportant une source d'excitation et un filtre linéaire, non couplés. Cependant, non seulement cela ne correspond pas vraiment à la réalité physique (dans le cas de la voix, excitation et de résonances ne sont pas totalement découplés) mais les modèles de synthèse excitation-résonance où les deux phénomènes sont couplés s'avèrent plus riches et plus facile à controler. Parmi ce type de modèle, le modèle de synthèse par les Fonctions d'Ondes Formantiques (FOF) est particulièrement performant. Il consiste non plus à modéliser séparément excitation et résonance mais à modéliser directement la sortie d'un formant auquel on a envoyé un série d'impulsions.

Présentation de la synthèse par FOFs

Un train d'impulsions de période T envoyé dans un formant est modélisé en sortie par une successions de fonctions élémentaires ...

Ces fonctions fi(t) sont appelées des FOFs et leur forme spectrale est controlée par 3 paramètres :

: la fréquence de résonance de la FOF,
A : l'amplitude de la FOF et
b qui controle la largeur de bande de la FOF.

La modélisation par FOFs consiste à sommer des FOFs centrés à différents temps et dont les paramètres varient en fonction du temps. Ainsi, par exemple, supposons que l'on cherche à synthétiser le son a chanté par un homme à une fréquence

Dans un premier temps, il faut chercher dans des tables les paramètres des différents formants correspondant au son a d'une voix d'homme, c'est-à-dire le nombre total N de formants

Une impulsion élémentaire de ce son est alors modélisée 

Puis pour synthétiser le son a à la fréquence chanté par un homme pendant une seconde, il suffit de réaliser un train d'ondes avec ces impulsions élémentaires :



Ce type de synthèse est très souple et permet de réaliser très simplement des synthèses complexes d'excellente qualité. Ainsi, par exemple on peut facilement synthétiser une ``phrase musicale'' en faisant évoluer les paramètres des FOFs en fonction du temps ainsi que la fréquence fondamentale de façon à avoir le bon son à la bonne hauteur et au bon moment

En interpolant plus ou moins continument et plus ou moins vite les paramètres d'un premier jeu de formant (correspondant par exemple au son a) vers les paramètres d'un second jeu de formants (correspondant par exemple au son eu), on controle très précisément la transition du a vers le eu. Ce type de synthèse est très puissante et est actuellement utilisée dans de nombreux synthétiseurs


Synthèse des sons élémentaires

Un son élémentaire est un son dont les paramètres formantiques ne varient pas en fonction du temps. Ces sons élémentaires sont définis par la donnée de plusieurs paramètres. L'ensemble de ces paramètres devra au moins contenir les paramètres suivant :

- la durée du son .
- la fréquence fondamentale avec éventuellement une variation aléatoire,

Synthèse des phrases ...

Une phrase ... est une succession de sons élémentaires pour lesquels on spécifie le type de transition pour passer d'un son au son suivant.
( source : enseignement.polytechnique )






Aucun commentaire: