lundi 27 août 2012

Synthèse vocale

Formants

La synthèse par formant repose typiquement sur la description des trois premiers formants du spectre de la parole. Chaque formant (maximum du spectre de parole) est classiquement décrit par trois paramètres, sa fréquence (en Hz), son amplitude (en dB) et sa bande passante (en Hz). L'amplitude représente l'intensité du signal à la fréquence du formant tandis que la bande passante représente la largeur du spectre autour du maximum formantique.

Intonation et prosodie

L'intonation constitue l'un des trois éléments de la prosodie, les deux autres paramètres prosodiques étant le rythme et l'intensité. En fait, pour être perçue comme naturelle, la synthèse vocale nécessite d'imiter une prosodie naturelle dans son ensemble. Ceci nécessite de reproduire aussi un rythme naturel, c'est-à-dire une durée naturelle des sons élémentaires (phonèmes). Quant à l'intensité, qui correspond aussi au volume sonore, elle est beaucoup moins critique que l'intonation ou le rythme pour obtenir un rendu naturel.

On entend par intonation d'une phrase le parcours mélodique de la voix pendant la prononciation de la phrase. L'intonation se mesure par la fréquence fondamentale de la voix. C'est une fréquence variable au cours du temps correspondant à la fréquence de vibration des cordes vocales pendant l'énonciation de la phrase, et qui s'observe aisément comme la périodicité du signal vocal. Typiquement la fréquence fondamentale d'une voix masculine possède une plage de variation dans la zone des 80 Hz à 150 Hz tandis que celle d'une voix féminine se situera plutôt dans la zone des 140 Hz à 200 Hz.
( source : Wikipédia )

Aucun commentaire: