Automne
1998

Sommaire
des projets



Dominique BIGOT (GM01) - Patrice CHARBONNIER (GM01) - Samuel GUILBERT (TC03)


I. LE SIGNAL DE LA PAROLE
       1. De l'organe aux sons
       2. Les limites de cet outil

II. SYNTHÉTISEURS VOCAUX
       1. L'évolution des dispositifs
       2. La prosodie
       3. Notre système : le synthétiseur vocal

III. APPLICATIONS DU SYNTHÉTISEUR
       1. Situations possibles
       2. Apprentissage
       3. Dans le futur

CONCLUSION

BIBLIOGRAPHIE




I. LE SIGNAL DE LA PAROLE


1. De l'organe aux sons

a. Anatomie des organes phonatoires

Remarque : la parole est une fonction surajoutée. En effet, la langue et les lèvres servent principalement à manger et à avaler, les poumons et la trachée servent à la respiration. C'est l'évolution vers la parole qui a parallèlement impliqué le développement de différentes structures telles la langue et les lèvres.

b. Production du signal de parole (son très élaboré)

Le son, pour être produit, a besoin d'un support : l'air. Cet air est envoyé des poumons dans le larynx et passe par les cordes vocales. Ce sont elles qui vont convertir cette énergie en bruits audibles. Puis le mouvement des lèvres, de la langue par rapport au palais, mais aussi des narines, en changeant la forme du tractus vocal, transforment le bruit en différents sons de paroles.

Ce sont donc ces changements de configuration du tractus vocal qui induisent les variations dans les sons que nous produisons. Il en est de même pour certains instruments de musique tels la clarinette et le haut bois : le souffle fait vibrer la bouche (énergie convertie en bruits audibles), puis on fait varier les ouvertures, ce qui change la configuration dans la caisse de résonance, et donc fait varier le son.

Les sons produits sont de différents types :

C'est parce qu'à chaque son correspond une configuration du tractus vocal que nous pouvons prétendre établir un codage permettant de lier la position spatiale d'un élément du tractus vocal (nous avons choisi les lèvres) et les différents sons.

c. Propagation, réception

Les sons se propagent d'un point à un autre sous forme de vibrations acoustiques, d'ondes sonores, d'une manière continue. Ces ondes seront modifiées par le milieu : c'est la fréquence qui sera " filtrée ", modulée. Il est possible de modéliser des ondes (donc une voix), en en mesurant leur fréquence.

Exemple : Dizzi Gillespie (prononcé à l'américaine).

La réception d'un son se fait grâce à l'appareil auditif qui va décrypter le message sonore en fonction de ses différents paramètres, puis en analyser son intensité, sa mélodie, etc...

2. Les limites de cet outil qu'est la parole

a. Cas d'un dysfonctionnement biologique

b. Liées au mileu

Le son pour se propager a donc besoin d'un support. Ce son est modifié en fonction du milieu.

Exemple : l'hélium : le milieu agit comme un filtre à fréquence.

Certains milieux modifient tellement le son initial qu'il n'est plus compréhensible (ex : l'eau), voire empêchent totalement sa propagation (ex : le vide).


II. SYNTHÉTISEURS VOCAUX


1. L'évolution des dispositifs

Pour créer une voix artificielle, il faut d'abord que le logiciel convertisse son modèle du monde ou son milieu interne, en mots. Ces mots doivent être représentés en code phonologique non ambigu comme les instructions de prononciation d'un dictionnaire, que l'on peut convertir en sons véritables.

COMMENT PRODUIRE LES SONS ?

Certains chercheurs ont essayé de reproduire les formes de l'appareil vocal.

En 1779,Christian Kratzenstein a fabriqué un résonateur qui produisait des sons de voyelles simples.

En 1799,Wolgan Von Kempelen a construit une machine capable de produire quelques voyelles et quelques consonnes.

D'autres chercheurs, comme Alexandre Graham Bell, ont fabriqué des machines encore plus perfectionnées :

Le Gamophone : Technique d'enregistrement sur disque qui code l'onde sonore tout entière, ce qui représente une grande quantité d'information.

Première méthode électrique : Le Vocoder, qui date des années 30. Il produisait un bourdonnement périodique (proche des vibrations du larynx) et un bruit aléatoire (proche de la turbulence) et comportait une série de filtres qui engendraient des effets analogues aux résonances de l'appareil vocal. Il était possible de produire, avec cette machine, quelque chose de vaguement ressemblant à la parole humaine mais la manipulation était très complexe.

Au début des années 50, différentes machines, restituants les sons à partir de l'onde sonore, furent créées.

Ces 2 méthodes (la modélisation de l'appareil vocal ou la simulation de la forme d'onde de la parole) sont exploitées par les programmes de synthèse vocale.

Les programmes fondés sur la forme physique de l'appareil vocal humain emploient des données anatomiques et physiologiques pour simuler la façon dont celui-ci produit les sons. Ainsi, Les instructions relatives au " b " indiquent que le larynx vibre, que les lèvres se referment pour bloquer le passage de l'air, puis qu'elles s'ouvrent brusquement. L'avantage de cette méthode est que les coarticulations des sons du langage se font automatiquement. Cependant les techniques d'enregistrement phonétique, même modernes, comme les micro faisceaux de rayons X, n'ont pas encore révélé comment les différentes parties de l'appareil vocal changent de formes. En outre, les conséquences acoustiques de beaucoup de ces formes ne sont pas encore prévisibles, ce qui fait que cette méthode n'a pas encore produit de bonne synthèse vocale.

Au lieu de simuler l 'appareil vocal, d'autres méthodes engendrent des signaux correspondant aux vibrations du larynx et au bruit turbulent, les font passer ou bien à travers une série de filtres conçus par ordinateur qui fait office d'appareil vocal ou bien a travers un petit nombre de circuits parallèles dont chacun synthétise un formant.

Les méthodes de synthèses à bases de règles ne donnent pas un résultat aussi naturel que les systèmes dits de resynthèses mais elles sont indispensables si l'on veut que l'ordinateur puisse simuler la production humaine. Elles partent d'une transcription des phonèmes des mots qui composent une phrase, puis le programme essaie de trouver une intonation et une phrase possibles de l'énoncé entier. Ensuite, il affecte une hauteur et une durée à chacun des phonèmes. Cette chaîne de symbole est alors transmise à la procédure de synthèse. On peut se servir d'une table des fréquences-cibles des formants et calculer les transitions d'un phonème à un autre. La chaîne de symboles peut également être mise en œuvre dans un modèle de l'appareil vocal.

On peut aussi oublier l'appareil vocal et simuler la forme d'onde de la parole en enchaînant des échantillons d'ondes stockés en mémoire. Cette technique est une version améliorée de l'idée ancienne, mais irréaliste, d'enregistrer des mots séparés puis de produire du discours en les remettant dans l'ordre. De tels énoncés semblent très peu naturels et les mots qui les composent sont difficiles à reconnaître.

A l'heure actuelle, on peut utiliser des ordinateurs pour mettre en mémoire des échantillons d'ondes numérisés. Une des méthodes employées traite la parole un peu comme les phases initiales de l'analyse visuelle. Elle traverse une série de filtres qui couvrent les fréquences audibles et le nombre de passages par zéro par unité de temps est calculé pour la sortie de chaque filtre. Cette procédure convertit les ondes en train d'impulsions qui n'occupent pas beaucoup de place dans la mémoire de l'ordinateur. Ce vocabulaire de phonèmes peut servir à synthétiser des sons. Bien entendu, si l'on veut que la parole soit intelligible, il faut également mémoriser des informations sur la coarticulation de plusieurs phonèmes. Malheureusement, cette technique ne prend en compte ni l'intonation, ni le ton de la voix.

Une des techniques les plus utilisées actuellement n'est fondée ni sur l'imitation des mouvements de l'appareil vocal, ni sur la reproduction d'ondes réelles mais sur un modèle abstrait de production de la parole. Si la pression d'air d'une onde vocale est mesurée tous les dix millièmes de seconde, il devient possible de prévoir la valeur suivante. Cette prévision repose sur un système de pondération de 12 mesures immédiatement précédentes de la pression d'air afin de cerner les effets filtrants de l'appareil vocal, qui change de forme assez lentement. Cette prévision doit également tenir compte de la source d'énergie d'articulation courante, qu'il s'agisse d'un train d'impulsion à la fréquence du fondamental (quand le larynx vibre) ou de bruit aléatoire (quand le larynx est ouvert). Cette technique est appelée "prévision linéaire" et a été appliquée pour la première fois à la parole par B. Atal au début des années 70. Elle permet de resynthétiser des énoncés en leur donnant une courbe d'intonation différente (on fait varier la hauteur du fondamental). Un des premiers synthétiseurs commercialisés sur une seule puce, le "Speak-n-Spell" de Texas Instrument, utilisait une méthode de prévision linéaire.

Le labiophone : Cet outil de reconnaissance vocale utilise un système basé sur une interface optique. A l'aide d'une caméra, il capte les mouvements des lèvres et est capable de reproduire 80% de la parole.

La principale caractéristique des sons linguistiques, et c'est de là que viennent les problèmes, est qu'ils ne se suivent pas comme des perles sur un fil, ils défilent en parallèle comme des trains sur des voies séparées, parce que l'appareil vocal articule un son donné en même temps qu'un autre. C'est pourquoi les essais de synthèse de parole à partir de sons concaténés, que ces éléments soient des mots, des syllabes ou des diphonèmes préalablement enregistrés, montrent bien que la simple juxtaposition de segments de parole même adéquatement choisis, ne permet pas de produire une parole naturelle ; les auditeurs se plaignent d'une parole hachée, mécanique et non "fluide".

2. La prosodie

Prosodie : C'est l'ensemble des phénomènes d'intonation d'une langue.

La prosodie regroupe, en fait, les caractéristiques de la parole continue qui contribuent à la perception de celle-ci comme constituant un flux auditif cohérent, rythmé et intoné de façon naturelle.

L'intonation, dans la parole "spontanée", "naturelle", est également, et peut être essentiellement, pertinente au niveau des autres foncions du langage, surtout au niveau de la manifestation des attitudes et des émotions.

On sait que des énoncés bien "articulés", mais non intonés, c'est à dire sans variation prosodique ou avec des variations mal réalisées, peuvent être mal compris ou pas compris du tout. C'est ce que l'on peut constater chaque fois que l'on entend de la parole perturbée soit parce qu'il y a des raisons pathologiques physiques ou psychologiques qui bloquent le contrôle de la prosodie, soit parce que cette parole a été prononcée par un locuteur apprenant une seconde langue qu'il maîtrise mal. Un autre exemple où une prosodie correcte est nécessaire est lorsque deux phrases ont le même contenu phonétique mais des sens différents. La phrase : "le papa dit" peut aussi se comprendre comme "le pape a dit".

Cela est dû au fait que la prosodie a un double rôle : d'une part elle contribue à l'organisation syntaxique et discursive du discours, et d'autre part, en tant que gestuelle vocale, elle permet l'expression des attitudes et des émotions dans une langue donnée.

Si l'organisation rythmique et intonative n'existe pas ou est fausse, elle n'est pas reconnue et il ne peut pas y avoir compréhension par regroupement en morphèmes et mots, même si chaque phone pris isolément est réalisé correctement. Inversement, une bonne organisation rythmique et intonative conduit à une bonne compréhension même si la réalisation des segments n'est pas partout satisfaisante.

Les indices prosodiques significatifs sont les suivants :

La variation systématique de ces indices à partir d'une valeur de référence relevée sur la production jugée "neutre" d'un énoncé banal provoquera un changement dans l'interprétation de la conduite émotive.

Ainsi "joie" et "ironie" seront caractérisées par une variation positive de tous les indices (d'autres indices plus fins permettront de les distinguer).

L' "admiration" est caractérisée par une variation positive de tous les indices sauf de l'écart mélodique qui devient moins important.

La "colère" se caractérise par une diminution de la durée de l'énoncé, sans variation de l'écart mélodique mais avec une augmentation des quatre autres indices.

La "tristesse" se caractérise par une variation négative des indices à l'exception de la durée qui augmente et l'intensité globale qui ne change pas.

La "peur" se caractérise par la variation positive des indices contour, un écart d'intensité et de durée, alors que l'écart mélodique est réduit.

La "surprise" se manifeste par la variation positive des indices écart mélodique, contour mélodique et durée, négative des indices d'intensité.

La mesure de ces indices est complexe c'est pourquoi nous nous limiterons à une analyse pratique de la prosodie.

Les paramètres acoustiques de la parole peuvent être visualisés, parfois "en temps réel", puis mesurés de façon précise grâce à des logiciels qui émulent sur micro-ordinateur les appareils de mesures classiques, analogiques tels que oscilloscope et oscillographe, spectrographe, intensimètre, analyseur mélodique.

L'illustration présentée ici a été obtenue à partir du logiciel "Signalyse" développé par Eric Keller, professeur à l'université de Lausanne.

Les analyses sont synchrones, et en agrandissant les tracés, on peut bien évaluer la co-articulation des différents paramètres.

A partir de là, on peut proposer une représentation des émotions contenues dans le langage en une succession de contour prosodique.

3. Notre système : le synthétiseur vocal

a. Rappel sur les jauges d'extensométrie

Une jauge d'extensométrie est constituée d'un support isolant flexible et d'un fil conducteur collé en zigzag sur ce support (cf. figure 1). L'ensemble est placé sur l'objet dont on veut mesurer les déformations. Les caractéristiques des matériaux utilisés font que la variation de résistance électrique de la jauge est proportionnelle à la déformation longitudinale du support. Pour donner un ordre de grandeur, la variation relative de la résistance peut être mesurée à partir de 10-4.


Une disposition particulière des jauges sur le support peut constituer ce que l'on appelle une rosette (cf. figure 2). Une rosette est un capteur constitué de trois jauges placées l'une au-dessus des autres. Cet assemblage permet, en pratiquant trois mesures indépendantes de déformation, de connaître les déformations et contraintes principales dont on ne connaissait pas, a priori, la direction.

b. Réalisation pratique

Nous avons vu qu'une très grande partie des information du langage se trouvait dans la prosodie définie par certains paramètres. Ce sont ces paramètres que nous allons essayer de capter.

Pour coder le langage, nous allons prendre en compte seulement une partie facilement accessible du tractus vocal : les lèvres.

Nous captons le mouvement des lèvres avec un masque souple, pour reproduire parfaitement le mouvement, que l'on appliquerait sur la bouche. Sur toutes les surfaces en contact avec les lèvres seraient implantées des rosettes. Le signal émis par les jauges est alors le codage des mouvements des lèvres (qui représente les mots de la phrase).

Nous avons également vu que l'émotion et l'intelligibilité d'une phrase se retrouvent dans la fréquence, le débit et l'intensité du flux de parole. Nous allons donc, pour recréer une prosodie correcte, mesurer la pression buccale pour avoir accès au débit et à l'intensité.

Le capteur de pression est placé dans un faux palet. Il est réalisé avec une membrane souple sur laquelle est collée une jauge d'extensométrie (cf. figure 3). La variation de pression fait bouger la membrane et donc déforme la jauge qui renvoie le signal de variation de pression.


Les signaux issus de ces deux capteurs vont être traités par une interface (cf. figure 4). On obtiendra deux sortes de traitement

Le tout est ensuite modulé et filtré pour obtenir un son contenant un message émotionnel

Il est à noter que la parole est traitée uniquement avec deux capteurs de mouvement. L'émission de son n'est pas nécessaire pour le Synthétiseur Vocal, c'est l'un de ses principaux avantages.


III. APPLICATIONS DU SYNTHETISEUR


1. Situations possibles

Elles se trouvent dans tous les domaines où le son manque ou est insuffisant pour comprendre les messages vocaux.

2. Apprentissage

Toutes ces applications nécessitent un apprentissage actif des utilisateurs pour plusieurs raisons. Il faut tout d'abord initialiser le système et calibrer l'interface en fonction des pressions buccales et des positions des lèvres dues aux différentes émotions. Mais aussi il faut réapprendre à coder ses émotions à l'aide de notre système. Le processus de production du langage va être modifié. En effet la production d'un message verbal, qui implique le passage d'un certain "contenu mental" à un énoncé articulé met aussi en jeu des opérations spécifiques. Le processus de production possède en effet l'importante caractéristique de reposer sur une activité de planification. En fonction du but visé, le locuteur doit déterminer le contenu global de ce qu'il va dire et l'ordre dans lequel il va présenter les éléments de son message. Il doit aussi en programmer la formulation en prévoyant le cadre syntaxique et les unités lexicales qui vont le constituer. Cela impose différents types de sélections telles que le choix de la modalité de l'énoncé (assertion, interrogation, exclamation ...) ou le choix des mots.

Or en l'absence de son, ce processus inconscient est beaucoup modifié. Avec notre Synthétiseur Vocal, ce processus sera en partie rétabli, il y aurait, en fait, la formation d'un circuit parallèle qui aboutirait au même résultat (la production d'une phrase ) mais par des chemins différents. Le fait de pouvoir communiquer avec le monde extérieur va modifier, pour le muet, sa vision du monde.

3. Dans le futur

A l'avenir, on pourrait voir une généralisation du synthétiseur vocal à tout le monde. Les personnes seraient équipées d'un émetteur-récepteur avec une petite oreillette. L'interface pourrait être portée à la ceinture (donc personnelle) ou alors il pourrait y avoir seulement une grosse interface collective qui traiterait tous les signaux du quartier. La puissance de l'émetteur pourrait être liée avec la distance visuelle maximum de reconnaissance d'une personne (environ 500 m). Il n'y aurait plus besoin de crier pour se faire entendre.


CONCLUSION

Nous avons vu dans ce projet comment l'homme arrivait à s'exprimer et les principaux organes nécessaires à la prononciation d'une phrase avec un contenu émotionnel. Nous avons découvert que les indices émotionnels se trouvaient dans la prosodie et les façons de mesurer ces indices, souvent difficilement accessibles. Nous avons également énoncé le moyen d'améliorer les systèmes de synthèse vocale à qui l'on reprochait de reconstituer une voix trop hachée, mécanique, avec l'insertion des indices prosodiques dans les interfaces de traitement du signal. L'étude des applications possibles du Synthétiseur Vocal a montré qu'il pouvait servir à beaucoup de personnes, du plongeur aux handicapés et voire, dans le futur, à tout le monde, sans oublier la nécessité d'apprendre le fonctionnement de l'appareil et de créer un phénomène d'accoutumance.

Le Synthétiseur Vocal permet de créer une voix artificielle semblable à celle de l'homme.







BIBLIOGRAPHIE