La production, la reproduction et la transmission de la voix humaine

La voix humaine tient une place particulière dans la recherche acoustique.
Tout d'abord il s'agit d'un instrument de musique "vivant", faisant partie intégrante du corps humain, dont l'observation en cours de production sonore reste, aujourd'hui encore, difficile d'accès.
Ensuite, les signaux produits par la voix humaine sont dotés d'une très forte prégnance cognitive, et forment une catégorie perceptive qui se structure très tôt dans la mémoire auditive. S'inscrivant implicitement dans un schéma de communication impliquant au moins deux partenaires, ils activent alternativement deux attitudes d'écoute. La première est l'écoute sémantique, en quête de sens : identité du locuteur, signification des paroles prononcées, éventuellement signes sémantiques prosodiques; la deuxième est l'écoute qualitative, celle des variations esthétiques des
paramètres sonores, mise en oeuvre lors de la production chantée.

1 - Comprendre le mécanisme de la voix

Vers 1854, Manuel Garcia – frère de la Malibran et auteur de plusieurs ouvrages sur la voix et l’art du chant, dont Mémoire sur la voix humaine (1840) –, en se promenant dans les jardins du Palais Royal, eut l’idée de regarder ses cordes vocales par le biais de sa canne : la lumière solaire se reflétant dans le pommeau renvoyait un rayon au niveau de sa bouche. Garcia parvint ainsi à visualiser le jeu des cordes vocales. Après cette première « découverte », il plaça pour améliorer son observation un petit miroir au bout d’un long manche : ce sont les débuts de la laryngoscopie. L’ensemble des expériences de Garcia est recueilli dans ses Observations physiologiques sur la voix humaine et publié en 1855. Ses recherches sont complétées par les expérimentations sur le larynx et les cordes vocales d’un autre physiologiste, le médecin tchèque Czermack. Grâce au laryngoscope, Czermack explore en 1880 le « fonctionnement des cordes vocales et celui du voile du palais dans la production des nasales».

Les recherches sont approfondies par des physiologistes l’Autrichien Ernst von Brücke, définit les bases théoriques de cette nouvelle approche grâce à ses travaux sur l’analyse des articulations des sons du langage dans les principales langues anciennes et modernes. Hermann von Helmholtz, avec son "Die Lehre von des Tonempfinungen", ouvrage fondamental paru en 1862, donne pour la première fois une théorie physique des voyelles et montre qu’elles se distinguent l’une de l’autre par leur timbre, d’où sa théorie de la résonance appliquée aux timbres des sons en harmoniques simultanées. À cet effet, Helmholtz met au point un instrument de mesure, les « résonateurs de Helmholtz » (des caisses de résonance sphériques ouvertes construites initialement en verre puis en laiton), fabriqué et commercialisé par Rudolph Koenig.

2 - L'apprentissage de la langue la méthode Bell

Alexander Bell opte pour un procédé qui cherche à rendre la langue « visible » par l’utilisation d’un alphabet comportant dix symboles pour la langue, les lèvres, le larynx et les fosses nasales : le Visible Speech.
Cet alphabet physiologique donnait la position des organes au cours de la prononciation et il permettait donc de transcrire « graphiquement pour chaque son du langage les composantes articulatoires qui les réalisent».
Un« Anglais, qui n’était ni physiologiste ni physicien, mais simplement professeur de diction», Alexander Bell, apporte sa contribution à une meilleure connaissance de l’articulation des phonèmes et des voyelles au moyen d’une étonnante méthode. Il l’explique dans un ouvrage intitulé Visible Speech : the Science of Universal Alphabetics, or Self-interpreting Physiological Letters for the Printing and Writing of all Languages in One Alphabet, dont la première édition date de 1867.
Cette méthode connaîtra un grand succès dans les écoles d’Angleterre et des États-Unis et sera utilisée pendant une quinzaine d’années.

Les travaux de la famille Bell se situent à la croisée des différentes expérimentations et permettent donc de mettre à jour un certain nombre de relations qui réunissent plusieurs éléments au premier abord distincts : d’une part la phonétique, la physiologie, la surdité ; d’autre part l’acoustique, le téléphone, le phonographe et le microphone. Après avoir exercé l’activité de cordonnier, Alexander Melville Bell devient maître d’élocution au théâtre royal d’Edimbourg. C’est alors qu’il ouvre une école de diction et traitement des troubles de la parole. Il est aussi l’auteur de divers ouvrages sur le sujet. Son fils, Alexander Bell (1819-1905), dans la même lignée, est également professeur de diction. La parole joue un rôle essentiel dans sa vie professionnelle et privée, car sa femme Elisa était devenue sourde à l’âge de dix ans après une scarlatine. Son frère David était aussi professeur d’élocution dans une école de Dublin et c’est au cours de son enseignement de la diction qu’il songe à un système pour faciliter l’apprentissage de la langue et la correction des défauts de prononciation.

Le flambeau de la famille est repris par le fils d’Alexandre Melville : Alexander Graham Bell (1847-1922).
Celui-ci complète les études de phonétique, des langues grecque et latine, par l’acoustique et la physique. Il devient lui aussi professeur de diction et, comme son père, épouse une de ses élèves (une jeune fille devenue sourde à l’âge de cinq ans) : Mabel Hubbard, auteur d’un ouvrage sur la lecture consacré à la lecture les lèvres (The Subtil Art of Speechreading, 1895). Graham Bell poursuit donc l’œuvre de son père en travaillant lui aussi sur l’idée de la visualisation comme une solution pour l’éducation vocale de ses pensionnaires. « Il est bien connu – disait-il – que les sourds et muets ne sont muets que parce qu’ils sont sourds, et qu’il n’y a dans leur système vocal aucun défaut qui puisse les empêcher de parler ; par conséquent, si l’on parvenait à rendre visible la parole et à déterminer les fonctions du mécanisme vocal nécessaire pour produire tel ou tel son articulé représenté, il deviendrait possible d’enseigner aux sourds et muets la manière de se servir de leur voix pour parler. »

Pour comprendre la production de la voix humaine, il existe beaucoup d'ouvrages et de sites internet qui traitent sur l'organe vocal le larynx
Pour visualiser cet organe, voici une belle vidéo :

sommaire

3 - La représentation graphique des sons

Bell travaille à partir de 1874 sur la représentation graphique des sons produits, mais sa passion pour la physique et l’acoustique le conduira tout naturellement vers la recherche de systèmes plus avancés que ceux mis au point par ses prédécesseurs. Dans le but de visualiser la parole pour ses élèves, il reprend d’abord les expérimentations existantes, comme celles utilisant la capsule manométrique de Koenig ou le phonautographe de Scott de Martinville. Pour rendre ces systèmes plus efficaces, il en modifie certains composants : il remplace par exemple la membrane de Scott par une autre plus sensible, ou encore il perfectionne le phonographe d’Edison (vers 1886).

Ensuite, il commence à travailler sur un nouveau procédé et réalise l’appareil « à paroles visibles » (version manuelle). Ce système repose sur l’application d’une autre invention : celle de « l’oreille artificielle ». Graham Bell, en observant les tracés graphiques réalisés avec le phonautographe, a eu l’intuition de faire un rapprochement entre l’appareil et l’oreille humaine : « Je fus très frappé des résultats produits par cet instrument, et il me sembla qu’il y avait une grande analogie entre lui et l’oreille humaine.

Je cherchais alors à construire un « phonautographe » modelé davantage sur le mécanisme de l’oreille. »
Le phonautographe à oreille était un instrument macabre. Construit par Alexander Graham Bell et Clarence J. Blake en 1874, il était composé de parties d’une oreille humaine retirée chirurgicalement – un fragment de crâne, un canal auditif, un tympan et des osselets – et servait à « écrire » visuellement des ondes sonores.
Graham Bell construit son appareil en enduisant la membrane d’un tympan et d’un pavillon circulaire artificiels avec un mélange de glycérine et d’eau et en donnant à ces organes la souplesse suffisante pour qu’en chantant dans la partie extérieure de cette membrane artificielle le stylet qui lui était directement relié soit mis en vibration. Le tracé de ces vibrations était obtenu sur une plaque de verre noircie, disposée en dessous de ce stylet.

La section d’oreille humaine était fixée à la partie supérieure de l’appareil par boulon enfoncé dans le fragment de crâne. Une vis à oreilles maintenant le tout en place. L’instrument fonctionnait en canalisant les vibrations des ondes sonores produites en parlant dans l’embouchure située derrière le fragment de crâne, vers le canal exposé de l’oreille. En heurtant le tympan – sensible – situé à l’intérieur, ces vibrations déclenchaient une réaction en chaîne : le tympan vibrait d’abord, puis les osselets, suivis du stylet, un petit morceau de paille fixé au dernier os. Lorsqu’une pièce de verre recouverte d’une fine couche de suie était tirée rapidement sous le stylet vibrant, ce dernier gravait ou « écrivait » la forme des vibrations sur la surface du verre.

sommaire

4 - Reproduire les sons vocaux

Bell continue ses recherches dans cette voie et entame une étude sur les moyens de reproduire les sons vocaux en même temps que la manière de les transmettre électriquement. Sa première étape est celle de l’observation de l’oreille et l’étude de la transmission des vibrations sur le tympan d’un cadavre. Il simule alors le tympan en faisant vibrer une membrane métallique en fer-blanc près d’un barreau aimanté, entouré d’une bobine de fil de cuivre ; les variations du champ magnétique engendrées par les vibrations font naître dans la bobine un courant alternatif induit qui se transmet par un fil conducteur à la bobine du récepteur dont l’aimant fait vibrer une seconde membrane métallique de la même façon. C’était une première ébauche d’un appareil mieux connu sous le nom de téléphone. Cette invention fait écho à bien d’autres, « car le fait que Graham Bell, inventeur du téléphone en 1876, que Charles Cros et Thomas Alva Edison, inventeurs quasi simultanés du phonographe en 1877, aient tous trois, à un moment de leur vie, été éducateurs pour sourds ne doit évidemment rien au hasard.
Il y a là un rapport très étroit entre un questionnement sur la physiologie de la parole, la possibilité de l’apprentissage de la langue et la machine conçue comme artefact rédempteur.
Après l’invention du téléphone de Graham Bell, l’audiométrie connaît un large essor et par conséquent les recherches sur l’éducation auditive et vocale s’orienteront, de plus en plus, vers les méthodes « oralistes » par opposition aux méthodes basées sur la gestualité et les signes.

5 - La transmission de la parole

À l’origine de ces nouvelles recherches se trouve encore la transmission de la parole.
Dès 1857, L. S. de Martinville met au point le phonotaugraphe destiné à produire des diagrammes afin d’étudier les vibrations de la voix. Cette ingénieuse sténographie acoustique n’est qu’une réussite partielle cependant. Son auteur parvient à enregistrer les sons mais échoue à les reproduire. Il lui reste cet invraisemblable désir de vaincre le temps, fixer l’immatériel, immortaliser la voix :
« Y a-t-il possibilité d’arriver, en ce qui concerne le son, à un résultat analogue à celui atteint dès à présent pour la lumière par la photographie ? Peut-on espérer que le jour est proche où la phrase musicale échappée des lèvres du chanteur viendra s’inscrire d’elle-même, et comme à l’insu du musicien, sur un papier docile, et laisser une trace impérissable de ces fugitives mélodies que la mémoire ne retrouve plus alors qu’elle les cherche ? »

Sur cette voie, Alexandre Graham Bell songe à traduire les vibrations mécaniques en courant électrique alternatif. Pour cela, il exploite le phénomène de la modulation d’un faisceau lumineux sous l’influence des ondes sonores. Cette modulation est obtenue soit par la variation de l’intensité du faisceau, soit par la déviation de son axe de propagation. Finalement, en 1880, Bell et son collaborateur Charles Summer Tainter appliquent ce principe en vue de la transmission directe des sons entre un poste transmetteur et un poste récepteur. Voici comment Jean Vivié présentait ce circuit dans son Traité général de technique du cinéma :
« Il s’agissait d’une transmission téléphonique entre un poste transmetteur et un poste récepteur pointés l’un sur l’autre ; le récepteur utilisait les propriétés photoélectriques du sélénium. Le transmetteur pouvait mettre en œuvre diverses méthodes ; dans le modèle primitif, les rayons lumineux étaient concentrés sur la plaque argentée d’un diaphragme téléphonique, et sous l’influence de la parole cette plaque vibrait en se bombant plus ou moins, donc en faisant varier la convergence du faisceau et par suite son intensité dans l’axe ; sous une seconde forme, la membrane téléphonique faisait vibrer une plaque légère percée de nombreuses fentes et placée en travers du faisceau parallèlement à une plaque fixe identique ; enfin les inventeurs du Photophone ont également mis en jeu dans un troisième transmetteur l’action des courants électriques microphoniques sur la lumière polarisée. »
Le photophone d’articulation, nom donné à ce système, a été présenté à l’Académie des sciences le 13 octobre 1880. Son objectif était de se servir de la lumière pour transmettre la parole à distance, grâce aux propriétés électriques du sélénium. Il comportait une lampe à arc (A), un miroir (B) réfléchissant le faisceau et concentrée par un condensateur (C) sur une membrane vibrante (D) d’un cornet téléphonique (O). Au moment de la transmission des sons, un objectif (E) envoyait vers le récepteur (M) un faisceau de lumière modulée. Le récepteur (M), constitué d’un miroir parabolique, comportait une cellule au sélénium (F) ; celle-ci recevait les variations de la lumière faisant varier à leur tour la résistance électrique de la cellule même. Enfin ces variations de courant étaient traduites en son dans deux récepteurs téléphoniques.
Si Bell et Tainter sont donc à l’origine de l’utilisation de la lumière pour la transmission des sons, ils ne pensent ni à la possibilité de fixer sur un support sensible les variations de courant, ni à utiliser le faisceau comme une « écriture » permettant de réentendre les sons. Pourtant leur application du sélénium, dont les propriétés étaient déjà connues auparavant, constitue une grande avancée pour les futures recherches sur « l’écriture des sons » par la lumière.

Le 30 avril 1877, c’est au tour de Charles Cros de déposer auprès de l’Académie des Sciences de Paris un pli intitulé Procédé d’enregistrement et de reproduction des phénomènes perçus par l’ouïe.
Quand l’auteur propose à ses pairs le projet, fragmentaire et malheureusement jamais breveté, d’une machine appelée paléophone ( « la voix du passé »), c’est dans l’idée d’obtenir là encore « des photographies de la voix, comme on en obtient des traits du visage et ces photographies serviront à faire parler, ou chanter, ou déclamer les gens, des siècles après qu’ils ne seront plus».
Mais dans ce cas l’analogie avec la lumière est doublement motivée puisque C. Cros lui-même avait rendu public quelques années auparavant un court texte consacré à la Solution générale du problème de la photographie en couleurs . Face à l’évanescence, à la perte et au négatif, qu’il s’agisse d’un photogramme ou d’un phonogramme, une identité doit être restituée. L’appareil doit produire de l’authentique, se faire trace ou empreinte. Le paradoxe de la technique est qu’elle se jauge selon sa capacité à perpétuer du vivant. Car la fabrication du disque phonographique chez C. Cros ne relève pas seulement d’une archéologie des voix défuntes et oubliées. Elle procède d’un désir de résurrection.
L’appareil devient un sujet second ou l’agent du sujet disparu, comme en témoigne la tournure factitive « faire parler ».

Le brevet Edison du phonographe fut accepté le 17 fèvrier 1878 et décrivait un appareil très simple.
Archives Edison " The Edison papers "

Ainsi doit-on à un poète ce modèle que T. A. Edison parviendra à confectionner avec la complicité de J. Cruesi, huit mois plus tard sous une forme différente, cylindre, manivelle et diaphragme enregistreur capable, si on lui ajoute un pavillon, de reproduire le son cette fois.
Il n’est pas inutile de rappeler toutefois que la démonstration du phonographe Edison se solda le 11 mars 1878 par un échec devant l’Académie des Sciences. En entendant le son nasillard qui sortait de l’étrange boite, on crut d’ailleurs à une plaisanterie et les plus malveillants subodorèrent un subterfuge de ventriloque. Pourtant, assez vite, des séances d’écoute payantes sont organisées boulevard des Capucines, signe du succès populaire que rencontre l’appareil. En 1889, à la galerie des machines de l’Exposition universelle, l’objet est finalement présenté sous une version modernisée aux visiteurs puis commercialisé avant d’être détrôné en 1895 par le graphophone de C. S. Tainer et G. Bell.

Beaucoup d'inventions se succédèrent pour contrôler mémoriser la parole :
- Le Télégraphone
- Le Dictaphone pour enregistrer et re écouter des messages parlés.
- Le Directaphone pour parler entre pièces distantes.
- Le dictographe britanique
...

sommaire

Analyse acoustique de la voix

Exemple de nouveaux outils informatiques

Bien souvent, en cabinet, l’orthophoniste n’a pas à disposition les outils technologiques pour analyser la voix de son patient, il s’appuie sur la puissance informative de son écoute analytique. Néanmoins, comment garder trace de cette écoute d’une séance à l’autre ?
Comment vérifier objectivement les ressentis subjectifs ?
A peu de frais, il est possible de s’équiper d’un système d’enregistrement des signaux audio : un microphone adapté, une carte son, un ordinateur. Le choix du matériel est important, en particulier celui du microphone. Suivant les recommandations publiées par Svec et Granqvist (2010), la réponse en fréquence du microphone doit être plate (à 2dB près) dans la zone de fréquence d’intérêt (dans l’idéal de 20Hz à 20kHz), la dynamique appropriée pour permettre l’enregistrement sans distorsion des productions les plus sonores et le rapport signal sur bruit suffisamment élevé (au moins 15dB) pour permettre l’enregistrement des productions les moins sonores.


Analyse temps-fréquence du signal acoustique en sortie des lèvres et du signal électroglottographique (EGG)
correspondant, à partir du logiciel OvertoneAnalyzer. Phrase chantée par un baryton ("ave maria").

L’analyse la plus simple à effectuer à partir d’un enregistrement du signal audio est de représenter visuellement le son par les fréquences acoustiques qu’il contient et leur évolution au cours du temps, comme le montre la figure ci dessus.
L’oreille humaine est intégrative et elle ne permet pas toujours de distinguer avec précision les zones fréquentielles où l’énergie acoustique est renforcée ou atténuée.
L’analyse temps-fréquence d’un son met en évidence les fréquences qui le constituent, leurs niveaux d’amplitude et leurs variations temporelles. Cette représentation visuelle d’un son est appelée spectrogramme ou sonagramme. De nombreux logiciels permettent cette visualisation de façon plus ou moins automatique. Ils permettent de mesurer, sur le signal audio, des paramètres acoustiques d’intérêt pour l’analyse de la voix parlée ou chantée, interprétables pour un clinicien et complément indispensable de l’analyse perceptive. Des caractéristiques acoustiques de la voix dans la parole peuvent être objectivées, telles la fréquence fondamentale, l’intensité vocale, la coordination pneumophonatoire, les fréquences formantiques et la richesse harmonique.
Quel logiciel choisir ? Le logiciel WaveSurfer est un logiciel gratuit et simple d’utilisation pour visualiser et analyser le son, la fréquence fondamentale et la richesse harmonique. Le logiciel Praat est également un logiciel gratuit d’édition et d’analyse du son, mais il diffère par la complexité de son usage. Une connaissance préalable de l’outil est nécessaire pour pouvoir en faire un bon usage. Une fois maîtrisé, le logiciel Praat est un outil complet et paramétrable par l’utilisateur. Conçu pour l’analyse phonétique de la parole, il permet l’annotation des corpus. Le logiciel Overtone Analyzer, développé initialement comme un outil de pédagogie vocale, se distingue par une interface très conviviale complétée d’un clavier et d’une portée musicale, pour un coût modéré . Il présente l’avantage de pouvoir filtrer visuellement des fréquences harmoniques dans le signal analysé pour un travail ciblé sur l’écoute du timbre par exemple.
Le premier paramètre d’importance est la fréquence fondamentale, qui renseigne sur la hauteur de la voix, sa stabilité au cours de la production, sa plage de variabilité. La fréquence fondamentale se mesure sur les parties voisées du signal acoustique, c’est-à-dire pour la production vocale qui met en jeu la vibration des plis vocaux. Sa définition et son calcul requièrent une stabilité de la durée du cycle vibratoire glottique sur plusieurs cycles consécutifs. Quand cette durée est modifiée de façon notable d’un cycle glottique à l’autre lors de la production de voix pathologique, la mesure de fréquence fondamentale perd de son sens. Il peut être alors intéressant de comparer les durées de cycles glottiques successifs. C’est ce que propose le paramètre vocal connu sous le nom de jitter, qui représente une mesure des perturbations à court terme de la fréquence fondamentale du signal sonore exprimée en pourcentage. Le jitter se calcule comme le rapport entre la moyenne de toutes les différences de durées entre deux cycles glottiques successifs (en valeur absolue) et la durée moyenne d’un cycle. Selon le manuel du logiciel Praat, le seuil normal/pathologique de jitter est fixé à 1,04%.
Un jitter élevé reflète une variabilité importante dans la durée du cycle glottique. Un autre paramètre de perturbation, le shimmer, reflète les perturbations à court terme de l'amplitude du signal sonore. La moyenne des différences entre l'amplitude maximale de deux cycles glottiques successifs (en valeur absolue) est divisée par la moyenne des amplitudes maximales de chaque cycle. Le seuil normal/pathologique est fixé à 3,81 %. Ces deux paramètres de perturbation sont mesurés lors de la production d’une voyelle tenue. La pertinence de ces mesures dans l’analyse des
voix pathologiques est souvent questionnée (Bielamowicz et al., 1996). Comme le soulignent Baken et Orlikoff (1997), les mesures acoustiques de la voix, et en particulier les mesures de perturbation, ne présentent pas de corrélation cliniquement utile avec des catégories de troubles vocaux spécifiques.
Elles ne permettent en aucun cas le diagnostic. La capacité à parler fort est reflétée par la mesure de l’intensité moyenne. Seule une intensité calibrée, indépendante du volume d'enregistrement, permet une mesure comparative entre enregistrements.
La coordination pneumo-phonatoire peut être évaluée à travers la mesure du temps maximum de phonation sur une voyelle (TMP en moyenne de 15s pour les femmes et de 20s pour les hommes), le rapport de durée de la consonne sourde /s/ divisé par celui de son équivalent sonore /z/ (rapport équivalent à 1 dans le cas d’une coordination optimale). Le rapport de durée entre parties voisées et parties non voisées est également informatif de l’usage vocal du sujet ou du patient.
L’analyse du signal audio mesuré en sortie des lèvres permet aussi d’estimer la fonction de transfert acoustique du conduit vocal et d’en déduire les fréquences et largeurs de bande des formants. Les formants sont des zones spectrales d’énergie renforcée par l’action de résonance des cavités qui constituent le conduit vocal. Leur positionnement conditionne notre perception des voyelles. Pour l’analyse formantique, le logiciel Praat est le logiciel d’analyse de la voix le plus approprié, car il permet de tracer l’évolution des fréquences formantiques sur l’analyse spectrographique du signal.
D’autres paramètres de timbre reflètent la richesse harmonique, à travers la mesure de rapports d’amplitude entre les différents harmoniques d’un son voisé.

Il y a très certainement un intérêt à s’inspirer des approches développées dans le milieu scientifique pour effectuer des mesures objectives du comportement vocal d’un patient. Même si certains paradigmes expérimentaux nécessitent un équipement sophistiqué et coûteux, c’est le cas de l’IRM par exemple, de nombreux protocoles reposent sur des évaluations parfaitement réalisables en cabinet orthophonique. L’usage du logiciel Praat qui se répand de plus en plus dans la pratique orthophonique en est un bel exemple illustratif. Il permet à la fois de prendre les données et de les analyser. Corrélée à l’analyse perceptive de la voix du patient et à l’auto-évaluation de la qualité de voix, l’analyse acoustique apporte des éléments quantitatifs nécessaires à l’abord de la pathologie vocale. L’analyse de scènes vidéo permet de conserver une trace de l’évaluation du patient et d’évaluer à posteriori les gestes posturaux, respiratoires et articulatoires du patient.

sommaire

Nous vivons à l’ère du numérique et les signaux analogiques captés par ces différents outils de mesure sont convertis en signaux numériques avant d’être sauvegardés sur un ordinateur ou dêtre transmis à l'autre bout du monde avec nos téléphones mobiles.
Cette opération de conversion analogique/numérique a un impact sur les signaux qu’il est important de connaître.
Le premier aspect de cette conversion est l’échantillonnage du signal : il existe une durée non nulle entre deux mesures successives. La fréquence de prise de mesure, qu’on appelle fréquence d’échantillonnage, va définir la précision de l’information enregistrée. Plus cette fréquence sera élevée, plus les variations rapides du signal (fluctuations hautes fréquences) seront prises en compte.
Dans le cas d’un signal audio de parole, il est nécessaire d’avoir de l’information fréquentielle dans toute la bande audible, donc de préférence jusqu’à des fréquences de 16kHz à 20kHz. Ceci impose d’avoir une fréquence d’échantillonnage au moins deux fois supérieure à la fréquence limite d’intérêt (Théorème de Shannon). Les cartes d’acquisition proposent des fréquences d’échantillonnage à 44,1kHz ou 48 kHz, ce qui permet de couvrir la gamme des fréquences audibles. Si ces fréquences d’échantillonnage conviennent bien à l’enregistrement de signaux audio, il n’est parfois pas nécessaire de recourir à une telle précision temporelle pour des signaux qui évoluent lentement au cours du temps. Certains signaux, les signaux de débit ou de pression aérodynamique par exemple, ne demandent pas de fréquence d’échantillonnage très élevée car ils évoluent lentement au cours du temps.
Le second aspect de cette conversion est la quantification du signal : le signal est décrit par une quantité finie de valeurs du fait de la capacité de codage (généralement sur 16 bits). La quantification entraîne, comme l’échantillonnage, une perte de données et un bruit éventuel (bruit de quantification). La quantification des données entraîne une imprécision sur les données inhérentes à ce processus.
Cette imprécision peut également dépendre de l’outil de mesure, des conditions d’acquisition. Aucune mesure ne permet d’approcher la réalité de façon exacte. Evaluer la précision d’une mesure et l’intervalle d’incertitude reflète la qualité d’une approche expérimentale, gage d’une démarche
scientifique rigoureuse et réfléchie. Nombreuses sont les études qui donnent des mesures à 2 ou 3 chiffres après la virgule, alors que l’outil de mesure ne permet pas, et de loin, une telle précision.
L’évaluation de l’incertitude d’une mesure nécessite de connaître les caractéristiques de précision de l’outil de mesure et celles de la conversion analogique-numérique. Il est à mentionner ici que la sauvegarde de données sous des formats compressés, comme par exemple l’encodage mp3 de signauxaudio, est à proscrire car il y a toujours une perte d’information dans ces encodages.

Cette technique est toujours employée dans la téléphonie d'aujourd'hui.

Voici un rappel quelques informations essentielles sur l'utilisation des techniques numériques en téléphonie à propos du multiplexage 32 voies appelé par la suite système MIC (Modulation par Impulsion et Codage).

Le théorème d'échantillonnage de Nyquist stipule qu'un signal analogique à bande passante limitée peut être représenté pratiquement parfaitement si le signal est échantillonné à une fréquence de deux fois la bande passante. Un signal vocal est considéré comme ayant une bande passante d'environ 3 kHz (300 Hz à 3 400 Hz) et donc, en principe, pourrait être représenté par une séquence d'impulsions résultant d'un échantillonnage à environ 6 kHz. Des considérations pratiques dictent cependant l'utilisation d'une fréquence d'échantillonnage plus élevée et en téléphonie 8 kHz est devenu la norme. L'amplitude des impulsions échantillonnées est quantifiée (logarithmiquement) et représentée par un nombre binaire à huit chiffres, sept chiffres indiquant le niveau et le huitième le signe. Un canal téléphonique numérisé est alors un flux binaire de 64kb/s dans chaque sens. Le simple remplacement d'un canal analogique par un canal numérique offre très peu d'avantages mais l'approche numérique permet l'utilisation du multiplexage temporel (TDM) et il est possible de multiplexer jusqu'à 30 canaux, formant un flux binaire de 2Mb/s.
- Étape 1 : Échantillonnage.
C'est un peu e même principe que le cinéma 24 photos par seconde suffisent pour tromper l'oeil et voir la scéne avec une bonne fluidité.
En téléphonie classique avec des téléphones basiques qui existent depuis l'invention du téléphone, les signaux analogiques vocaux (ainsi que les tonalités transmises) d'une conversation en cours entre deux abonnés sont tout d'abord échantillonnés à la fréquence de 8.000 Hz. (Un échantillon vocal est prélevé et mesuré toutes les 125 µs. Ceci signifie que l'on effectue 8.000 mesures de tension à chaque secondes.)
Un tel échantillonnage permet de pouvoir reconstituer à chaque extrémité de la chaîne de commutation et de transmission les conversations de manière fidèle jusqu'à une fréquence maximale audible de 4.000 Hz, limite suffisante pour reconstituer des conversations en cours qui soient compréhensibles. L'échantillonnage est en fait une approximation d'un signal analogique dans le temps.

- Étape 2 : Quantification.
Une fois les échantillons vocaux prélevés toutes les 125 µs, il est nécessaire de procéder à une seconde approximation : l'approximation en niveau de tension.
En effet, un signal analogique étant susceptible de prendre une infinité de valeurs entre une tension A et une tension B, cet aspect impose de réduire les valeurs de tensions possibles de ces échantillons en un nombre limité de valeurs-étalons. La valeur de sortie de l'étage de quantification est la valeur-étalon de référence la plus proche de la valeur réelle de la tension d'échantillonnage d'entrée.
Il a été retenu, en norme téléphonique, que les niveaux de tensions échantillonnées seraient compris entre 256 niveaux de tensions différents (256 valeurs-étalons). (Chaque échantillon est donc systématiquement arrondi en une valeur numérique comprise entre une valeur comprise entre 0 et 255.)
Une telle quantification, même s'il ne s'agit pas de Haute-Fidélité telle que l'on pourrait la qualifier en acoustique, permet en norme téléphonique, le codage de suffisamment d'états d'amplitude possibles des signaux vocaux.

Étape 3 : Codage.
Puis ces échantillons vocaux, qui peuvent prendre 256 valeurs différentes sont convertis en numération binaire (en base 2) sur des mots d'une longueur de 8 bits. À partir de là, les échantillons sont devenus des nombres exprimés en base 2, c'est à dire par un nombre au format de 8 chiffres, dont chaque chiffre peut prendre la valeur 0 ou 1.
Comme ces signaux codés sont échantillonnés à la fréquence de 8.000 Hz, sur un mot binaire de 8 bits, le débit équivalent en éléments binaires par secondes (e.b/s) sera de 8.000 Hz x 8 bits = 64.000 bits/s. Bit se traduit par Élément Binaire : 0 ou 1.

Il serait déjà avantageux de réaliser des transmissions sur de longues distances sous forme numérique, car l'intérêt premier serait de pouvoir amplifier de manière peut coûteuse la liaison numérisée, étant donnée que nous savons à l'avance qu'à un instant donné, la valeur théorique transportée est soit égale à 0, soit égale à 1. Par contre, nous ne pourrions transporter sur de longues distances qu'une seule voie téléphonique simultanément, ce qui finalement ne s'avérerait pas très avantageux... Il faut donc trouver un moyen supplémentaire.
Le Multiplexage Numérique.
Lorsque nous avons échantillonné à chaque instant T, toutes les 125µs, en fait, cet instant T a duré 3,90µs. (durée fixée par les normes téléphoniques : il faut l'instant le plus court possible, mais tout en gardant une durée suffisamment longue de sécurité, eu égard aux tolérances des composants électroniques, qui eux, sont bien réels, et ne sont pas des formules mathématiques parfaites...)
Donc, sur une liaison numérique, nous voyons qu'il y a un temps mort de 125µs - 3,90µs = 121,10µs.
Puisqu'il existe un si grand temps mort entre deux échantillons numériques vocaux, pourquoi ne pas y insérer d'autres échantillons vocaux émanant d'autres conversations téléphoniques ?
Ainsi nous pourrions transmettre sur une même liaison numérique 125µs/3,90µs = 32 conversations téléphoniques numérisées à la fois ! En fait, si la durée d'échantillonnage est de 3,90µs, nous avons 32 Intervalles de Temps disponibles (IT) pour faire circuler à la fois successivement et simultanément 32 conversations téléphoniques.
C'est ce que l'on appelle le Multiplexage Numérique : à partir d'une simple liaison numérique, nous pouvons acheminer simultanément 32 voies téléphoniques, de quoi faire disparaître la pénurie de capacités de voies de transmissions de conversations, en réutilisant les liaisons métalliques existantes, qui ne peuvent acheminer en basses fréquences qu'une seule conversation à la fois...

Le Multiplexage Numérique est en fait un système Multiplex à répartition dans le temps.

Ces signaux numérisés sous forme de mots binaires de 8 bits, émanant d'une conversation en cours, avec un débit binaire de 64.000 bits/s, sont ensuite insérés dans une voie d'un Circuit MIC, et ce côte à côte avec d'autres signaux provenant d'autres conversations en cours. (jusqu'à 30 conversations téléphoniques simultanées peuvent circuler sur une même liaison MIC.)

Un Circuit MIC est équipé de 32 voies, car une Liaison MIC est "découpée" en 32 Intervalles de Temps de 3,90µs chacun.
Mais seulement 30 voies sont en réalité réservées au transport des conversations téléphoniques, car 2 voies sont notamment affectées à la synchronisation et au contrôle d'erreur. En effet, parmi les 32 voies, numérotées de 0 à 31,
- la voie 0 est destinées à la synchronisation : qui doit permettre d'indiquer aux équipements de multiplexage (ou de démultiplexage) quel est le premier Intervalle de Temps parmi les 32 possibles,
- la voie 16 est destinée par convention à l'échange de signaux de signalisation (dialogues) entre équipements téléphoniques, pour permettre l'aiguillage des conversations, le contrôle d'erreurs etc...

Le risque de diaphonie (mélange) entre plusieurs conversations est quasiment inexistantant.

Une fois multiplexés, les signaux des 30 voies de conversations téléphoniques sortent sur une Liaison M.I.C.

sommaire

La synthèse vocale

C' est une discipline dont l’objectif est de produire de façon artificielle (mécanique ou électronique) des effets sonores imitant la voix humaine. Elle permet de convertir des textes écrits en une forme vocalisée. Les anglo-saxons parlent alors de Text to Speech ou TTS.
Outre la lecture de textes à destination de personnes malvoyantes ou non voyantes, la synthèse vocale entre notamment en application dans le cadre d’interfaces hommes machines sonores. Elle est dans ce cas utilisée conjointement avec une technologie de reconnaissance vocale, dont le but est de retranscrire un message sonore sous une forme intelligible pour l’ordinateur (qui consiste donc à réaliser l’opération inverse du point de vue conceptuel, bien que le processus soit totalement différent).

La synthèse vocale fait désormais partie de notre quotidien. Elle est présente dans nos smartphones, nos GPS ou encore dans nos salons avec les enceintes connectées. Elle est également plébiscitée pour la simplification des interactions qu’elle permet. Les voix d’Alexa ou de Google Home sont aujourd’hui très proches de réelles voix humaines. Mais obtenir un résultat aussi naturel et agréable à l’oreille a nécessité des dizaines d’années de recherche.

Du siècle des Lumières aux années 30
Doter la machine de la parole a toujours intéressé les savants. L’effervescence créative du siècle des Lumières a été marquée par la création d’automates. La volonté de les faire parler est apparue en parallèle. L’idée de la synthèse vocale commence à se développer. Des machines à parler mécaniques sont notamment construites, comme la Speaking machine de Wolfgang von Kempelen, en 1791.
Depuis sa création, plusieurs chercheurs ont repris le travail de Wolfgang von Kempelen en y intégrant les nouvelles technologies développées à leur époque.
En 1939, une université allemande reproduisait par exemple la Speaking machine comme nous pouvons le voir dans la photo ci-dessous.
synthèse vocale, lumières, machine.

Réplique de la Speaking Machine de Kempelen construite en 2007 par le Département de Phonetics, Saarland University, Saarbrücken, Germany.

Cette machine mécanique peut être considérée comme un instrument à vent. Elle est constituée de différentes parties sensées remplacer les fonctions de différents organes de l’anatomie humaine entrant en action dans l’émission de sons : poumons, thorax, narines, glotte et bouche .

Serge DURIN, facteur d’instruments à vent, teste la machine parlante reconstruite d’après le traité écrit par le baron WOLFGANG VON KEMPELEN.

Synthèse vocale électronique : le Voder et le Vocoder
Durant tout le début du 20e siècle, plusieurs chercheurs travaillent sur la synthèse vocale. Parmi eux, les laboratoires Bell, qui vont marquer l’histoire de l’informatique et de la synthèse vocale.
De 1936 à 1939, les laboratoires Bell développent, sous la direction de l’ingénieur acoustique et électronique Homer Dudley, le premier synthétiseur vocal électronique. La synthèse vocale de cette machine se fait via une interface rappelant celle d’une machine à écrire. Les commandes étaient constituées d’un clavier ainsi que de pédales permettant de moduler les effets sonores.

Le Voder est une version simplifiée du célèbre Vocoder développé par Homer Dudley de 1926 à 1939. Le Vocoder, dont le nom est la contraction de “Voice Encoder” a été conçu suite à la volonté des laboratoires Bell de réduire le coût des appels téléphoniques transcontinentaux. Pour cela, il effectuait une opération d’encodage du côté de la personne parlant et décodait le signal du côté de la personne qui l’écoutait. Cela permettait de faire transiter un minimum d’informations et donc d’économiser de la bande passante.
L’astuce consistait à découper le signal sonore en une multitude de plages de fréquences grâce à des filtres passe-bande. Ainsi il était possible d’analyser l’amplitude du signal de chacune de ces plages de fréquences. Ces caractéristiques étaient ensuite appliquées à une fréquence fondamentale transformée en y appliquant les modulations provenant des différentes bandes. (Pour en savoir plus, voir la présentation rédigée par Thomas Carney dans le cadre du Graduate Program in Audio and Acoustics, de l’université de Sidney)

Illustration provenant de la vidéo “The secret history of Vocoder”

Le Vocoder a été utilisé à partir de 1943 par l’armée américaine dans le cadre du système SIGSALY. Il a succédé au système A-3 dont les fonctionnalités de cryptage commençaient à être jugées insuffisantes pour les transmissions audio durant la Seconde guerre mondiale. Les sonorités synthétiques et métalliques du Vocoder sont désormais de notoriété publique. Elles ont en effet été réutilisées dès la fin des années 1960 dans de nombreux films (notamment pour faire parler des robots) et en musique à des fins artistiques. Il s’agit encore aujourd’hui d’un effet très utilisé dans de grands hits musicaux d’artistes comme Daft Punk par exemple.

Nous vous invitons à visionner cette vidéo anglophone publiée par The New Yorker, intitulé The Secret History of the Vocoder (L’Histoire secrète du Vocoder). Elle illustre la diversité des usages de cet appareil.

sommaire

La reconnaissance vocale

Les travaux sur la reconnaissance de la parole datent du début du XXe siècle.
Le premier système pouvant être considéré comme faisant de la reconnaissance de la parole date de 1952.
Ce système électronique, développé par Davis, Biddulph et Balashek aux laboratoires Laboratoires Bell, était essentiellement composé de relais et ses performances se limitaient à reconnaître des chiffres isolés.

En 1952, alors que la recherche financée par le gouvernement américain prenait de l'ampleur, les laboratoires Bell développèrent un système de reconnaissance automatique de la parole capable d'identifier les chiffres de 0 à 9 prononcés au téléphone.
Des progrès majeurs suivirent au MIT. En 1959, un système identifia avec succès les voyelles avec une précision de 93 %. Sept ans plus tard, un système doté d'un vocabulaire de 50 mots fut testé avec succès.
Au début des années 1970, le programme SUR donna ses premiers résultats substantiels. Le système HARPY, à l'université Carnegie Mellon, pouvait reconnaître des phrases complètes constituées d'un nombre limité de structures grammaticales. Mais la puissance de calcul nécessaire était prodigieuse ; il fallait 50 ordinateurs contemporains pour traiter un canal de reconnaissance.

La recherche s'est ensuite considérablement accrue durant les années 1970 avec les travaux de Jelinek chez IBM (1972-1993).
La société Threshold Technologies fut la première à commercialiser en 1972 un système de reconnaissance d'une capacité de 32 mots, le VIP100. Aujourd'hui, la reconnaissance de la parole est un domaine à forte croissance grâce à la déferlante des systèmes embarqués.

Une évolution rapide :

1952 : reconnaissance des 10 chiffres par un dispositif électronique câblé.
1960 : utilisation des méthodes numériques.
1965 : reconnaissance de phonèmes en parole continue.
1968 : reconnaissance de mots isolés par des systèmes implantés sur gros ordinateurs (jusqu’à 500 mots).
1970 : Leonard E. Baum met au point le modèle caché de Markov, très utilisé en reconnaissance vocale1.
1971 : lancement du projet ARPA aux États-Unis (15 millions de dollars) pour tester la faisabilité de la compréhension automatique de la parole continue avec des contraintes raisonnables.
1972 : premier appareil commercialisé de reconnaissance de mots.
1978 : commercialisation d'un système de reconnaissance à microprocesseurs sur une carte de circuits imprimés.
1983 : première mondiale de commande vocale à bord d'un avion de chasse en France.
1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs milliers de mots.
1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en temps réel.
1993 : Esprit project SUNDIAL2
1997 : La société Dragon lance « NaturallySpeaking », premier logiciel de dictée vocale.
2008 : Google lance une application de recherche sur Internet mettant en œuvre une fonctionnalité de reconnaissance vocale
2011 : Apple propose l'application Siri sur ses téléphones3.
2017 : Microsoft annonce égaler les performances de reconnaissance vocale des êtres humains4.
2019 : Amazon lance la reconnaissance vocale en consultation de médecine5
2023 : Nabla lance la transcription puis synthèse de consultation6 et classification CISP2 CIM10 du résultat de consultation.

Depuis 2024, de nombreux logiciels de transcriptions utilisent l'intelligence artificielle : l'IA

Les systèmes de reconnaissance vocale modernes utilisent des modèles du langage qui peuvent nécessiter des gigaoctets de mémoire ce qui les rend impraticables, en particulier sur les équipements mobiles. Pour cette raison, la plupart des systèmes de reconnaissance vocale modernes sont en fait hébergés par des serveurs distants SVI et nécessitent une connexion internet et l'envoi à travers le réseau du contenu vocal.
- Cortana (Microsoft)
- Siri (Apple)
- Google Now (Google)
- Alexa (Amazon)
- Vocapia Research (VoxSigma suite)
- Vocon Hybrid et Dragon (respectivement dictée par grammaire et dictée libre par Nuance Communications)
- LinTO (logiciel libre développé sous licence open source par Linagora).
- Mozilla a lancé un projet communautaire, Common Voice, visant à recueillir des échantillons de voix dans une base de données libres, pour entraîner des moteurs de reconnaissance vocale non-propriétaires...

Un serveur vocal interactif ou SVI (en anglais, interactive voice response ou IVR) est un système informatique capable de dialoguer avec un utilisateur par téléphone. Il est capable de recevoir et d'émettre des appels téléphoniques, de réagir aux actions de l'utilisateur (appui sur des touches du téléphone, reconnaissance vocale ou reconnaissance de son numéro téléphonique d'appel) selon une logique préprogrammée, de diffuser des messages préenregistrés ou en synthèse vocale, et d'accéder à des bases de données d'autre part. Un serveur vocal interactif est généralement capable de traiter de nombreux appels simultanés indépendants.

FERMA a été le premier à fournir des systèmes où la parole était créée par Text To Speech ("synthèse à partir du texte") avec la technologie de diphones du CNET développée à Lannion et aussi donnant la possibilité de dialogue à partir à la fois de "postes à cadran" et de postes à touche DTMF.
La technologie originale de traitement des signaux transitoires envoyés par les cadrans était importante compte-tenu du parc limité des postes DTMF et de l'absence de reconnaissance de parole multi-locuteur de performance suffisante, les utilisateurs en étaient si convaincus cette fonctionnalité "reconnaissance décimale" faisait partie des obligations dans les appels d'offres publics audiotels de la fin des années 1990.
De nombreuses applications vocales basées sur l'interactivité par "téléphone décimal" ont pu se développer à Taïwan et en Chine,pays où il y avait très peu de DTMF à cette époque.

sommaire

L'application IA pour la reproduction et la traduction de lavoix

Le clonage de voix gratuit est une technologie basée sur l'IA qui permet de reproduire la voix d'une personne à l'aide d'algorithmes d'apprentissage automatique. L'application IA pour la reproduction de voix en ligne vous permet de créer des audios de haute qualité qui ressemblent étroitement à la voix originale.

Lancé en septembre 2024 en dehors de l’Union européenne, le nouveau mode « Avancé » de ChatGPT Voice permet de discuter avec un assistant vocal futuriste qui comprend les émotions, peut les imiter, accepte qu’on lui coupe la parole et peut même faire des accents ou se lancer dans un jeu de rôle. La France y a accès depuis le 22 octobre 2024.

Traduction instantanée et évolutive avec Language Weaver
La traduction automatique (TA), une forme précoce d'intelligence artificielle linguistique et une ressource fiable dans le processus de traduction, est disponible sur la plateforme Trados depuis des décennies. Elle fournit une traduction instantanée que vous pouvez utiliser de différentes manières : utilisez-la de manière indépendante pour la traduction automatique, intégrez-la dans vos processus pour une utilisation interactive ou choisissez d'en affiner le résultat par le biais de la post-édition.
Si la traduction automatique vous intéresse, Language Weaver est notre solution de traduction automatique évolutive, basée sur l'IA, offrant les dernières avancées en matière de traduction automatique sécurisée. Trados étant au cœur d'un riche capital technologique, nous vous offrons également la possibilité de vous connecter à des dizaines de fournisseurs de traduction automatique tiers, afin que vous puissiez personnaliser et compléter votre solution en fonction de vos besoins.

AI Phone est une application d'appel téléphonique alimentée par l'intelligence artificielle avec traduction en direct. La traduction de conversation téléphonique en direct élimine les barrières linguistiques et d'accent, vous permettant de communiquer sans effort dans différentes langues pendant vos appels.

Les voix légendaires s’expriment sur l’IA dans le doublage
CHATTANOOGA, TN – Pour les enfants et parents de ma génération, rien ne pouvait rivaliser avec les dessins animés du samedi matin, accompagnés d’un bol de céréales au chocolat.
Lorsque nous réentendons ces voix d’autrefois, cela ravive en nous des souvenirs de ces matinées lointaines. Avec l’intelligence artificielle en plein débat, la question se pose : s’agit-il vraiment de la voix de notre enfance, ou est-ce simplement le produit d’une IA ?
Au Comic Con de Chattanooga, deux voix emblématiques ont partagé leurs expériences et leurs réflexions concernant l’IA dans le monde du doublage.
Selon Scott Innes, voix de Scooby-Doo, Shaggy et d’autres personnages, « C’est effrayant, vous savez ? Quand vous entrez dans un magasin et que vous touchez un jouet qui danse en émettant des sons que vous reconnaissez. Vous vous dites ‘oui, c’est ma voix, mais je ne suis pas allé en studio pour cela.’ Ensuite, vous contactez votre agent, qui vous informe qu’ils ne se sentent pas redevables car cela a été généré sans que vous fassiez le moindre travail. C’est du vol, mais il n’y a pas encore de loi solide qui empêche cela. »

Rob Paulsen, qui incarne des personnages comme Pinky dans « Pinky et le Cerveau », a une vision légèrement différente. « Pour moi, Warner Bros possède Yako dans Animaniacs. S’ils reproduisent des segments existants pour d’autres usages, cela leur appartient. Je sais qu’ils sont impérativement tenus de me verser une rémunération supplémentaire si cela est stipulé dans notre contrat. Cependant, l’arrivée de l’IA complique les choses. Si Warner Bros possède la voix et le personnage et souhaite créer quelque chose de nouveau avec, quelles sont les limites ? C’est un monde audacieux qui s’ouvre à nous. »

Un exemple marquant est celui de James Earl Jones, qui a signé des droits d’utilisation de sa voix pour le personnage de Dark Vador.
Il est difficile d’imaginer un film Star Wars sans cette voix iconique, et Jones a été généreusement compensé pour cela avant sa retraite. Cela soulève des interrogations quant à ce que nous laisserons à l’IA pour la suite – après tout, qui aurait pu anticiper les événements du film Matrix sorti en 1999 ?

Notre Vision
À l’heure où la technologie, notamment l’intelligence artificielle, redéfinit des domaines créatifs comme le doublage, il est essentiel de réfléchir aux implications de cette évolution. La voix humaine, avec toutes ses nuances et son expressivité, représente un aspect fondamental de la narration. L’IA peut certainement imiter, mais peut-elle vraiment capturer l’essence même de l’émotion humaine ?
En tant que professionnels, nous devons rester vigilants quant à la manière dont ces technologies interfèrent dans nos métiers et réfléchir à des approches qui préservent notre savoir-faire tout en intégrant de manière éthique les innovations technologiques. C’est avec une telle perspective que nous pourrions naviguer dans ces nouveaux territoires sans compromettre la richesse de notre art.

sommaire

Demain ?