La production,
la reproduction et la transmission de la voix humaine
La voix humaine tient une place particulière
dans la recherche acoustique.
Tout d'abord il s'agit d'un instrument de musique "vivant",
faisant partie intégrante du corps humain, dont l'observation
en cours de production sonore reste, aujourd'hui encore, difficile d'accès.
Ensuite, les signaux produits par la voix humaine sont dotés
d'une très forte prégnance cognitive, et forment une catégorie
perceptive qui se structure très tôt dans la mémoire
auditive. S'inscrivant implicitement dans un schéma de communication
impliquant au moins deux partenaires, ils activent alternativement deux
attitudes d'écoute. La première est l'écoute sémantique,
en quête de sens : identité du locuteur, signification
des paroles prononcées, éventuellement signes sémantiques
prosodiques; la deuxième est l'écoute qualitative, celle
des variations esthétiques des
paramètres sonores, mise en oeuvre lors de la production chantée.
Comprendre le mécanisme de la voix
Doter la machine de la parole a toujours intéressé les
savants. Leffervescence créative du siècle des Lumières
a été marquée par la création dautomates.
La volonté de les faire parler est apparue en parallèle.
Christian Gottlieb Kratzenstein (1723 1795)
La première machine de synthèse
vocale mécanique connue à ce jour a été
construite par le scientifique allemand Christian Gottlieb Kratzenstein.
Né le 30 janvier 1723 à Wernigerode, il obtenait
à lâge de 23 ans des doctorats en médecine
et physique à luniversité de Halle pour ses
thèses Theoria fluxus diabetici et Theoria electricitatis
mores geometrica explicata concernant la nature de lélectricité.
Deux ans plus tard, il a été appelé à
lAcadémie des Sciences à Saint-Pétersbourg.
En 1753, il est engagé comme professeur de physique expérimentale
à luniversité de Copenhague où il fût
nommé recteur quatre fois de suite.
Gottlieb Kratzenstein était un proche (certains
disent un protégé) du mathématicien renommé
suisse Leonhard Euler qui exerçait également à
lAcadémie des Sciences à Saint-Pétersbourg.
Dans sa correspondance (conservée aux archives de luniversité
de Bâle) avec le mathématicien Johann Heinrich Lambert,
Leonhard Euler exprimait dès 1758 ses réflexions
sur la nature des voyelles a, e, i, o, u et proposait la construction
dune machine parlante pour mieux comprendre lorganisme
du langage humain. Sur initiative de Leonhard Euler, lAcadémie
des Sciences à Saint-Pétersbourg organisait en 1778
une compétition pour réaliser un appareil de synthèse
des voyelles de la voix humaine.
Après son départ à Copenhague,
Gottlieb Kratzenstein avait gardé de bonnes relations avec
ses pairs à lacadémie et il était très
intéressé à cette compétition. En
se basant sur les études afférentes de Leonhard
Euler, il a parfait sa machine parlante construite dès
1773, en utilisant des tubes et des tuyaux organiques pour créer
des cordes vocales artificielles. Il sest surtout inspiré
du jeu vox humana de lorgue.
En 1780, il a gagné le premier prix de la compétition
avec son projet dun orgue vocal. Une année plus tard
il a publié une description en latin du projet : Tentamen
Resolvendi Problema. Une version traduite en allemand de cette
oeuvre a été publiée en 2016.
Gottlieb Kratzenstein na pas seulement fourni une contribution
appréciée pour la synthèse vocale, mais il
a également fait avancer la science dans les domaines de
la chimie, de la navigation, de lastronomie, de la neurologie
et de lélectricité. En 1743 il avait même
rédigé une oeuvre philosophique Beweis, dass die
Seele ihren Körper baue. Dans la suite il publiait Abhandlung
von dem Nutzen der Electricität in der Arzeneiwissenschaft
concernant lélectrothérapie.
Gottlieb Kratzenstein était marié et il avait quatre
enfants. Il est décédé en 1795. Un de ses
petits-fils est Christian Gottlieb Stub, un peintre danois renommé
qui porte les prénoms de son grand-père et qui a
ajouté dans la suite également le nom de famille
Kratzenstein à son nom. Né en 1783, il est décédé
en 1816 à lâge de 33 ans.
Dans ce contexte il convient de mentionner également léchange
de lettres entre Gottlieb Kratzenstein et lastronome renommé
Johann III Bernouilli après la mort de lépouse
du premier. Susan Splinter a rédigé une contribution
Ein Physiker auf Brautschau à ce sujet.
Johann Wolfgang von Kempelen (1734 1804)
Si on sintéresse pour lhistoire
de la synthèse vocale on pense dabord à Johann
Wolfgang von Kempelen. Né le 23 janvier 1734 à Presbourg
(aujourdhui Bratislava) et décédé le
26 mars 1804 à Vienne, Wolfgang von Kempelen (Farkas Kempelen
en hongrois) était ingénieur et conseiller aulique
à la Cour impériale de Vienne. Il est surtout connu
sous le nom de Baron von Kempelen pour linvention du Turc
mécanique en 1769, un automate célèbre qui
avait lapparence dun Turc et actionnait les pièces
dun jeu déchecs.
Wolfgang von Kempelen a commencé au début
des années 1770 à construire une machine parlante,
c.à.d. à la même époque où Gottlieb
Kratzenstein commencait à sintéresser pour
la synthèse vocale à Copenhague. Wolfgang von Kempelen fabriquait plusieurs prototypes qui
menaient à des échecs. Pour la première version
il utilisait un soufflet de cuisine, une anche (roseau) de cornemuse
et une cloche de clarinette.
Pour la seconde version il utilisait une console dorgue
avec un clavier où les différentes touches étaient
associés à des lettres. Les sons étaient
produits avec des tubes de différentes formes et longueurs.
Le problème était toutefois le chevauchement (co-articulation)
des différents sons qui empêchait la génération
de syllabes.
Wolfgang von Kempelen concluait quil fallait mieux comprendre
le fonctionnement de lappareil phonatoire humain pour progresser.
Ce nest quau début des années 1780 que
son modèle réalisé lui donnait satisfaction
et quil le présentait au public.
Contrairement à la machine de Gottlieb Kratzenstein, la
construction de Wolfgang von Kempelen était la première
à produire, non seulement certaines voyelles, mais surtout
des mots entiers et des courtes phrases.
En 1791 Wolfgang von Kempelen a publié un livre Mechanismus
der menschlichen Sprache nebst der Beschreibung seiner sprechenden
Maschine pour expliquer aux personnes intéressées
les principes de sa machine. Le livre comprenait 456 pages. Lobjectif
de cet ouvrage nétait pas seulement délucider
le mystère de létonnant appareil, mais aussi
dinciter le lecteur à le perfectionner de sorte quon
puisse enfin en obtenir ce pour quoi il fut imaginé. On
peut considérer la description de Wolfgang von Kempelen
comme un premier projet open-source.
Lauteur formule dans son livre quelques hypothèses
essentielles sur la production de la parole humaine. Il proposait
une conception de la langue qui nétait plus envisagée
comme souffle de lâme, mais tout simplement comme
de lair séchappant à travers des fentes
de formes variables. En sobservant lui-même, Wolfgang
von Kempelen décrivait également les différents
sons et les positions que devaient prendre les organes phonateurs
pour les produire.
Le musée des sciences et de la technique
à Munich (Deutsches Museum), créé en 1903,
expose dans un coin du département des instruments de musique
une machine parlante désignée comme celle construite
par Wolfgang von Kempelen. Elle a été offerte au
musée en 1906 par lAcadémie de la Musique
à Vienne. Suite à ses recherches, Fabian Brackhane
conteste quil sagit de loriginal de Wolfgang
von Kempelen. Il estime plutôt quil sagit dune
réplique construite par Charles Wheatstone.
Il sagit dune construction composée dun
caisson en bois, dun entonnoir en caoutchouc qui faisait
office de bouche et dun second, plus petit, divisé
en deux, qui remplissait les fonctions dun nez. Le mécanisme
interne était un soufflet qui simulait les poumons. Le
flux dair était conduit dans la bouche
par lintermédiaire dun couloir très
étroit. Une hanche vibrante, sorte de glotte et de cordes
vocales réunies, produisait un son. Celui-ci était
ensuite modulable par différents petits leviers et lutilisation
des doigts de lopérateur pour modifier lair
à la sortie de la bouche afin de simuler le
mouvement des lèvres.
Grâce au livre de Wolfgang von Kempelen,
plusieurs chercheurs ont réussi à construire une
réplique de sa machine parlante. Un exemple a été
créé au département des sciences et technologies
du langage à luniversité de la Sarre.
Depuis sa création, plusieurs chercheurs ont
repris le travail de Wolfgang von Kempelen en y intégrant les
nouvelles technologies développées à leur époque.
Serge DURIN, facteur dinstruments à vent,
teste la machine parlante reconstruite daprès le traité
écrit par le baron WOLFGANG VON KEMPELEN.
Le musée des sciences et de la technique à Munich y a
présenté sa machine parlante de von Kempelen. Cette exposition
virtuelle peut encore être visitée sur la plate-forme Arts
& Culture de Google qui était partenaire de lexposition.
Robert Willis (1800 1875)
Né en 1800, Robert Willis était
un académicien anglais, renommé comme ingénieur
en mécanique et pour ses publications au sujet de larchitecture.
Il a été ordonné prêtre en 1827. Le
révérend Willis a publié deux contributions
très appréciées sur la mécanique de
la parole humaine dans le journal Transactions of the Cambridge
Philosophical Society : On vowel sounds, and on reed-organ pipes
en 1828 et On the Mechanism of the Larynx en 1829.
La contribution de Robert Willis a été traduite
en allemand en 1832 dans le journal scientifique Annalen der Physik
und Chemie.
Robert Willis a repris les travaux pratiques de
Gottlieb Katzenstein et il a testé plusieurs variantes
de résonateurs pour parfaire la génération
des voyelles. Transactions of the Cambridge Philosophical Society, 1830,
Vol III
Charles Wheatstone (1802 1875)
Né en 1802, Charles Wheatstone est un physicien
et inventeur anglais. On lui doit le premier télégraphe
électrique au Royaume-Uni, le pont de Wheatstone, le stéréoscope,
un microphone, et linstrument de musique Concertina.
En 1835, Charles Wheatstone présentait
une réplique de la machine parlante de Wolfgang von Kempelen.
Il profitait des progrès technologiques réalisés
dans les dernières décennies pour parfaire la construction.
En 1837 il publiait un article au sujet des inventions de Gottlieb
Kratzenstein et de Wolfgang von Kempelen ainsi que sur la contribution
On vowel sounds de Robert Millis, dans le journal
The London and Westminster Review. ->
Rapport de la réunion à Dublin en 1835
A gauche "The London and Westminster review, Vol 28, october
1837"
Deux années plus tôt, Charles Wheatstone
avait déjà exposé ses études et présenté
sa réplique dune machine parlante à lassociation
britannique pour lavancement des sciences lors de son assemblée
à Dublin en août 1935.
En 1930 Richard Paget, un avocat anglais et amateur des sciences,
publiait son livre Human Speech. Cest le dernier qui rapportait
au sujet de la réplique de la machine parlante réalisé
par Charles Wheatstone sur base de la description de Wolfgang
von Kempelen. Dans son livre il a publié lesquisse
suivante de lengin : Livre
Human Speech de Richard Page, 1930, page 18 Fabian Brackhane a signalé dans sa dissertation Kann
was natürlicher, als Vox humana, klingen ? de 2015 que la
réplique de Charles Wheatstone se trouve aujourdhui
dans un dépôt du Musée des Sciences à
Londres avec lattribution Wheatstones artificial
voice box. Il a même réussi à obtenir des
photos de la construction quil a publiée dans sa
dissertation.
Joseph Faber (1800 1850)
Joseph Faber est né aux environs de 1796
à Fribourg-en-Brisgau. Il a fait des études de physique,
mathématiques et musique à lInstitut polytechnique
impériale et royale à Vienne. Pour se remettre dune
grave maladie, il est retourné à sa ville de naissance
en 1820. Pendant sa reconvalescence, il sest mis à
construire pendant 17 ans une machine parlante améliorée
sur base du livre de Wolfgang von Kempelen.
Une ancienne gravure, dont on ignore lauteur
et la date de création (éventuellement 1835), montre
une jeune dame (probablement lépouse de Joseph Faber)
qui manipule le clavier à 16 touches de la machine parlante.
La face de la tête est posée sur la table et on peut
voir la bouche de la machine avec des lèvres et une langue.
Gravure ancienne
de la machine parlante Euphonia.
En 1840, il a présenté son invention, quil
appelait Euphonia, au public à Vienne et au Roi de Bavière
en 1841. Linstituteur Schneider de Bauernwitz décrit
en 1841 dans un journal pédagogique (Der katholische Jugendbildner)
le fonctionnement de la machine quil a pu voir lors de sa
visite à Vienne la même année. Lexistence
de cette machine a été signalée en janvier
1841 dans le même journal.
En 1842 il exposait la machine à Berlin et à Dresde,
une année plus tard à Leipzig. Comme il ne rencontrait
pas lintérêt souhaité, il décidait
de lexposer aux États-Unis. En 1844 il la présentait
à New York, une année plus tard à Philadelphia
(Musical Fund Hall), sans succès. Ce fût Phineas
Taylor Barnum, lentrepreneur américain de spectacles
(cirque Barnum) qui la rendit célèbre. Il amena
Joseph Faber à Londres et présenta la machine à
lEgyptian Hall à partir de 1846.
Le périodique Illustrated London News du
8 août 1846 (page 16) rapportait sur cette nouvelle attraction
exposée à Londres.
La face de la tête a été appliquée
et le mécanisme de la machine a été caché
par un rideau et un buste de poupée pour faire ressembler
la machine à un vrai personnage.
Le journal satirique anglais Punch (The London
Charivari) a publié dans son volume 11, 1846, page 83,
une contribution Speaking Machine avec un dessin humoristique
au sujet de la machine parlante Euphonia de Joseph Faber.
Le dessin est attribué à lauteur anglais William
Makepeace Thackeray qui se moque des parlementaires Lord George
Bentinck et Benjamin Disraeli. Richard Daniel Altick a repris
dans son livre The Shows of London, publié en 1978, ces
illustrations.
Après Londres, P. T. Barnum a exposé
la machine parlante de Joseph Faber dans son musée américain
des curiosités à New York. Cest là
que le photographe américain Mathew Brady prenait la photo
suivante vers 1860.
En novembre 1870, le périodique The London Journal a publié
une nouvelle contribution sur la machine parlante.
Larticle précise quune Talking Machine du Professeur
Faber de Vienne est exposée au Palais Royal, Oxford-Circus,
et quune visite vaut la peine. Il semble donc que la machine
a été retournée des États-Unis à
Londres. Laffiche suivante qui fait partie de la collection
de Ricky Jay date probablement de cette époque.
En 1873, les affiches, courriers et annonces dans la presse concernant
le nouveau cirque itinérant de P. T. Barnum, sous le nom
de P. T. Barnums Great Traveling Worlds Fair, incluaient
des images de la machine parlante de Joseph Faber.
P. T. Barnum mettait la machine parlante en évidence avec
les attributs wonderful, marvelous, amazing, greatest invention
of modern times. P. T. Barnum se vantait même davoir
payé 20.000 $ pour la présentation exclusive de
cette attraction durant 6 mois.
Sur les publicités de P. T. Barnum pour la machine parlante
du Professeur Faber on voit un jeune homme qui manipule le clavier.
Il sagit probablement du mari de la nièce de Joseph
Faber. Après le décès de celui-ci le 2 septembre
1866 à Vienne, sa nièce avait hérité
la machine parlante et son mari se faisait passer pour le professeur
Faber. Le cirque Barnum exposait la machine jusquen 1875.
Ensuite la nièce, avec la complicité de son mari,
continuait à la présenter jusquen 1885 à
Londres et Paris (Grand-Hôtel en 1877, salle à proximité
du théâtre Robert-Houdin en 1879) sous le nom de
Amazing Talking Machine.
C'est dans cette période que A.G. Bell
étudiait de son côté la reproduction de la
voix et travaillait sur la télégraphie multiple.
Après 1885, on ne trouve plus trace de
la machine.
Malgré tous les efforts, lEuphonia
na jamais dépassé le stade dune curiosité.
En réalité linvention de Joseph Faber était
vraiment une version améliorée de la machine parlante
de Wolfgang von Kempelen. Un clavier de 16 touches actionnait
un mécanisme comprenant une série de six plaques
de métal coulissantes qui avaient des ouvertures de formes
variées à leurs extrémités. Quand
ces plaques étaient soulevées ou rabaissées,
elles créaient un courant dair finement nuancé
envoyé par un soufflet. Lair atteignait ensuite une
cavité qui imitait lanatomie humaine du palais avec
des joues en caoutchouc, une langue en ivoire et une mâchoire
inférieur. Avec cette construction Joseph Faber pouvait
produire des voyelles et consonnes dans différentes langues.
Il est rapporté que la machine pouvait même chanter
God save the Queen.
Parmi les visiteurs des présentations de
la machine parlante de Joseph Faber figurent des personnalités
comme Frédéric Chopin (lettre du 11.10.1846 à
ses parents), Robert W. Patterson, Joseph Henry, Graham Bell et
le Duc de Wellington.
Aujourdhui Joseph Faber est considéré
comme un vrai pionnier de la synthèse vocale.
Vers 1854, Manuel Garcia frère de la Malibran et auteur
de plusieurs ouvrages sur la voix et lart du chant, dont Mémoire
sur la voix humaine (1840) , en se promenant dans les jardins
du Palais Royal, eut lidée de regarder ses cordes vocales
par le biais de sa canne : la lumière solaire se reflétant
dans le pommeau renvoyait un rayon au niveau de sa bouche. Garcia parvint
ainsi à visualiser le jeu des cordes vocales. Après cette
première « découverte », il plaça pour
améliorer son observation un petit miroir au bout dun long
manche : ce sont les débuts de la laryngoscopie. Lensemble
des expériences de Garcia est recueilli dans ses Observations
physiologiques sur la voix humaine et publié en 1855. Ses recherches
sont complétées par les expérimentations sur le
larynx et les cordes vocales dun autre physiologiste, le médecin
tchèque Czermack. Grâce au laryngoscope, Czermack explore
en 1880 le « fonctionnement des cordes vocales et celui du voile
du palais dans la production des nasales».
Les recherches sont approfondies par des physiologistes
lAutrichien Ernst von Brücke, définit les bases théoriques
de cette nouvelle approche grâce à ses travaux sur lanalyse
des articulations des sons du langage dans les principales langues anciennes
et modernes. Hermann
von Helmholtz, avec son "Die Lehre von des Tonempfinungen",
ouvrage fondamental paru en 1862, donne pour la première fois
une théorie physique des voyelles et montre quelles se
distinguent lune de lautre par leur timbre, doù
sa théorie de la résonance appliquée aux timbres
des sons en harmoniques simultanées. À cet effet, Helmholtz
met au point un instrument de mesure, les « résonateurs
de Helmholtz » (des caisses de résonance sphériques
ouvertes construites initialement en verre puis en laiton), fabriqué
et commercialisé par Rudolph Koenig.
L'apprentissage de la langue la méthode Bell
Alexander Bell opte pour un procédé qui cherche à
rendre la langue « visible » par lutilisation
dun alphabet comportant dix symboles pour la langue, les lèvres,
le larynx et les fosses nasales : le Visible
Speech.
Cet alphabet physiologique donnait la position des organes au cours
de la prononciation et il permettait donc de transcrire « graphiquement
pour chaque son du langage les composantes articulatoires qui les réalisent».
Un« Anglais, qui nétait ni physiologiste ni physicien,
mais simplement professeur de diction», Alexander
Bell, apporte sa contribution à une meilleure
connaissance de larticulation des phonèmes et des voyelles
au moyen dune étonnante méthode. Il lexplique
dans un ouvrage intitulé Visible
Speech : the Science of Universal Alphabetics, or Self-interpreting
Physiological Letters for the Printing and Writing of all Languages
in One Alphabet, dont la première édition
date de 1867.
Cette méthode connaîtra un grand succès dans les
écoles dAngleterre et des États-Unis et sera utilisée
pendant une quinzaine dannées.
Les travaux de la famille Bell se situent à la
croisée des différentes expérimentations et permettent
donc de mettre à jour un certain nombre de relations qui réunissent
plusieurs éléments au premier abord distincts : dune
part la phonétique, la physiologie, la surdité ; dautre
part lacoustique, le téléphone, le phonographe et
le microphone. Après avoir exercé lactivité
de cordonnier, Alexander Melville Bell devient maître délocution
au théâtre royal dEdimbourg. Cest alors quil
ouvre une école de diction et traitement des troubles de la parole.
Il est aussi lauteur de divers ouvrages sur le sujet. Son fils,
Alexander Bell (1819-1905), dans la même lignée, est également
professeur de diction. La parole joue un rôle essentiel dans sa
vie professionnelle et privée, car sa femme Elisa était
devenue sourde à lâge de dix ans après une
scarlatine. Son frère David était aussi professeur délocution
dans une école de Dublin et cest au cours de son enseignement
de la diction quil songe à un système pour faciliter
lapprentissage de la langue et la correction des défauts
de prononciation.
Le flambeau de la famille est repris par le fils dAlexandre
Melville : Alexander Graham Bell (1847-1922).
Celui-ci complète les études de phonétique, des
langues grecque et latine, par lacoustique et la physique. Il
devient lui aussi professeur de diction et, comme son père, épouse
une de ses élèves (une jeune fille devenue sourde à
lâge de cinq ans) : Mabel Hubbard, auteur dun ouvrage
sur la lecture consacré à la lecture les lèvres
(The Subtil Art of Speechreading, 1895). Graham Bell poursuit donc luvre
de son père en travaillant lui aussi sur lidée de
la visualisation comme une solution pour léducation vocale
de ses pensionnaires. « Il est bien connu disait-il
que les sourds et muets ne sont muets que parce quils sont sourds,
et quil ny a dans leur système vocal aucun défaut
qui puisse les empêcher de parler ; par conséquent, si
lon parvenait à rendre visible la parole et à déterminer
les fonctions du mécanisme vocal nécessaire pour produire
tel ou tel son articulé représenté, il deviendrait
possible denseigner aux sourds et muets la manière de se
servir de leur voix pour parler. »
Pour comprendre la production de la voix humaine, il
existe beaucoup d'ouvrages et de sites internet qui traitent sur l'organe
vocal le larynx Pour visualiser cet organe, voici une belle vidéo :
La représentation
graphique des sons
Bell travaille à partir de 1874 sur la
représentation graphique des sons produits, mais sa passion pour
la physique et lacoustique le conduira tout naturellement vers
la recherche de systèmes plus avancés que ceux mis au
point par ses prédécesseurs. Dans le but de visualiser
la parole pour ses élèves, il reprend dabord les
expérimentations existantes, comme celles utilisant la capsule
manométrique de Koenig ou le phonautographe
de Scott de Martinville. Pour rendre ces systèmes plus efficaces,
il en modifie certains composants : il remplace par exemple la membrane
de Scott par une autre plus sensible, ou encore il perfectionne le phonographe
dEdison (vers 1886).
Ensuite, Bell commence à travailler sur un nouveau
procédé et réalise lappareil « à
paroles visibles » (version manuelle). Ce système repose
sur lapplication dune autre invention : celle de «
loreille artificielle ». Graham Bell, en observant
les tracés graphiques réalisés avec le phonautographe,
a eu lintuition de faire un rapprochement entre lappareil
et loreille humaine : « Je fus très frappé
des résultats produits par cet instrument, et il me sembla quil
y avait une grande analogie entre lui et loreille humaine.
Je cherchais alors à construire un « phonautographe
» modelé davantage sur le mécanisme de loreille.
»
Le phonautographe à oreille était un instrument macabre.
Construit par Alexander Graham Bell et Clarence J. Blake en 1874, il
était composé de parties dune oreille humaine retirée
chirurgicalement un fragment de crâne, un canal auditif,
un tympan et des osselets et servait à « écrire
» visuellement des ondes sonores.
Graham Bell construit son appareil en enduisant la membrane dun
tympan et dun pavillon circulaire artificiels avec un mélange
de glycérine et deau et en donnant à ces organes
la souplesse suffisante pour quen chantant dans la partie extérieure
de cette membrane artificielle le stylet qui lui était directement
relié soit mis en vibration. Le tracé de ces vibrations
était obtenu sur une plaque de verre noircie, disposée
en dessous de ce stylet.
La section doreille humaine était fixée à
la partie supérieure de lappareil par boulon enfoncé
dans le fragment de crâne. Une vis à oreilles maintenant
le tout en place. Linstrument fonctionnait en canalisant les vibrations
des ondes sonores produites en parlant dans lembouchure située
derrière le fragment de crâne, vers le canal exposé
de loreille. En heurtant le tympan sensible situé
à lintérieur, ces vibrations déclenchaient
une réaction en chaîne : le tympan vibrait dabord,
puis les osselets, suivis du stylet, un petit morceau de paille fixé
au dernier os. Lorsquune pièce de verre recouverte dune
fine couche de suie était tirée rapidement sous le stylet
vibrant, ce dernier gravait ou « écrivait » la forme
des vibrations sur la surface du verre.
La reproduire les sons vocaux
Bell continue ses recherches dans cette voie et entame
une étude sur les moyens de reproduire les sons vocaux en même
temps que la manière de les transmettre électriquement.
Sa première étape est celle de lobservation de loreille
et létude de la transmission des vibrations sur le tympan
dun cadavre. Il simule alors le tympan en faisant vibrer une membrane
métallique en fer-blanc près dun barreau aimanté,
entouré dune bobine de fil de cuivre ; les variations du
champ magnétique engendrées par les vibrations font naître
dans la bobine un courant alternatif induit qui se transmet par un fil
conducteur à la bobine du récepteur dont laimant
fait vibrer une seconde membrane métallique de la même
façon. Cétait une première ébauche
dun appareil mieux connu sous le nom de téléphone.
Cette invention fait écho à bien dautres, «
car le fait que Graham Bell, inventeur du téléphone en
1876, que Charles Cros et Thomas Alva Edison, inventeurs quasi simultanés
du phonographe en 1877, aient tous trois, à un moment de leur
vie, été éducateurs pour sourds ne doit évidemment
rien au hasard.
Il y a là un rapport très étroit entre un questionnement
sur la physiologie de la parole, la possibilité de lapprentissage
de la langue et la machine conçue comme artefact rédempteur.
Après linvention du téléphone de Graham Bell,
laudiométrie connaît un large essor et par conséquent
les recherches sur léducation auditive et vocale sorienteront,
de plus en plus, vers les méthodes « oralistes »
par opposition aux méthodes basées sur la gestualité
et les signes.
La transmission de la parole
À lorigine de ces nouvelles recherches
se trouve encore la transmission de la parole.
Dès 1857, L. S. de Martinville met au point le phonotaugraphe
destiné à produire des diagrammes afin détudier
les vibrations de la voix. Cette ingénieuse sténographie
acoustique nest quune réussite partielle cependant.
Son auteur parvient à enregistrer les sons mais échoue
à les reproduire. Il lui reste cet invraisemblable désir
de vaincre le temps, fixer limmatériel, immortaliser la
voix :
« Y a-t-il possibilité darriver, en ce qui concerne
le son, à un résultat analogue à celui atteint
dès à présent pour la lumière par la photographie
? Peut-on espérer que le jour est proche où la phrase
musicale échappée des lèvres du chanteur viendra
sinscrire delle-même, et comme à linsu
du musicien, sur un papier docile, et laisser une trace impérissable
de ces fugitives mélodies que la mémoire ne retrouve plus
alors quelle les cherche ? »
Sur cette voie, Alexandre Graham Bell songe à traduire les vibrations
mécaniques en courant électrique alternatif. Pour cela,
il exploite le phénomène de la modulation dun faisceau
lumineux sous linfluence des ondes sonores. Cette modulation est
obtenue soit par la variation de lintensité du faisceau,
soit par la déviation de son axe de propagation. Finalement,
en 1880, Bell et son collaborateur Charles Summer Tainter appliquent
ce principe en vue de la transmission directe des sons entre un poste
transmetteur et un poste récepteur. Voici comment Jean Vivié
présentait ce circuit dans son Traité général
de technique du cinéma :
« Il sagissait dune transmission téléphonique
entre un poste transmetteur et un poste récepteur pointés
lun sur lautre ; le récepteur utilisait les propriétés
photoélectriques du sélénium. Le transmetteur pouvait
mettre en uvre diverses méthodes ; dans le modèle
primitif, les rayons lumineux étaient concentrés sur la
plaque argentée dun diaphragme téléphonique,
et sous linfluence de la parole cette plaque vibrait en se bombant
plus ou moins, donc en faisant varier la convergence du faisceau et
par suite son intensité dans laxe ; sous une seconde forme,
la membrane téléphonique faisait vibrer une plaque légère
percée de nombreuses fentes et placée en travers du faisceau
parallèlement à une plaque fixe identique ; enfin les
inventeurs du Photophone ont également
mis en jeu dans un troisième transmetteur laction des courants
électriques microphoniques sur la lumière polarisée.
»
Le photophone darticulation, nom donné à ce système,
a été présenté à lAcadémie
des sciences le 13 octobre 1880. Son objectif était de se servir
de la lumière pour transmettre la parole à distance, grâce
aux propriétés électriques du sélénium.
Il comportait une lampe à arc (A), un miroir (B) réfléchissant
le faisceau et concentrée par un condensateur (C) sur une membrane
vibrante (D) dun cornet téléphonique (O). Au moment
de la transmission des sons, un objectif (E) envoyait vers le récepteur
(M) un faisceau de lumière modulée. Le récepteur
(M), constitué dun miroir parabolique, comportait une cellule
au sélénium (F) ; celle-ci recevait les variations de
la lumière faisant varier à leur tour la résistance
électrique de la cellule même. Enfin ces variations de
courant étaient traduites en son dans deux récepteurs
téléphoniques.
Si Bell et Tainter sont donc à lorigine de lutilisation
de la lumière pour la transmission des sons, ils ne pensent ni
à la possibilité de fixer sur un support sensible les
variations de courant, ni à utiliser le faisceau comme une «
écriture » permettant de réentendre les sons. Pourtant
leur application du sélénium, dont les propriétés
étaient déjà connues auparavant, constitue une
grande avancée pour les futures recherches sur « lécriture
des sons » par la lumière.
Le 30 avril 1877, cest au tour de Charles Cros
de déposer auprès de lAcadémie des Sciences
de Paris un pli intitulé Procédé denregistrement
et de reproduction des phénomènes perçus par louïe.
Quand lauteur propose à ses pairs le projet, fragmentaire
et malheureusement jamais breveté, dune machine appelée
paléophone ( « la voix du passé »),
cest dans lidée dobtenir là encore «
des photographies de la voix, comme on en obtient des traits du visage
et ces photographies serviront à faire parler, ou chanter, ou
déclamer les gens, des siècles après quils
ne seront plus».
Mais dans ce cas lanalogie avec la lumière est doublement
motivée puisque C. Cros lui-même avait rendu public quelques
années auparavant un court texte consacré à la
Solution générale du problème de la photographie
en couleurs . Face à lévanescence, à
la perte et au négatif, quil sagisse dun photogramme
ou dun phonogramme, une identité doit être restituée.
Lappareil doit produire de lauthentique, se faire trace
ou empreinte. Le paradoxe de la technique est quelle se jauge
selon sa capacité à perpétuer du vivant. Car la
fabrication du disque phonographique chez C. Cros ne relève pas
seulement dune archéologie des voix défuntes et
oubliées. Elle procède dun désir de résurrection.
Lappareil devient un sujet second ou lagent du sujet disparu,
comme en témoigne la tournure factitive « faire parler
».
Le brevet Edison du phonographe fut accepté le 17 fèvrier
1878 et décrivait un appareil très simple.
Archives Edison "
The Edison papers "
Ainsi doit-on à un poète ce modèle
que T. A. Edison
parviendra à confectionner avec la complicité de J. Cruesi,
huit mois plus tard sous une forme différente, cylindre, manivelle
et diaphragme enregistreur capable, si on lui ajoute un pavillon, de
reproduire le son cette fois.
Il nest pas inutile de rappeler toutefois que la démonstration
du phonographe Edison se solda le 11 mars 1878 par un échec devant
lAcadémie des Sciences. En entendant le son nasillard qui
sortait de létrange boite, on crut dailleurs à
une plaisanterie et les plus malveillants subodorèrent un subterfuge
de ventriloque. Pourtant, assez vite, des séances découte
payantes sont organisées boulevard des Capucines, signe du succès
populaire que rencontre lappareil. En 1889, à la galerie
des machines de lExposition universelle, lobjet est finalement
présenté sous une version modernisée aux visiteurs
puis commercialisé avant dêtre détrôné
en 1895 par le graphophone de C. S. Tainer et G. Bell.
Robert R. Riesz (1903 )
Né en 1903 à New-York, Robert R.
Riesz a été engagé dans les laboratoires
Bell Téléphone en 1925, après avoir effectué
des études en mathématiques et physique. En 1929
son innovation Artificial Larynx a été breveté
au profit de Bell. Il sagissait dune prothèse
pour des personnes ayant subi une ablation du larynx. Le projet
a été décrit en 1930 dans le journal de la
société acoustique américaine.
En 1937 Robert Riesz présentait un modèle réaliste
de lappareil vocal humain. Abstraction faite de quelques
projets récents entrepris au Japon dans le domaine de la
robotique, le modèle vocal de Robert Riesz est la dernière
tentative de construire une machine de synthèse vocale
mécanique.
Dans la suite Robert Riesz contribuait au développement
des premiers projets de synthèse vocale électroniques.
C' est une discipline dont lobjectif est de produire de façon
artificielle (mécanique ou électronique) des effets sonores
imitant la voix humaine. Elle permet de convertir des textes écrits
en une forme vocalisée. Les anglo-saxons parlent alors de Text
to Speech ou TTS.
Outre la lecture de textes à destination de personnes malvoyantes
ou non voyantes, la synthèse vocale entre notamment en application
dans le cadre dinterfaces hommes machines sonores. Elle est dans
ce cas utilisée conjointement avec une technologie de reconnaissance
vocale, dont le but est de retranscrire un message sonore sous une forme
intelligible pour lordinateur (qui consiste donc à réaliser
lopération inverse du point de vue conceptuel, bien que
le processus soit totalement différent).
La synthèse vocale fait désormais partie de notre quotidien,
elle est aujourdhui une science informatique, Jusquà
la fin du 19e siècle la synthèse vocale était basée
uniquement sur des constructions mécaniques. Elle est présente
dans nos smartphones, nos GPS ou encore dans nos salons avec les enceintes
connectées. Elle est également plébiscitée
pour la simplification des interactions quelle permet. Les voix
dAlexa ou de Google Home sont aujourdhui très proches
de réelles voix humaines. Mais obtenir un résultat aussi
naturel et agréable à loreille a nécessité
des dizaines dannées de recherche.
Suite à lintroduction du téléphone
en 1876, les synthétiseurs vocaux ont évolué vers
des équipements électromécaniques, pour devenir
purement électriques dès la fin des années 1930,
et des équipements électroniques 40 années plus
tard. Pour manipuler les synthétiseurs mécaniques et électriques
il fallait être un expert qui maîtrisait la génération
de sons.
Pour tracer lhistoire de la synthèse vocale
électrique, il faut retourner dans la seconde moitié du
19e siècle.
Après lintroduction de la télégraphie électrique,
linvention du téléphone en 1876 et du phonographe
en 1877 a interrompu lintérêt pour la synthèse
vocale dun jour à lautre, et ceci pendant une longue
période. Il convient donc de jeter également un regard
sur les pionniers de la téléphonie et de la reproduction
du son pour comprendre la renaissance de lintérêt
pour la synthèse vocale soixante ans plus tard, à la fin
des années 1930.
Joseph Henry est un physicien américain qui découvrit
lauto-induction et le principe de linduction électromagnétique
des courants induits, ce qui contribuait à la fabrication du
premier télégraphe électromagnétique.
Linvention du télégraphe électromagnétique
est attribuée à Samuel Morse qui présentait sa
première version opérationnelle le 6 janvier 1838 à
Speedwell Ironworks près de Morristown aux États-Unis.
Toutefois lidée du télégraphe électromagnétique
revient à Joseph Henry qui montrait dès 1831 aux étudiants
du collège à Albany, où il enseignait, un concept
dun télégraphe qui fonctionnait avec un aimant électrique.
En décembre 1845, juste avant lexposition
publique de la machine parlante de Euphonia au Musical Fund Hall à
Philadelphia, Joseph Henry avait visité Joseph Faber en privé,
accompagné de son ami Robert M. Patterson. Joseph Henry était
impressionné par lingéniosité de la machine
et il envisageait de transmettre des mots via le télégraphe
en actionnant les touches par des électro-aimants. Avec une petite
astuce, des mots générés moyennant le clavier à
une extrémité du télégraphe pourraient être
reproduits à lautre extrémité.
Alors quil avait les compétences requises, Joseph Henry
navait jamais mis en pratique cette idée. Trente ans plus
tard, en février 1875, le jeune Alexandre Graham Bell, qui avait
lidée du téléphone en tête, venait
demander conseil à Joseph Henry, qui à lépoque
approchait ses 80 ans. Devenu en 1846 le premier secrétaire de
la Smithsonian Institution, une institution américaine de recherche
et déducation scientifique, Joseph Henry était alors
reconnu comme sommité dans le domaine de lélectromagnétisme
et de la télégraphie. Il encourageait Graham Bell de persévérer
et confirmait quil était sur le bon chemin.
En 1863, Graham Bell a été emmené par son père
à une visite à Londres de la machine parlante reconstruite
par Charles Wheatstone. Il était fasciné par la machine.
Charles Wheatstone lui prêtait la description de Wolfgang von
Kempelen et, avec son frère Melville, il réalisa sa propre
version de cet automate. Dans la suite, Alexandre Graham Bell pratiqua
des expériences sur la physiologie de la parole et étudia
la hauteur et la formation des voyelles à luniversité
dÉdimbourg. La fascination par la machine parlante semble
donc être à lorigine de lintérêt
pour la parole humaine qui ont conduit Graham Bell à faire breveter
le téléphone en 1876.
Né le 11 février 1847 à Milan dans lOhio,
Thomas Edison a travaillé au début comme télégraphiste.
À lâge de 19 ans il déposait son premier brevet
pour linvention dun transmetteur-récepteur duplex
automatique de code Morse. En 1874 il devenait patron de sa première
entreprise grâce aux fonds récoltés pour son brevet.
Avec deux associés, il dirigeait un laboratoire de recherche
avec une équipe de 60 chercheurs salariés. Il supervisait
jusquà 40 projets en même temps, et se voyait accorder
un total de 1.093 brevets américains. Sa société
a donné naissance à la General Electric, aujourdhui
lune des premières puissances industrielles mondiales.
En 1877, Thomas Edison a achevé la mise au point de son phonographe,
capable non seulement denregistrer mais aussi de restituer toute
forme de sons, dont la voix humaine. Les premiers phonographes étaient
munis dun cylindre phonographique dacier en rotation, couvert
dune feuille détain, et la gravure était effectuée
par une aiguille dacier. Lenregistrement était lu
par la même aiguille dont les vibrations sur un diaphragme mince
étaient amplifiées par un cornet acoustique.
Né en 1896 en Virginie, Homer Dudley était un pionnier
de lingénierie acoustique. Après ses études
il a joint la division téléphonie des laboratoires Bell
en 1921. Quelques années plus tard le premier service téléphonique
commercial transatlantique entre lAmérique du Nord et lEurope
a été établi. Cétait le 7 janvier
1927, la liaison passait par ondes radio.
Le premier câble transatlantique a déjà été
posé en 1858 et il était utilisé pour la télégraphie.
Le premier message a été envoyé le 16 août
1858. Le câble sest rapidement détérioré
et la transmission dun message dune demi-page de texte prenait
jusquà un jour. Après 3 semaines, le câble
est tombé en panne et na pas pu être réparé.
Dans la suite dautres câbles ont été posés
qui étaient plus durables. En 1866 on arrivait à transmettre
8 mots par minute sur un câble télégraphique transatlantique.
Au début du XX siècle la vitesse dépassait 120
mots par minute.
La performance des câbles télégraphiques a été
améliorée par lalliage magnétique permalloy
qui compense llinduction électromagnétique. Inventé
par le physicien Gustav Elmen en 1914 dans les laboratoires Bell sur
base des théories de Oliver Heaviside, un nouveau procédé
de fabrication de câbles sous-marin afférent a été
testé avec succès en 1923. Les nouveaux câbles télégraphiques
construits avec ce procédé ont atteint des bandes passantes
de 100 hertz, ce qui permettait de transmettre jusquà 400
mots par minute.
Lobjectif de Homer Dudley était de comprimer
la voix humaine de façon à pouvoir la transmettre sur
un tel câble télégraphique ayant une bande passante
de 100 hertz. Homer Dudley se disait que la langue, les lèvres
et les autres composants du conduit vocal ne sont rien dautre
que des clés télégraphiques qui bougent à
une cadence maximale de quelques dizaines de hertz. Il suffit danalyser
les principales composantes spectrales de la voix et de fabriquer un
son synthétique à partir du résultat de cette analyse.
Il faut se rappeler que Joseph Henry faisait les mêmes
réflexions 80 ans plus tôt.
Aujourdhui on sait que la limite théorique
minimum de débit pour un codage conservant linformation
sémantique contenue dans la parole est denviron 60 bits
par seconde, si lon compte environ 60 phonèmes dans une
langue et une vitesse délocution moyenne dune dizaine
de phonèmes par seconde. Pour un débit aussi faible, les
informations concernant le locuteur et ses émotions sont perdues.
Homer Dudley a pu profiter des études effectuées
par les chercheurs Harry Nyquist et Ralph Hartley qui travaillaient
également dans les laboratoires Bell. Le premier est à
lorigine du théorème déchantillonnage
de Nyquist-Shannon, le deuxième a contribué à la
fondation de la théorie de linformation. En octobre 1928,
il a esquissé les premiers circuits et édité une
description de sa future invention : le VOCODER.
Synthèse vocale électronique :
le Voder et le Vocoder
Durant tout le début du 20e siècle, plusieurs chercheurs
travaillent sur la synthèse vocale. Parmi eux, les laboratoires
Bell, qui vont marquer lhistoire de linformatique et de
la synthèse vocale.
De 1936 à 1939, les laboratoires Bell développent, sous
la direction de lingénieur acoustique et électronique
Homer Dudley, le premier synthétiseur vocal électronique.
La synthèse vocale de cette machine se fait via une interface
rappelant celle dune machine à écrire. Les commandes
étaient constituées dun clavier ainsi que de pédales
permettant de moduler les effets sonores.
Le Voder est une version simplifiée du célèbre
Vocoder développé par Homer Dudley de 1926 à 1939.
Le Vocoder, dont le nom est la contraction de Voice Encoder
a été conçu suite à la volonté des
laboratoires Bell de réduire le coût des appels téléphoniques
transcontinentaux. Pour cela, il effectuait une opération dencodage
du côté de la personne parlant et décodait le signal
du côté de la personne qui lécoutait. Cela
permettait de faire transiter un minimum dinformations et donc
déconomiser de la bande passante.
Lastuce consistait à découper le signal sonore en
une multitude de plages de fréquences grâce à des
filtres passe-bande. Ainsi il était possible danalyser
lamplitude du signal de chacune de ces plages de fréquences.
Ces caractéristiques étaient ensuite appliquées
à une fréquence fondamentale transformée en y appliquant
les modulations provenant des différentes bandes. (Pour en savoir
plus, voir la présentation rédigée par Thomas Carney
dans le cadre du Graduate Program in Audio and Acoustics, de luniversité
de Sidney)
Illustration provenant de la vidéo The
secret history of Vocoder
La qualité de la voix reproduite par le vocodeur de Homer Dudley
(aujourdhui connu sous le nom de spectrum channel vocoder) était
insuffisante pour envisager une introduction commerciale. Avec laide
de Robert R. Riesz, Homer Dudley sest alors focalisé sur
la partie décodeur avec la parole synthétique. Le codeur
a été remplacé par une console avec un clavier
pour générer les paramètres de la voix. Cet appareil
a été nommé VODER et breveté en 1937 au
profit de Homer Dudley et des laboratoires Bell. Il a été
présenté au grand public lors de lexposition mondiale
à New York en 1939.
Le Vocoder a été utilisé à
partir de 1943 par larmée américaine dans le cadre
du système SIGSALY. Il a succédé au système
A-3 dont les fonctionnalités de cryptage commençaient
à être jugées insuffisantes pour les transmissions
audio durant la Seconde guerre mondiale. Les sonorités synthétiques
et métalliques du Vocoder sont désormais de notoriété
publique. Elles ont en effet été réutilisées
dès la fin des années 1960 dans de nombreux films (notamment
pour faire parler des robots) et en musique à des fins artistiques.
Il sagit encore aujourdhui dun effet très utilisé
dans de grands hits musicaux dartistes comme Daft Punk par exemple.
Nous vous invitons à visionner cette vidéo
anglophone publiée par The New Yorker, intitulé The Secret
History of the Vocoder (LHistoire secrète du Vocoder).
Elle illustre la diversité des usages de cet appareil.
Pendant la deuxième guerre mondiale, Homer Dudley
a contribué aux recherches du projet SIGSALY concernant les transmissions
sécurisées sur base du vocodeur. Il est resté auprès
de Bell jusquau début des années 1960. Le dernier
projet de Homer Dudley était le développement dun
kit de synthèse vocale pour des étudiants et hobbyistes.
Fabriqué à partir de 1963, le kit a été
commercialisé jusquà la fin des années 1960.
La recherche sur la synthèse vocale a été
poursuivie dans les laboratoires Bell. Au début des années
1960 cétaient John L. Kelly, Carol Lockbaum, Cecil Coker,
Paul Mermelstein et Louis Gerstman qui étaient engagés
dans le développement de systèmes de simulation de lappareil
vocal humain.
Le vocodeur inventé par Homer Dudley est devenu célèbre
dans les années 1970 comme instrument de création sonore
utilisé par des groupes de musique électronique comme
Kraftwerk, The Buggles et dautres. En réalité, Kraftwerk
utilisait surtout le synthétiseur Votrax, inventé
par Richard T. Gagnon.
En 1941, pendant la deuxième guerre mondiale, les chercheurs
W. Koenig, H. K. Dunn et L. Y .Lacy des laboratoires Bell ont inventé
le premier spectrographe acoustique qui convertit une onde sonore en
spectre sonore.
Franklin Seaney Cooper a eu lidée de faire le processus
inverse, cest-à-dire convertir un spectre sonore en onde
sonore. Né en 1908, il a obtenu un doctorat en physique au MIT
en 1936. Une année plus tôt, il a fondé ensemble
avec Caryl Parker Haskins les laboratoires Haskins, une institution
de recherche sans but lucratif, spécialisée dans le langage
oral et écrit. Franklin S. Cooper a été le président
et directeur des recherches des laboratoires Haskins de 1955 à
1975.
À la fin des années 1940, Franklin S. Cooper, assisté
de John M. Borst et Caryl P. Haskins, a développé la machine
appellée Pattern Playback pour convertir des spectrogrammes en
paroles.
Lappareil pouvait reproduire des images de spectrogrammes réels
ou bien des modèles artificiels recomposés à la
main avec une peinture blanche sur une base dacétate de
cellulose. La production des sons se faisait par lintermédiaire
dun faisceau lumineux modulé par une roue tonale et réfléchie
par les parties blanches du spectrogramme. Comme le spectrogramme se
déroulait dans lappareil à une vitesse uniforme,
on pouvait dessiner sur le modèle synthétique les trois
paramètres fondamentaux du son : le temps (axe horizontal), la
fréquence (axe vertical) et lamplitude (épaisseur
des traits)..
La machine Pattern Playback a été perfectionnée
au fur et à mesure et a servi à faire de nombreuses recherches
au sujet de la perception de la voix et de la synthèse et reconnaissance
de la parole, notamment par Alvin Liberman, Pierre Delattre et dautres
phonéticiens.
La machine a été utilisée une dernière fois
en 1976 pour une étude expérimentale réalisée
par Robert Remez et elle se trouve maintenant au musée des laboratoires
Haskins.
Carl Gunnar Michael Fant était professeur émérite
à lInstitut royal de technologie de Stockholm (KTH). Gunnar
Fant obtint une maîtrise en génie électrique en
1945. Il sétait spécialisé dans lacoustique
de la voix humaine, en particulier dans la constitution des formants
des voyelles. Il a effectué ses recherches auprès de Ericsson
et du MIT à ce sujet et créait un département des
sciences vocales (Speech Transmission Laboratory) auprès du KTH.
Gunnar Fant développait en 1953 le premier synthétiseur
par formants Orator Verbis Electris (OVE-1). Des résonateurs
ont été connectés en série, le premier résonateur
pour le formant F0 a été modifié avec un potentiomètre,
les deux autres pour les formantes F1 et F2 avec un bras mécanique.
En 1960 Gunnar Fant publiait la théorie associée à
ce synthétiseur, le modèle source-filtre pour la production
de la parole.
Après sa retraite, Gunnar Fant a continué ses recherches
dans le domaine de la synthèse vocale en se focalisant notamment
sur la prosodie. Pour son 60e anniversaire en 1979 ses collaborateurs
avaient édité un numéro spécial du journal
interne de son département.
En 2000 Gunnar Fant a tenu un discours au congrès
FONETIK à Skövde en Suède sur ses travaux effectués
dans le domaine de la phonétique durant un demi-siècle.
Il a décrit sa fascination pour la machine Pattern Playback de
Franklin S. Cooper quil a pu voir en 1949. Son propre synthétiseur
en cascade OVE II utilisait une technique similaire pour générer
les signaux dentrée qui varient les fréquences et
amplitudes des oscillateurs et des générateurs de bruits
afin de produire des voyelles et des consonnes pour parler des phrases
complètes. Cette deuxième machine, réalisée
en collaboration avec Janos Martony et qui fonctionnait avec des tubes
à vide électriques, a été présentée
en 1961.
Janos Martony et Gunnar Fant (à droite) avec le synthétiseur
OVE-II en 1958
Une troisième version électronique du synthétisuer
OVE III a été réalisée par Johan Liljencrants
en 1967 avec des transisteurs. Elle a été raccordée
à un ordinateur et gérée par un programme informatique.
Après sa mort en 2009, un portrait en mémoire de Gunnar
Fant a été publié sur le site web du KTH.
Walter Lawrence était un ingénieur anglais
qui a travaillé après ses études au SRDE (Signals
Research and Developement Establishment), une institution militaire
créée en 1943 (pendant la deuxième guerre mondiale)
par le ministère de lapprovisionnement du gouvernement
britannique. Walter Lawrence était en charge dexaminer
des moyens de réduction de la bande passante pour améliorer
la sécurité de lencryption des messages militaires.
Un deuxième objectif était de rendre la transmission des
communications téléphoniques plus efficace et plus économique
sur les grandes distances, en particulier sur les nouveaux câbles
transatlantiques.
Pour ce faire, il sest basé sur linvention du vocodeur
de Homer Dudley et il se focalisait sur la partie VODER. Il publiait
en 1953 un article The Synthesis of Speech from Signals which have a
low Information Rate dans lequel il proposait six paramètres
pour transmettre et restituer la parole : les trois fréquences
des résonances dominantes (formants), lamplitude et la
fréquence de lexcitation du larynx et lintensité
de lexcitation fricative.
Walter Lawrence appelait son synthétiseur basé sur ces
principes Parametric Artificial Talker, abrégé en P.A.T.
Aux fins de parfaire sa première construction réalisée
en 1952 au SRDE qui nexploita que quatre paramètres, il
contacta luniversité dEdimbourg qui avait une bonne
renommée dans le domaine des sciences linguistiques. Un synthétiseur
qui utilisait les six paramètres décrits était
opérationnel en 1956 dans les laboratoires de luniversité.
Lentrée des paramètres se faisait par des plaques
en verre sur lesquelles on dessinait le flux des six paramètres
qui étaient scannées par un faisceau lumineux.
Linstallation est conservée aujourdhui dans le musée
national de lEcosse.
La même année (1956), Walter Lawrence et
Gunnar Fant ont présenté leurs projets respectifs à
une conférence au MIT à Cambridge. Le sommet de la présentation
a été une conversation en temps réel entre les
deux synthétiseurs P.A.T. et OVE.
James Tony
Anthony et Frances Ingemann avec le P.A.T.en 1958
Le P.A.T. a évolué en une version avec huit paramètres
au début des années 1960, notamment grâce à
lapport de Frances Ingemann qui assistait le constructeur principal
de la machine, James Tony Anthony, à la parfaire. Frances Ingemann
a publié en 1960 une contribution Eight-Parameter Speech Synthesis
dans le journal de la société acoustique américaine.
Le synthétiseur P.A.T. a connu une certaine notoriété
auprès du grand public suite à la diffusion dun
film afférent à la télévision. Eye en Research
était une série de télévision produite par
la BBC au sujet de la recherche scientifique dans les années
1957 à 1962. La transmission se faisait en direct à partir
des laboratoires de recherche avec une caméra mobile. Un journaliste
de la BBC présentait et commentait le sujet. Le 28 octobre 1958
le sujet portait sur les six paramètres du synthétiseur
P.A.T., développé dans les laboratoires de luniversité
dÉdimbourg.
Après sa retraite au SRDE en 1965, Walter Lawrence a rejoint
luniversité dÉdimbourg comme maître
de conférences. Il est décédé en 1984.
John N. Holmes est un ingénieur en génie électrique
britannique qui a obtenu son diplôme en 1953 à Londres.
En 1956 il a rejoint la Joint Speech Research Unit (JSRU) qui a été
formée la même année par la fusion de plusieurs
agences gouvernementales en charge de la recherche dans le domaine vocal.
Lintérêt de la JSRU se focalisait sur les télécommunications,
aussi bien pour des applications militaires que civiles. La JSRU était
affiliée administrativement au Post Office qui était responsable
à lépoque pour la téléphonie.
Lanalyse de la parole était lactivité principale
de la JSRU. La synthèse vocale était un outil important
à ces fins. John Holmes visitait en 1960 le KTH à Stockholm
pour se familiariser avec le synthétiseur OVE II de Gunnar Fant.
Après son retour à Londres en 1961 il a construit son
propre synthétiseur désigné dans la suite comme
JSRU formant synthesizer. Au lieu de la cascade de résonateurs
connectés en série appliquée pour OVE, il utilisait
un arrangement parallèle qui fournissait une meilleure qualité
de la voix synthétique. Avec un jeu de paramètres optimisés
manuellement à partir de valeurs déduites de la voix naturelle,
John Holmes était capable de reproduire des phrases pour lesquelles
des interlocuteurs ne pouvaient plus faire la distinction entre la parole
naturelle originale et la parole synthétique.Il appelait ce principe
la copie-synthèse.
En 1970 John Holmes est devenu directeur de la JSRU. À loccasion
de la conférence internationale sur la communication vocale qui
a eu lieu en avril 1972 à Boston, il a présenté
les conclusions de ses travaux. Il était davis quavec
la technologie actuelle il suffisait davoir les bons paramètres
dentrée pour produire de la parole synthétique quon
ne peut plus distinguer de la parole naturelle. Pour le prouver il faisait
des démonstrations lors de la conférence. Avec des paramètres
configurés manuellement (peintes à la main) les phrases
prononcées étaient très proches de la parole naturelle,
mais avec des paramètres extraits à partir des enregistrements
de la parole naturelle la situation était une autre.
À partir du début des années 1970 les scientifiques
concentraient leurs recherches sur la production automatique des paramètres
de contrôle des synthétiseurs vocaux à formants.
On commençait à générer les paramètres
à partir de textes et la linguistique prenait un rôle de
plus en plus important. En outre le but de la synthèse vocale
changeait. Au lieu dêtre un outil danalyse de la voix
humaine pour comprendre comment fonctionne lappareil phonatoire
humain, le nouvel objectif était de produire des interfaces pour
faciliter la communication avec les ordinateurs qui faisaient leur entrée
à grands pas dans les entreprises et institutions.
En 1977 John Holmes publiait larticle Extension of the JSRU synthesis
by rule system, en 1984 larticle Use of flexible voice output
techniques for machine-man communication. Après son départ
de la JSRU en 1985 John Holmes travaillait comme consultant indépendant
et il continuait à publier des articles et livres au sujet de
la synthèse et reconnaissance vocale. Il est décédé
en 1999. Sa dernière contribution porte le nom de Robust Measurement
of Fundamental Frequency and Degree of Voicing.
Forrest Mozer est un physicien expérimental, inventeur et entrepreneur
américain, reconnu pour ses travaux novateurs sur les mesures
de champ électrique dans un plasma spatial. Il est en outre le
développeur de circuits électroniques pour la synthèse
et la reconnaissance de la parole.
Auteur de plus de 300 publications et détenteurs de 17 brevets,
il a reçu de nombreuses reconnaissances pour ses travaux scientifiques.
Né en 1929 à Lincoln au Nebraska, il a travaillé
comme chercheur nucléaire dans différentes institutions
après ses études et son doctorat. En 1970 il a été
nommé professeur en physique à luniversité
de Californie à Berkeley.
Parmi ses étudiants se trouvait un aveugle qui demandait son
assistance, ce qui incitait Forrest Mozer à sintéresser
pour la synthèse de la parole. Il a alors inventé le codage
de la parole connu sous le nom de Mozer Compression pour comprimer la
voix enregistrée par microphone de façon à pouvoir
la reproduire moyennant les microprocesseurs à 8 bits, disponibles
en mi-1970. Cette technique était un précurseur de lADPCM.
Le brevet américain afférent (US4214125A) a été
introduit en 1974 et modifié plusieurs fois. Le brevet a été
licencié dabord à Telesensoriy Systems Inc pour
lutilisation dans le calculateur TSI Speech+, destiné aux
personnes aveugles. Le circuit intégré S14001A, développé
en 1975 par Silicon Systems Inc. pour ce calculateur est considéré
comme le premier circuit intégré de synthèse vocale.
Dans la suite le brevet a été licencié à
lentreprise National Semiconductor qui a créé le
circuit intégré DigiTalker MM54104 qui a été
utilisé dans différents ordinateurs personnels, des jeux
darcade et des interfaces de synthèse de la parole.
En 1984, Forrest Mozer a co-fondu lentreprise Electronic Speech
System pour commercialiser son système de synthèse de
la parole breveté. Dix ans plus tard, il a fondé, ensemble
avec son fils Todd Mozer, lentreprise Sensory Circuits Inc., qui
est spécialisée dans la reconnaissance de la parole.
Richard Thomas Gagnon était un ingénieur électronique
qui a travaillé pour lentreprise Federal Screw Works. Cette
entreprise a été fondée en 1917 comme fournisseur
de pièces métalliques pour lindustrie automobile.
Depuis sa jeunesse Richard Gagnon était fasciné par les
sciences et les technologies audio. Il sest intéressé
tôt à la synthèse de la parole parce quil
avait des problèmes avec la vue et il craignait de devenir aveugle.
Pendant son temps libre, il développait à partir de 1970
un appareil de synthèse vocale dans son laboratoire, situé
au sous-sol de sa maison à Michigan. Il sest basé
sur sa propre voix pour définir les phonèmes. Il a réalisé
plusieurs versions comme prototype et comme modèle de démonstration
sous les noms VS1, VS2 et VS3. Il sagissait de synthétiseurs
à formants avec architecture parallèle.
Il avait soumis une demande de brevet auprès des autorités
compétentes en 1971 pour son invention qui a été
approuvée en 1974, après quelques modifications, sous
le numéro US 3.836.717.
Richard Gagnon licenciait le brevet à son patron qui créa
la division Vocal Interface au sein de lentreprise Federal Screw
Works pour fabriquer la version VS4 du synthétiseur au nom de
VOTRAX. Les circuits électroniques fabriqués étaient
encapsulés par de la résine pour éviter une rétro-ingénierie
du produit. Une centaine déquipements a été
vendue. La division a été renommée dans la suite
en Votrax Division.
Dautres versions ont été réalisées,
dont les modèles VS6.x qui ont été vendues à
plusieurs milliers dexemplaires jusquà la fin des
années 1970. Les versions supportaient entre 32 et 128 phonèmes.
En 1980, la fabrication dun circuit intégré
SC-01 a été commandée auprès de la société
Silicon Systems Inc. pour le synthétiseur vocal, suivi du circuit
SC-02 en 1983. Ces circuits ont été utilisés par
des producteurs tiers pour la fabrication de terminaux parlants et de
consoles arcades. A côté de langlais, quelques autres
langues ont été supportées. À partir de
1984 le synthétiseur Votrax a été commercialisé
comme carte PC sous la désignation Votalker pour les ordinateurs
IBM PC, Appel II et Commodore 64. Luvre de Richard Gagnon
est considéré comme une One Man Show. Cest le dernier
inventeur dans le domaine de la synthèse vocale qui a agi seul
et sous sa propre responsabilité. Il détenait 18 brevets
et il était également lauteur de quelques publications
scientifiques.
En 1994, Richard Gagnon a subi un accident vasculaire cérébral
et il ne pouvait plus communiquer avec ses proches, ce qui explique
que ses contributions à la synthèse de la parole étaient
longtemps ignorées par la communauté scientifique et par
le public.
Grâce au témoignage de la fille de Richard Gagnon, Sheila
Janis Gagnon, qui a établi en 2013 linventaire des documents
et équipements qui se trouvaient encore dans le laboratoire au
sous-sol de la maison familiale, pour les remettre au musée de
linstitution Smithsonian, il a été possible de donner
le crédit mérité au développeur ingénieux
du Votrax.
En juin 1978 Texas Instruments (TI) présentait à la CES
un équipement, appelé Speak & Spell, destiné
aux enfants pour apprendre lorthographie. Ce jouet prononçait
environ 200 mots quil fallait épeler correctement moyennant
le clavier intégré.
Speak & Spell marque la transition entre la synthèse vocale
électronique et informatique et constituait une étape
importante (milestone) dans lévolution des circuits intégrés.
Le premier circuit intégré a été développé
par Jack Kilby auprès de Texas Instruments en 1958. Il a reçu
le prix Nobel de physique en 2000 pour son invention.
Au milieu des années 1970, les ingénieurs du département
Produits de Consommation de Texas Instruments cherchaient une idée
pour créer un équipement grand public pour mettre en valeur
les mémoires à bulles, une technologie de stockage électromagnétique
miniaturisée, sans parts mouvantes, qui était en vogue
à lépoque, mais qui a été abandonnée
à la fin des années 1980. Lingénieur Paul
Breedlove de TI proposait le développement dun jouet didactique
utilisant la synthèse de la parole, dans la tradition de la calculette
Little Professor qui a connu un grand succès, suite à
son introduction par TI en 1976.
Lidée a été approuvée et une équipe
projet de quatre ingénieurs a été constituée
au sein de TI sous la direction de Paul Breedlove; les autres membres
étaient Gene Frantz, Richard Wiggins et Larry Branntingham.
Richard Wiggings était en charge de concevoir
le système de synthèse de la parole, Larry Branntingham
était responsable pour le développement des circuits intégrés
et Gene Frantz gérait la collaboration avec dautres développeurs
de TI qui contribuaient au projet. Il sest avéré
rapidement que la digitalisation et le stockage de mots parlés
dans des mémoires bulles ou dans des ROMs (Read Only Memories)
était trop couteux et quil fallait recourir aux méthodes
de synthèse existantes à lépoque. La solution
retenue était basée sur le codage prédictif linéaire
(LPC) qui permet de comprimer sensiblement la voix, de stocker pour
chaque mot à prononcer un nombre très limité de
données et de reproduire la parole enregistrée moyennant
un circuit intégré de traitement numérique du signal
(DSP).
Fondamentalement il sagissait toujours dune simulation du
fonctionnement de lappareil phonatoire humain, sauf que les dispositifs
pour synthétiser des sons à partir de paramètres
spécifiques étaient mécaniques il y a 250 ans,
puis électriques analogiques il y a 100 ans, dans la suite électroniques
analogiques il y a 50 ans, et donc pour la première fois numériques
dans le cas de Speak & Spell. Bien sûr le nombre et la qualité
des paramètres de commande pour produire un son a augmenté
au fil des années, mais le principe de base restait le même.
Le circuit intégré LPC développé
par TI pour réaliser la synthèse vocale portait la désignation
TMC0281, renommé plus tard en TMS5100. Larchitecture a
fait lobjet de plusieurs brevets et le circuit a été
inclus dans le temple de la renommée (hall of fame) des circuits
intégrés de lIEEE en 2017, bien que ce nétait
pas le premier circuit intégré de synthèse vocale.
A côté de ce circuit le jouet Speak & Spell comportait
un microprocesseur TMS1000 pour gérer le clavier, laffichage,
le processus LPC et linterface avec lusager. Les paramètres
des mots à prononcer étaient stockés dans deux
ROMs à 128 Kbits. Cétait la capacité
de ROM la plus élevée disponible à lépoque.
Pour enregistrer ces mots on faisait recours à un modérateur
radio, Hank Carr.
Speak & Spell comportait également un dispositif pour connecter
des cartouches de jeu échangeables. Son prix de lancement était
de 50 $ US. Le jouet a été commercialisé avec grand
succès pendant plus de 10 ans au monde entier, en plusieurs variantes
(Speak & Read, Speak & Math), avec des voix pour différents
langages et avec de nombreuses cartouches de jeux. En France, le jouet
a été vendu sous le nom de Dictée magique. En 2009
Speak & Spell a été nommé comme milestone IEEE.
En 1982, léquipement Speak & Spell a été
utilisé par E.T. dans le film culte de Steven Spielberg pour
téléphoner avec les habitants de sa planète. Cest
une des raisons pourquoi le jouet lui-même est devenu un objet
culte qui bénéficie encore aujourdhui dune
large communauté de fans qui maintiennent des émulateurs
du synthétiseur, des cartouches de jeu et des instructions comment
pirater le système pour lutiliser à dautres
fins.
Le circuit intégré TMC0281 et ses successeurs ont également
été vendus séparément par Texas Instruments
sous la désignation TMS5100, etc. Ils ont été implémentés
dans des ordinateurs personnels, des consoles de jeu et des voitures.
La technique LPC constituait la base pour le codage et la compression
de la voix dans les terminaux GSM au début des années
1990 et elle est encore utilisée aujourdhui
Synthétiseurs vocaux informatiques
Le lecteur attentif a certainement compris que les inventeurs
des synthétiseurs vocaux mécaniques et électriques
ont tous essayé de simuler le fonctionnement de lappareil
phonatoire humain. Bien quil y a eu des progrès dans la
qualité de la voix synthétique au fil du temps, le principe
de base est resté le même. Il nest donc pas étonnant
que le portage de la synthèse vocale sur les premiers ordinateurs
est resté au début dans la même lignée. Les
oscillateurs et résonateurs sont devenus numériques et
ont été réalisés moyennant des programmes
informatiques pour générer les formants des voyelles et
les sons des consonnes. Au lieu dune cascade sérielle ou
dun arrangement parallèle on distinguait la synthèse
sonore additive, soustractive ou FM. Comme la génération
des sons est commandée par les valeurs de plusieurs paramètres
on parle de synthèse par règles.
Lévolution des ordinateurs avec des processeurs
de plus en plus puissants et des capacités de stockage de plus
en plus grandes a permis de remplacer la simulation classique de lappareil
phonatoire humain par des procédés plus modernes. Une
première méthode consistait à enregistrer des bribes
de parole (phonèmes) et de les enchaîner. Les phonèmes
sont les éléments minimaux de la parole. La langue luxembourgeoise
comporte par exemple 55 phonèmes, en tenant compte des mots étrangers.
Mais comme la parole est un processus temporel continu, les phonèmes
sont trop courts et inappropriés pour obtenir une synthèse
vocale par concaténation de qualité acceptable. La prochaine
étape consistait à utiliser des diphones qui sont définis
comme la portion du signal de parole comprise entre les noyaux stables
de deux phonèmes consécutifs. Le nombre de diphones est
théoriquement le carré du nombre de phonèmes, cest-à-dire
3.025 pour la langue luxembourgeoise. Mais comme certaines transitions
nont pas lieu en pratique, on obtient environ 2.000 diphones à
considérer. Si on utilise des unités plus longues que
les diphones, on parle de synthèse par sélection dunités.
Ces unités sont extraites automatiquement par des programmes
utilisant des méthodes statistiques, à partir denregistrements
vocaux avec annotation des textes correspondants, pour les sauvegarder
dans une base de données indexée. Le nombre dunités
peut dépasser les 15.000 pour une voix ...
Lassistant personnel intelligent ALEXA et lenceinte
y associée ECHO, annoncés par Amazon en novembre 2014,
sont probablement les outils vocaux les plus connus par le grand public.
Il est moins connu que Amazon propose aux développeurs dans son
portefeuille des services cloud AWS des outils très performants
en relation avec la parole : Amazon Polly, un service qui transforme
le texte en paroles réalistes, Amazon Lex, un service de reconnaissance
automatique de la parole (RAP) et de compréhension du langage
naturel (CNL), Amazon Translate, un service de traduction automatique
neuronale offrant des traductions linguistiques rapides, Alexa Voice
Services, un service de synthèse et reconnaissance vocale et
Alexa Skills Kit, un service dintelligence derrière les
appareils de la gamme Amazon Echo.
Bien souvent, en cabinet, lorthophoniste na pas à
disposition les outils technologiques pour analyser la voix de son patient,
il sappuie sur la puissance informative de son écoute analytique.
Néanmoins, comment garder trace de cette écoute dune
séance à lautre ?
Comment vérifier objectivement les ressentis subjectifs ?
A peu de frais, il est possible de séquiper dun système
denregistrement des signaux audio : un microphone adapté,
une carte son, un ordinateur. Le choix du matériel est important,
en particulier celui du microphone. Suivant les recommandations publiées
par Svec et Granqvist (2010), la réponse en fréquence
du microphone doit être plate (à 2dB près) dans
la zone de fréquence dintérêt (dans lidéal
de 20Hz à 20kHz), la dynamique appropriée pour permettre
lenregistrement sans distorsion des productions les plus sonores
et le rapport signal sur bruit suffisamment élevé (au
moins 15dB) pour permettre lenregistrement des productions les
moins sonores.
Analyse temps-fréquence du signal acoustique en sortie des lèvres
et du signal électroglottographique (EGG)
correspondant, à partir du logiciel OvertoneAnalyzer. Phrase
chantée par un baryton ("ave maria").
Lanalyse la plus simple à effectuer à partir dun
enregistrement du signal audio est de représenter visuellement
le son par les fréquences acoustiques quil contient et
leur évolution au cours du temps, comme le montre la figure ci
dessus.
Loreille humaine est intégrative et elle ne permet pas
toujours de distinguer avec précision les zones fréquentielles
où lénergie acoustique est renforcée ou atténuée.
Lanalyse temps-fréquence dun son met en évidence
les fréquences qui le constituent, leurs niveaux damplitude
et leurs variations temporelles. Cette représentation visuelle
dun son est appelée spectrogramme ou sonagramme. De nombreux
logiciels permettent cette visualisation de façon plus ou moins
automatique. Ils permettent de mesurer, sur le signal audio, des paramètres
acoustiques dintérêt pour lanalyse de la voix
parlée ou chantée, interprétables pour un clinicien
et complément indispensable de lanalyse perceptive. Des
caractéristiques acoustiques de la voix dans la parole peuvent
être objectivées, telles la fréquence fondamentale,
lintensité vocale, la coordination pneumophonatoire, les
fréquences formantiques et la richesse harmonique.
Quel logiciel choisir ? Le logiciel WaveSurfer est un logiciel gratuit
et simple dutilisation pour visualiser et analyser le son, la
fréquence fondamentale et la richesse harmonique. Le logiciel
Praat est également un logiciel gratuit dédition
et danalyse du son, mais il diffère par la complexité
de son usage. Une connaissance préalable de loutil est
nécessaire pour pouvoir en faire un bon usage. Une fois maîtrisé,
le logiciel Praat est un outil complet et paramétrable par lutilisateur.
Conçu pour lanalyse phonétique de la parole, il
permet lannotation des corpus. Le logiciel Overtone Analyzer,
développé initialement comme un outil de pédagogie
vocale, se distingue par une interface très conviviale complétée
dun clavier et dune portée musicale, pour un coût
modéré . Il présente lavantage de pouvoir
filtrer visuellement des fréquences harmoniques dans le signal
analysé pour un travail ciblé sur lécoute
du timbre par exemple.
Le premier paramètre dimportance est la fréquence
fondamentale, qui renseigne sur la hauteur de la voix, sa stabilité
au cours de la production, sa plage de variabilité. La fréquence
fondamentale se mesure sur les parties voisées du signal acoustique,
cest-à-dire pour la production vocale qui met en jeu la
vibration des plis vocaux. Sa définition et son calcul requièrent
une stabilité de la durée du cycle vibratoire glottique
sur plusieurs cycles consécutifs. Quand cette durée est
modifiée de façon notable dun cycle glottique à
lautre lors de la production de voix pathologique, la mesure de
fréquence fondamentale perd de son sens. Il peut être alors
intéressant de comparer les durées de cycles glottiques
successifs. Cest ce que propose le paramètre vocal connu
sous le nom de jitter, qui représente une mesure des perturbations
à court terme de la fréquence fondamentale du signal sonore
exprimée en pourcentage. Le jitter se calcule comme le rapport
entre la moyenne de toutes les différences de durées entre
deux cycles glottiques successifs (en valeur absolue) et la durée
moyenne dun cycle. Selon le manuel du logiciel Praat, le seuil
normal/pathologique de jitter est fixé à 1,04%.
Un jitter élevé reflète une variabilité
importante dans la durée du cycle glottique. Un autre paramètre
de perturbation, le shimmer, reflète les perturbations à
court terme de l'amplitude du signal sonore. La moyenne des différences
entre l'amplitude maximale de deux cycles glottiques successifs (en
valeur absolue) est divisée par la moyenne des amplitudes maximales
de chaque cycle. Le seuil normal/pathologique est fixé à
3,81 %. Ces deux paramètres de perturbation sont mesurés
lors de la production dune voyelle tenue. La pertinence de ces
mesures dans lanalyse des
voix pathologiques est souvent questionnée (Bielamowicz et al.,
1996). Comme le soulignent Baken et Orlikoff (1997), les mesures acoustiques
de la voix, et en particulier les mesures de perturbation, ne présentent
pas de corrélation cliniquement utile avec des catégories
de troubles vocaux spécifiques.
Elles ne permettent en aucun cas le diagnostic. La capacité à
parler fort est reflétée par la mesure de lintensité
moyenne. Seule une intensité calibrée, indépendante
du volume d'enregistrement, permet une mesure comparative entre enregistrements.
La coordination pneumo-phonatoire peut être évaluée
à travers la mesure du temps maximum de phonation sur une voyelle
(TMP en moyenne de 15s pour les femmes et de 20s pour les hommes), le
rapport de durée de la consonne sourde /s/ divisé par
celui de son équivalent sonore /z/ (rapport équivalent
à 1 dans le cas dune coordination optimale). Le rapport
de durée entre parties voisées et parties non voisées
est également informatif de lusage vocal du sujet ou du
patient.
Lanalyse du signal audio mesuré en sortie des lèvres
permet aussi destimer la fonction de transfert acoustique du conduit
vocal et den déduire les fréquences et largeurs
de bande des formants. Les formants sont des zones spectrales dénergie
renforcée par laction de résonance des cavités
qui constituent le conduit vocal. Leur positionnement conditionne notre
perception des voyelles. Pour lanalyse formantique, le logiciel
Praat est le logiciel danalyse de la voix le plus approprié,
car il permet de tracer lévolution des fréquences
formantiques sur lanalyse spectrographique du signal.
Dautres paramètres de timbre reflètent la richesse
harmonique, à travers la mesure de rapports damplitude
entre les différents harmoniques dun son voisé.
Il y a très certainement un intérêt
à sinspirer des approches développées dans
le milieu scientifique pour effectuer des mesures objectives du comportement
vocal dun patient. Même si certains paradigmes expérimentaux
nécessitent un équipement sophistiqué et coûteux,
cest le cas de lIRM par exemple, de nombreux protocoles
reposent sur des évaluations parfaitement réalisables
en cabinet orthophonique. Lusage du logiciel Praat qui se répand
de plus en plus dans la pratique orthophonique en est un bel exemple
illustratif. Il permet à la fois de prendre les données
et de les analyser. Corrélée à lanalyse perceptive
de la voix du patient et à lauto-évaluation de la
qualité de voix, lanalyse acoustique apporte des éléments
quantitatifs nécessaires à labord de la pathologie
vocale. Lanalyse de scènes vidéo permet de conserver
une trace de lévaluation du patient et dévaluer
à posteriori les gestes posturaux, respiratoires et articulatoires
du patient.
Nous vivons à lère du numérique
et les signaux analogiques captés par ces différents outils
de mesure sont convertis en signaux numériques avant dêtre
sauvegardés sur un ordinateur ou dêtre transmis à
l'autre bout du monde avec nos téléphones mobiles.
Cette opération de conversion analogique/numérique a un
impact sur les signaux quil est important de connaître.
Le premier aspect de cette conversion est léchantillonnage
du signal : il existe une durée non nulle entre deux mesures
successives. La fréquence de prise de mesure, quon appelle
fréquence déchantillonnage, va définir la
précision de linformation enregistrée. Plus cette
fréquence sera élevée, plus les variations rapides
du signal (fluctuations hautes fréquences) seront prises en compte.
Dans le cas dun signal audio de parole, il est nécessaire
davoir de linformation fréquentielle dans toute la
bande audible, donc de préférence jusquà
des fréquences de 16kHz à 20kHz. Ceci impose davoir
une fréquence déchantillonnage au moins deux fois
supérieure à la fréquence limite dintérêt
(Théorème de Shannon). Les cartes dacquisition proposent
des fréquences déchantillonnage à 44,1kHz
ou 48 kHz, ce qui permet de couvrir la gamme des fréquences audibles.
Si ces fréquences déchantillonnage conviennent bien
à lenregistrement de signaux audio, il nest parfois
pas nécessaire de recourir à une telle précision
temporelle pour des signaux qui évoluent lentement au cours du
temps. Certains signaux, les signaux de débit ou de pression
aérodynamique par exemple, ne demandent pas de fréquence
déchantillonnage très élevée car ils
évoluent lentement au cours du temps.
Le second aspect de cette conversion est la quantification du
signal : le signal est décrit par une quantité finie de
valeurs du fait de la capacité de codage (généralement
sur 16 bits). La quantification entraîne, comme léchantillonnage,
une perte de données et un bruit éventuel (bruit de quantification).
La quantification des données entraîne une imprécision
sur les données inhérentes à ce processus.
Cette imprécision peut également dépendre de loutil
de mesure, des conditions dacquisition. Aucune mesure ne permet
dapprocher la réalité de façon exacte. Evaluer
la précision dune mesure et lintervalle dincertitude
reflète la qualité dune approche expérimentale,
gage dune démarche
scientifique rigoureuse et réfléchie. Nombreuses sont
les études qui donnent des mesures à 2 ou 3 chiffres après
la virgule, alors que loutil de mesure ne permet pas, et de loin,
une telle précision.
Lévaluation de lincertitude dune mesure nécessite
de connaître les caractéristiques de précision de
loutil de mesure et celles de la conversion analogique-numérique.
Il est à mentionner ici que la sauvegarde de données sous
des formats compressés, comme par exemple lencodage mp3
de signauxaudio, est à proscrire car il y a toujours une perte
dinformation dans ces encodages.
Voici un rappel quelques informations essentielles
sur l'utilisation des techniques numériques en téléphonie
à propos du multiplexage 32 voies appelé par la suite
système MIC (Modulation par Impulsion et Codage).
Le théorème d'échantillonnage de Nyquist stipule
qu'un signal analogique à bande passante limitée peut
être représenté pratiquement parfaitement si
le signal est échantillonné à une fréquence
de deux fois la bande passante. Un signal vocal est considéré
comme ayant une bande passante d'environ 3 kHz (300 Hz à
3 400 Hz) et donc, en principe, pourrait être représenté
par une séquence d'impulsions résultant d'un échantillonnage
à environ 6 kHz. Des considérations pratiques dictent
cependant l'utilisation d'une fréquence d'échantillonnage
plus élevée et en téléphonie 8 kHz est
devenu la norme. L'amplitude des impulsions échantillonnées
est quantifiée (logarithmiquement) et représentée
par un nombre binaire à huit chiffres, sept chiffres indiquant
le niveau et le huitième le signe. Un canal téléphonique
numérisé est alors un flux binaire de 64kb/s dans
chaque sens. Le simple remplacement d'un canal analogique par un
canal numérique offre très peu d'avantages mais l'approche
numérique permet l'utilisation du multiplexage temporel (TDM)
et il est possible de multiplexer jusqu'à 30 canaux, formant
un flux binaire de 2Mb/s.
- Étape 1 : Échantillonnage.
C'est un peu e même principe que le cinéma 24 photos
par seconde suffisent pour tromper l'oeil et voir la scéne
avec une bonne fluidité.
En téléphonie classique avec des téléphones
basiques qui existent depuis l'invention du téléphone,
les signaux analogiques vocaux (ainsi que les tonalités transmises)
d'une conversation en cours entre deux abonnés sont tout
d'abord échantillonnés à la fréquence
de 8.000 Hz. (Un échantillon vocal est prélevé
et mesuré toutes les 125 µs. Ceci signifie que l'on
effectue 8.000 mesures de tension à chaque secondes.)
Un tel échantillonnage permet de pouvoir reconstituer à
chaque extrémité de la chaîne de commutation
et de transmission les conversations de manière fidèle
jusqu'à une fréquence maximale audible de 4.000 Hz,
limite suffisante pour reconstituer des conversations en cours qui
soient compréhensibles. L'échantillonnage est en fait
une approximation d'un signal analogique dans le temps. - Étape 2 : Quantification.
Une fois les échantillons vocaux prélevés toutes
les 125 µs, il est nécessaire de procéder à
une seconde approximation : l'approximation en niveau de tension.
En effet, un signal analogique étant susceptible de prendre
une infinité de valeurs entre une tension A et une tension
B, cet aspect impose de réduire les valeurs de tensions possibles
de ces échantillons en un nombre limité de valeurs-étalons.
La valeur de sortie de l'étage de quantification est la valeur-étalon
de référence la plus proche de la valeur réelle
de la tension d'échantillonnage d'entrée.
Il a été retenu, en norme téléphonique,
que les niveaux de tensions échantillonnées seraient
compris entre 256 niveaux de tensions différents (256 valeurs-étalons).
(Chaque échantillon est donc systématiquement arrondi
en une valeur numérique comprise entre une valeur comprise
entre 0 et 255.)
Une telle quantification, même s'il ne s'agit pas de Haute-Fidélité
telle que l'on pourrait la qualifier en acoustique, permet en norme
téléphonique, le codage de suffisamment d'états
d'amplitude possibles des signaux vocaux. Étape 3 : Codage.
Puis ces échantillons vocaux, qui peuvent prendre 256 valeurs
différentes sont convertis en numération binaire (en
base 2) sur des mots d'une longueur de 8 bits. À partir de
là, les échantillons sont devenus des nombres exprimés
en base 2, c'est à dire par un nombre au format de 8 chiffres,
dont chaque chiffre peut prendre la valeur 0 ou 1.
Comme ces signaux codés sont échantillonnés
à la fréquence de 8.000 Hz, sur un mot binaire de
8 bits, le débit équivalent en éléments
binaires par secondes (e.b/s) sera de 8.000 Hz x 8 bits = 64.000
bits/s. Bit se traduit par Élément Binaire : 0 ou
1.
Il serait déjà avantageux de réaliser des transmissions
sur de longues distances sous forme numérique, car l'intérêt
premier serait de pouvoir amplifier de manière peut coûteuse
la liaison numérisée, étant donnée que
nous savons à l'avance qu'à un instant donné,
la valeur théorique transportée est soit égale
à 0, soit égale à 1. Par contre, nous ne pourrions
transporter sur de longues distances qu'une seule voie téléphonique
simultanément, ce qui finalement ne s'avérerait pas
très avantageux... Il faut donc trouver un moyen supplémentaire.
Le Multiplexage Numérique. Lorsque nous avons échantillonné à chaque
instant T, toutes les 125µs, en fait, cet instant T a duré
3,90µs. (durée fixée par les normes téléphoniques
: il faut l'instant le plus court possible, mais tout en gardant
une durée suffisamment longue de sécurité,
eu égard aux tolérances des composants électroniques,
qui eux, sont bien réels, et ne sont pas des formules mathématiques
parfaites...)
Donc, sur une liaison numérique, nous voyons qu'il y a un
temps mort de 125µs - 3,90µs = 121,10µs.
Puisqu'il existe un si grand temps mort entre deux échantillons
numériques vocaux, pourquoi ne pas y insérer d'autres
échantillons vocaux émanant d'autres conversations
téléphoniques ?
Ainsi nous pourrions transmettre sur une même liaison numérique
125µs/3,90µs = 32 conversations téléphoniques
numérisées à la fois ! En fait, si la durée
d'échantillonnage est de 3,90µs, nous avons 32 Intervalles
de Temps disponibles (IT) pour faire circuler à la fois successivement
et simultanément 32 conversations téléphoniques.
C'est ce que l'on appelle le Multiplexage Numérique : à
partir d'une simple liaison numérique, nous pouvons acheminer
simultanément 32 voies téléphoniques, de quoi
faire disparaître la pénurie de capacités de
voies de transmissions de conversations, en réutilisant les
liaisons métalliques existantes, qui ne peuvent acheminer
en basses fréquences qu'une seule conversation à la
fois...
Le Multiplexage Numérique est en fait un système Multiplex
à répartition dans le temps.
Ces signaux numérisés sous forme de mots binaires
de 8 bits, émanant d'une conversation en cours, avec un débit
binaire de 64.000 bits/s, sont ensuite insérés dans
une voie d'un Circuit MIC, et ce côte à côte
avec d'autres signaux provenant d'autres conversations en cours.
(jusqu'à 30 conversations téléphoniques simultanées
peuvent circuler sur une même liaison MIC.)
Un Circuit MIC est équipé de 32 voies, car une Liaison
MIC est "découpée" en 32 Intervalles de
Temps de 3,90µs chacun.
Mais seulement 30 voies sont en réalité réservées
au transport des conversations téléphoniques, car
2 voies sont notamment affectées à la synchronisation
et au contrôle d'erreur. En effet, parmi les 32 voies, numérotées
de 0 à 31,
- la voie 0 est destinées à la synchronisation : qui
doit permettre d'indiquer aux équipements de multiplexage
(ou de démultiplexage) quel est le premier Intervalle de
Temps parmi les 32 possibles,
- la voie 16 est destinée par convention à l'échange
de signaux de signalisation (dialogues) entre équipements
téléphoniques, pour permettre l'aiguillage des conversations,
le contrôle d'erreurs etc...
Le risque de diaphonie (mélange) entre plusieurs conversations
est quasiment inexistantant.
Une fois multiplexés, les signaux des 30
voies de conversations téléphoniques sortent sur
une Liaison M.I.C.
Les synthétiseurs vocaux électroniques
et informatiques disposaient dune interface permettant dentrer
du texte et de le convertir en parole. On commençait à
parler de synthèse de la parole et de TTS (Text to Speech). Lutilisation
de ces équipements était à la portée de
tout le monde, tandis que les développeurs de ces machines devaient
avoir des connaissances approfondies en linguistique, phonologie, phonétique
et sémantique.
À partir des années 1980 les scientifiques qui faisaient
des recherches dans le domaine de la synthèse vocale, respectivement
de la synthèse de la parole, se sont focalisés uniquement
sur linformatique. Depuis quelques années cest lintelligence
artificielle qui domine le domaine. Lapprentissage approfondi
permet aux ordinateurs dapprendre à parler de la même
manière que les petits enfants, sans se soucier de grammaire,
dorthographe ou de syntaxe.
Les travaux sur la reconnaissance de la parole datent
du début du XXe siècle.
Le premier système pouvant être considéré
comme faisant de la reconnaissance de la parole date de 1952.
Ce système électronique, développé par Davis,
Biddulph et Balashek aux laboratoires Laboratoires Bell, était
essentiellement composé de relais et ses performances se limitaient
à reconnaître des chiffres isolés.
En 1952, alors que la recherche financée par le gouvernement
américain prenait de l'ampleur, les laboratoires Bell développèrent
un système de reconnaissance automatique de la parole capable
d'identifier les chiffres de 0 à 9 prononcés au téléphone.
Des progrès majeurs suivirent au MIT. En 1959, un système
identifia avec succès les voyelles avec une précision
de 93 %. Sept ans plus tard, un système doté d'un vocabulaire
de 50 mots fut testé avec succès.
Au début des années 1970, le programme SUR donna ses premiers
résultats substantiels. Le système HARPY, à l'université
Carnegie Mellon, pouvait reconnaître des phrases complètes
constituées d'un nombre limité de structures grammaticales.
Mais la puissance de calcul nécessaire était prodigieuse
; il fallait 50 ordinateurs contemporains pour traiter un canal de reconnaissance.
La recherche s'est ensuite considérablement accrue durant les
années 1970 avec les travaux de Jelinek chez IBM (1972-1993).
La société Threshold Technologies fut la première
à commercialiser en 1972 un système de reconnaissance
d'une capacité de 32 mots, le VIP100. Aujourd'hui, la reconnaissance
de la parole est un domaine à forte croissance grâce à
la déferlante des systèmes embarqués.
Une évolution rapide :
1952 : reconnaissance des 10 chiffres par un dispositif
électronique câblé.
1960 : utilisation des méthodes numériques.
1965 : reconnaissance de phonèmes en parole continue.
1968 : reconnaissance de mots isolés par des systèmes
implantés sur gros ordinateurs (jusquà 500 mots).
1970 : Leonard E. Baum met au point le modèle caché de
Markov, très utilisé en reconnaissance vocale1.
1971 : lancement du projet ARPA aux États-Unis (15 millions de
dollars) pour tester la faisabilité de la compréhension
automatique de la parole continue avec des contraintes raisonnables.
1972 : premier appareil commercialisé de reconnaissance de mots.
1978 : commercialisation d'un système de reconnaissance à
microprocesseurs sur une carte de circuits imprimés.
1983 : première mondiale de commande vocale à bord d'un
avion de chasse en France.
1985 : commercialisation des premiers systèmes de reconnaissance
de plusieurs milliers de mots.
1986 : lancement du projet japonais ATR de téléphone avec
traduction automatique en temps réel.
1993 : Esprit project SUNDIAL2
1997 : La société Dragon lance « NaturallySpeaking
», premier logiciel de dictée vocale.
2008 : Google lance une application de recherche sur Internet mettant
en uvre une fonctionnalité de reconnaissance vocale
2011 : Apple propose l'application Siri sur ses téléphones3.
2017 : Microsoft annonce égaler les performances de reconnaissance
vocale des êtres humains4.
2019 : Amazon lance la reconnaissance vocale en consultation de médecine5
2023 : Nabla lance la transcription puis synthèse de consultation6
et classification CISP2 CIM10 du résultat de consultation.
Depuis 2024, de nombreux logiciels de transcriptions
utilisent l'intelligence artificielle : l'IA
Les systèmes de reconnaissance vocale modernes
utilisent des modèles du langage qui peuvent nécessiter
des gigaoctets de mémoire ce qui les rend impraticables, en particulier
sur les équipements mobiles. Pour cette raison, la plupart des
systèmes de reconnaissance vocale modernes sont en fait hébergés
par des serveurs distantsSVI et nécessitent
une connexion internet et l'envoi à travers le réseau
du contenu vocal.
- Cortana (Microsoft)
- Siri (Apple)
- Google Now (Google)
- Alexa (Amazon)
- Vocapia Research (VoxSigma suite)
- Vocon Hybrid et Dragon (respectivement dictée par grammaire
et dictée libre par Nuance Communications)
- LinTO (logiciel libre développé sous licence open source
par Linagora).
- Mozilla a lancé un projet communautaire, Common Voice, visant
à recueillir des échantillons de voix dans une base de
données libres, pour entraîner des moteurs de reconnaissance
vocale non-propriétaires...
Un serveur vocal interactif ou SVI (en anglais, interactive
voice response ou IVR) est un système informatique capable de
dialoguer avec un utilisateur par téléphone. Il est capable
de recevoir et d'émettre des appels téléphoniques,
de réagir aux actions de l'utilisateur (appui sur des touches
du téléphone, reconnaissance vocale ou reconnaissance
de son numéro téléphonique d'appel) selon une logique
préprogrammée, de diffuser des messages préenregistrés
ou en synthèse vocale, et d'accéder à des bases
de données d'autre part. Un serveur vocal interactif est généralement
capable de traiter de nombreux appels simultanés indépendants.
FERMA a été le premier à fournir
des systèmes où la parole était créée
par Text To Speech ("synthèse à partir
du texte") avec la technologie de diphones du CNET
développée à Lannion et aussi donnant la possibilité
de dialogue à partir à la fois de "postes à
cadran" et de postes à touche DTMF.
La technologie originale de traitement des signaux transitoires envoyés
par les cadrans était importante compte-tenu du parc limité
des postes DTMF et de l'absence de reconnaissance de parole multi-locuteur
de performance suffisante, les utilisateurs en étaient si convaincus
cette fonctionnalité "reconnaissance décimale"
faisait partie des obligations dans les appels d'offres publics audiotels
de la fin des années 1990.
De nombreuses applications vocales basées sur l'interactivité
par "téléphone décimal" ont pu se développer
à Taïwan et en Chine,pays où il y avait très
peu de DTMF à cette époque.
L'application IA pour la reproduction et la traduction
de lavoix
Le clonage de voix gratuit est une technologie basée
sur l'IA qui permet de reproduire la voix d'une personne à l'aide
d'algorithmes d'apprentissage automatique. L'application IA pour la
reproduction de voix en ligne vous permet de créer des audios
de haute qualité qui ressemblent étroitement à
la voix originale.
Lancé en septembre 2024 en dehors de lUnion européenne,
le nouveau mode « Avancé » de ChatGPT Voice
permet de discuter avec un assistant vocal futuriste qui comprend les
émotions, peut les imiter, accepte quon lui coupe la parole
et peut même faire des accents ou se lancer dans un jeu de rôle.
La France y a accès depuis le 22 octobre 2024.
Traduction instantanée et évolutive avec Language Weaver
La traduction automatique (TA), une forme précoce d'intelligence
artificielle linguistique et une ressource fiable dans le processus
de traduction, est disponible sur la plateforme Trados depuis des décennies.
Elle fournit une traduction instantanée que vous pouvez utiliser
de différentes manières : utilisez-la de manière
indépendante pour la traduction automatique, intégrez-la
dans vos processus pour une utilisation interactive ou choisissez d'en
affiner le résultat par le biais de la post-édition.
Si la traduction automatique vous intéresse, Language Weaver
est notre solution de traduction automatique évolutive, basée
sur l'IA, offrant les dernières avancées en matière
de traduction automatique sécurisée. Trados étant
au cur d'un riche capital technologique, nous vous offrons également
la possibilité de vous connecter à des dizaines de fournisseurs
de traduction automatique tiers, afin que vous puissiez personnaliser
et compléter votre solution en fonction de vos besoins.
AI Phone est une application d'appel téléphonique alimentée
par l'intelligence artificielle avec traduction en direct. La traduction
de conversation téléphonique en direct élimine
les barrières linguistiques et d'accent, vous permettant de communiquer
sans effort dans différentes langues pendant vos appels.
Les voix légendaires sexpriment
sur lIA dans le doublage CHATTANOOGA, TN Pour les enfants et parents de ma génération,
rien ne pouvait rivaliser avec les dessins animés du samedi matin,
accompagnés dun bol de céréales au chocolat.
Lorsque nous réentendons ces voix dautrefois, cela ravive
en nous des souvenirs de ces matinées lointaines. Avec lintelligence
artificielle en plein débat, la question se pose : sagit-il
vraiment de la voix de notre enfance, ou est-ce simplement le produit
dune IA ?
Au Comic Con de Chattanooga, deux voix emblématiques ont partagé
leurs expériences et leurs réflexions concernant lIA
dans le monde du doublage.
Selon Scott Innes, voix de Scooby-Doo, Shaggy et dautres personnages,
« Cest effrayant, vous savez ? Quand vous entrez dans
un magasin et que vous touchez un jouet qui danse en émettant
des sons que vous reconnaissez. Vous vous dites oui, cest
ma voix, mais je ne suis pas allé en studio pour cela.
Ensuite, vous contactez votre agent, qui vous informe quils ne
se sentent pas redevables car cela a été généré
sans que vous fassiez le moindre travail. Cest du vol, mais il
ny a pas encore de loi solide qui empêche cela. »
Rob Paulsen, qui incarne des personnages comme Pinky
dans « Pinky et le Cerveau », a une vision légèrement
différente. « Pour moi, Warner Bros possède Yako
dans Animaniacs. Sils reproduisent des segments existants pour
dautres usages, cela leur appartient. Je sais quils sont
impérativement tenus de me verser une rémunération
supplémentaire si cela est stipulé dans notre contrat.
Cependant, larrivée de lIA complique les choses.
Si Warner Bros possède la voix et le personnage et souhaite créer
quelque chose de nouveau avec, quelles sont les limites ? Cest
un monde audacieux qui souvre à nous. »
Un exemple marquant est celui de James Earl Jones, qui
a signé des droits dutilisation de sa voix pour le personnage
de Dark Vador.
Il est difficile dimaginer un film Star Wars sans cette voix iconique,
et Jones a été généreusement compensé
pour cela avant sa retraite. Cela soulève des interrogations
quant à ce que nous laisserons à lIA pour la suite
après tout, qui aurait pu anticiper les événements
du film Matrix sorti en 1999 ?
Merci à Marco Barnig qui a publié "Synthèse
de la parole" dans lequel j'ai extrait de nombreux passages.
Notre Vision À lheure où la technologie, notamment lintelligence
artificielle, redéfinit des domaines créatifs comme le
doublage, il est essentiel de réfléchir aux implications
de cette évolution. La voix humaine, avec toutes ses nuances
et son expressivité, représente un aspect fondamental
de la narration. LIA peut certainement imiter, mais peut-elle
vraiment capturer lessence même de lémotion
humaine ?
En tant que professionnels, nous devons rester vigilants quant à
la manière dont ces technologies interfèrent dans nos
métiers et réfléchir à des approches qui
préservent notre savoir-faire tout en intégrant de manière
éthique les innovations technologiques. Cest avec une telle
perspective que nous pourrions naviguer dans ces nouveaux territoires
sans compromettre la richesse de notre art.