La synthèse vocale est la technologie informatique qui permet à un logiciel de lire un texte écrit avec une voix synthétique. Cette technologie, qui a fait d’énormes progrès depuis ses débuts dans les années 1960, a pour principale application la lecture d’écran pour les personnes malvoyantes.
Présentation
La synthèse vocale, également appelée "text to speech", est une technologie de synthèse sonore qui permet de lire n'importe quel texte avec une voix artificielle.
Cette technologie fonctionne à l'inverse de la reconnaissance vocale où un logiciel reconnaît la voix humaine et la transcrit en texte. On parle dans les deux cas d'"interfaces vocales".
Les principales applications de cette technologie sont :
- la vocalisation d'écrans informatiques pour les malvoyants grâce à un logiciel appelé screenreader ou lecteur d'écran (cette aide technique permet aux malvoyants d'interagir avec le système d'exploitation et les logiciels)
- des applications de serveurs vocaux téléphoniques par exemple pour les usagers de téléphones portables.
Principe de fonctionnement
Les logiciels de synthèse vocale utilisent à la fois des techniques de traitement linguistique (pour transformer le texte écrit en une version phonétique prononçable sans ambiguïté) et des techniques de traitement du signal (pour transformer la version phonétique du texte en son numérisé pouvant être écouté sur un haut parleur).
Ces logiciels opèrent tout d’abord une transcription phonétique : ils transcrivent la suite de lettres composant le texte en une série de phonèmes qui représentent exactement les sons devant être prononcés.
Ils restituent ensuite le contenu du texte grâce à des sons synthétisés. Il s’agit en fait de morceaux d'enregistrements de parole qui sont artificiellement "attachés" les uns à la suite des autres.
Les progrès de cette technologie
Plusieurs générations de techniques ont été développées pour permettre la synthèse vocale de textes écrits.
La Première génération de logiciels, qui était courante entre 1965 et 1985, utilisait une technique entièrement synthétique. Les possibilités de ces logiciels étaient alors très limitées en raison des faibles capacités des mémoires informatiques.
Depuis, ces logiciels ont connu d’énormes améliorations : grâce au progrès la miniaturisation et du stockage des données, il est désormais possible d'enregistrer des milliers d’éléments sonores. Ces "petits morceaux" de parole naturelle sont ensuite assemblés par les logiciels de synthèse vocale pour former n'importe quel mot ou énoncé synthétique.
Le principal défi de la parole synthétisée est de produire une impression de voix naturelle et non une voix monocorde de robot. Pour obtenir un résultat proche de la parole humaine, les logiciels doivent tenir compte du rythme, de l'intonation et de l'accent tonique. Par exemple, l’intonation est différente dans une phrase affirmative, interrogative ou exclamative…
Quelques logiciels de ce type sont Loquendo (voir une démonstration sur le site ci-dessous), SVOX, RealSpeak et Pediaphon (servant à lire les articles de Wikipédia en français).
Plus d'information :
Visitez le site : http://tts.loquendo.com/ttsdemo/default.asp?page=id&voice=Juliette
Tag : synthèse vocale, logiciel de synthèse vocale, logiciels synthèse vocale, accessibilité informatique des malvoyants, fonctionnement synthèse vocale , logiciels, synthèse vocale, logiciel, malvoyants, phonétique, intonation, monocorde, transcription phonétique, transcrivent, accent tonique, phonèmes, sons synthétisés, robot, 1985, mémoires informatiques, 1965, linguistique, informatique, voix synthétique, années 1960, synthèse sonore, reconnaissance vocale, voix humaine, vocalisation, lecteur d'écran, système d'exploitation, téléphones portables, français,