Motivation und Projektbeschreibung
Synthetisierte Sprache hat inzwischen einen Reifegrad erreicht, der sie als geeignet für verschiedene kommerzielle Anwendungen erscheinen lässt. So findet man Systeme zur vollständigen Generierung von Sprache aus Rechtschrift-Text (Text-to-Speech, TTS) z.B. in Informationsansagen (Wetter, Kinoprogramm, etc.), SMS- oder E-Mail-Vorlesediensten, Sprachsteuerungen für Hausgeräte oder auch in Navigationssystemen. Der Grund weshalb der Einsatz synthetisierter Sprache meist auf Bereiche beschränkt ist in denen Sprache tatsächlich aus Rechtschrift-Text generiert wird liegt in einem gegenüber natürlicher Sprache immer noch eingeschränktem Qualitätsniveau.
Zur Optimierung der Qualität bedarf es regelmäßiger Qualitätsbewertungen durch Testhörer, welche vorher generierte Sprachproben in einer mehr oder weniger realistischen Abhörsituation vorgespielt bekommen und anschließend verschiedene Eigenschaften des Gehörten bewerten sollen. Durch die große Anzahl an Versuchspersonen (15...50) und die durch Planung, Vorbereitung, Durchführung und Auswertung in Anspruch genommene Zeit entstehen Kosten, die eine regelmäßige Durchführung von Hörversuchen nicht möglich machen. Eine instrumentelle Schätzung der Gesamtqualität und anderer Aspekte synthetischer Sprache (Natürlichkeit, Verstehbarkeit...) wäre deshalb wünschenswert.
Ziel dieses Forschungsvorhabens ist es, ein instrumentelles Verfahren zu entwickeln, welches verschiedene Qualitätsmerkmale allein aus dem Sprachsignal schätzt. Hierzu sind zunächst diejenigen Qualitätsmerkmale zu identifizieren und zu isolieren, welche sich direkt im Sprachsignal widerspiegeln. Dazu ist eine umfangreiche Bestimmung aller qualitätsrelevanten Einflussgrößen für verschiedene Synthesesysteme und Einsatzgebiete notwendig. Auf der Grundlage systematisch variierter Einflussgrößen werden Sprachproben generiert und bezüglich verschiedener Qualitätsmerkmale sowie der Gesamtqualität auditiv bewertet. Parallel dazu werden Signalanalysen durchgeführt, welche zum Ziel haben, die auditiv bestimmten Qualitätsmesswerte direkt aus dem Sprachsignal zu schätzen.
Im Ergebnis soll ein System vorliegen, das für jede Sprachsynthese und jeden Sprachprompt ein Qualitätsprofil erzeugen kann, welches unterschiedliche Merkmale der Qualität sowie die geschätzte Gesamtqualität übersichtlich darstellt. Der Gültigkeitsbereich eines solchermaßen geschätzten Qualitätsprofils wird anhand verschiedener Datenbanken abgesteckt, welche teilweise dem internationalen Vergleich von Sprachsynthesen, der sog. "Blizzard-Challenge", entnommen sind, teilweise werden neue Datenbanken im Laufe des Forschungsvorhabens unter Mithilfe deutschsprachiger Forschungseinrichtungen, die am Thema Sprachsynthese arbeiten, erzeugt.
Fragestellungen
Dauer: 09/2010 - 08/2013
Mitarbeiter:Sebastian Möller, Florian Hinterleitner
Partner: Lehrstuhl für Netzwerk- und Systemtheorie, Christian-Albrechts-Universität, Kiel
Centre for Speech Technology Research (CSTR), University of Edinburgh
Förderung durch: Deutsche Forschungsgemeinschaft (DFG), MO 1038/11-1