Quality and Usability

Simulating Conversations for the Prediction of Speech Quality (Thilo Michael)

Die Messung und Vorhersage der Sprachqualität ist ein wichtiges Planungsinstrument für Anbieter von Voice-over-Internet-Protocol-Diensten. Aktuelle instrumentelle Modelle, die die Sprachqualität in einem Gesprächsszenario vorhersagen, stützen sich hauptsächlich auf Parameter des Übertragungssystems für ihre Vorhersage. Es hat sich jedoch gezeigt, dass die Auswirkungen auf das Gespräch und damit auf die wahrgenommene Qualität bei einigen Störungen nicht allein durch die Parameter der Übertragung modelliert werden können. Die Auswirkung einer Übertragungsverzögerung auf ein Telefongespräch hängt von der Interaktivität des Gesprächs ab, da das verzögerte Sprachsignal die Gesprächsteilnehmer in ihrem Redefluss bremst. Die Auswirkungen von Paketverlusten sind zwar in einer Hörsituation erkennbar, hängen aber auch davon ab, welcher Teil der übertragenen Informationen verloren geht und ob der Gesprächspartner ein Missverständnis durch einen zusätzlichen Reparaturdialog aufklären muss. In Gesprächen, in denen diese Beeinträchtigungen gleichzeitig auftreten, kann es zu Interaktivitätseffekten kommen, da die Metakommunikation aufgrund verlorener Pakete wiederum durch die Übertragungsverzögerung beeinträchtigt wird. Da die derzeitigen Modelle zur Qualitätsvorhersage diese Faktoren und ihre Wechselwirkung nicht berücksichtigen, können sie diese nicht in die Vorhersage mit einbeziehen. In dieser Arbeit wird die Konversationssimulation als neuer Ansatz für die instrumentelle Vorhersage der Gesprächsqualität vorgestellt. Es wird eine Simulationsarchitektur beschrieben, die auf der inkrementellen Verarbeitung gesprochener Dialoge basiert und standardisierte Gesprächsszenarien auf Konzept-, Turn-Taking- und Sprachsignalebene modellieren kann. Insbesondere werden die Veränderungen im Turn-Taking bei verzögerter Übertragung und die erneute Übertragung von Informationen aufgrund von Paketverlusten modelliert und anhand von empirischen Gesprächen bewertet. Die daraus resultierenden simulierten Gespräche werden mit Methoden aus dem Bereich der gesprochenen Dialogsysteme und der Gesprächsanalyse ausgewertet, so dass sich Parameter ergeben, die die Veränderungen in Gesprächen aufgrund von Verzögerungen und Paketverlusten darstellen. Das Vollband-E-Modell, ein standardisiertes parametrisches Modell, wird für Gesprächsinteraktivität und Paketverluste erweitert, um die aus den Gesprächen extrahierten Parameter zu nutzen. Schließlich wird die Konversationsqualität auf der Grundlage des erweiterten E-Modells und der Parameter aus den simulierten Konversationen vorhergesagt.

Download @TU Berlin