„Das ist eine erhebliche Erweiterung unserer Erkenntnisse über das Gehirn“

Prof. Dr. Fatma Deniz leitet seit April 2023 das Fachgebiet „Sprache und Kommunikation in Biologischen und Künstlichen Systemen“. Ab dem 1. April 2024 wird sie zudem Vizepräsidentin der TU Berlin für Digitalisierung und Nachhaltigkeit sein. Mit Hilfe von Magnetresonanztomografie schaut Fatma Deniz Gehirnen dabei zu, wie sie Sprache verarbeiten. Ihre wichtigste Erkenntnis: Auf den Kontext kommt es an.

Frau Deniz, meine Teenager-Tochter hört die ganze Zeit nur Hörspiele und liest kein einziges Buch. Muss ich mir Sorgen machen?
Das kommt darauf an, was Sie beunruhigt. Wenn es Ihnen um das Erlernen der Rechtschreibung geht, ist man mit Lesen vielleicht im Vorteil. Allgemein ist jedoch der Trend zum Hören statt Lesen erstmal kein Grund zur Besorgnis. Wir haben festgestellt, dass gehörte und gelesene Informationen im Gehirn an den gleichen Stellen und auf eine sehr ähnliche Weise repräsentiert werden.

Aber gibt es nicht Studien, die belegen, dass ich über Hörbücher viel weniger lerne als wenn ich ein Buch lesen würde?
Wenn Sie sich auf beides gleich gut konzentrieren, ist das wahrscheinlich nicht der Fall. Das Problem ist aber, dass man ein Hörbuch oder ein Radiofeature oder einen Podcast hören kann, während man dabei etwas anderes tut. Versuchen Sie dagegen mal, während des Staubsaugens oder Abspülens ein Buch zu lesen! Wenn die Aufmerksamkeit zwischen verschiedenen Tätigkeiten geteilt werden muss, ist die Informationsverarbeitung schlechter, als würde man sich auf eine Sache konzentrieren. Die verschiedenen Audioangebote heutzutage geben einem aber die Möglichkeit, während sonst langweiliger Tätigkeiten überhaupt etwas Interessantes und Anregendes aufzunehmen. Das sollte man nicht unterschätzen. Besser ein Radiobeitrag, bei dem wenigstens die Hauptaussagen hängen bleiben, als ein nicht gelesenes Buch.

Wie haben Sie herausgefunden, dass Hören und Lesen im Gehirn gleich verarbeitet werden?
Wir haben dazu Proband*innen mit Hilfe der Magnetresonanztomographie, der MRT, untersucht, währen diese lasen oder hörten. Wichtig dabei ist, dass wir echte Geschichten verwendet haben, von einer preisgekrönten US-amerikanischen Radiosendung. Dort erzählen Menschen persönliche Geschichten zu den verschiedensten Themen vor einem Publikum. Unsere Geschichten waren immer etwa 10 Minuten lang, was auch ungefähr die Zeit ist, in der man sich im MRT gut konzentrieren kann. Durch die Betriebsgeräusche ist es in so einer Röhre ja sehr laut.

Und man darf kein Metall mit reinnehmen. Wie haben Sie das denn technisch gemacht mit dem Lesen und Hören der Geschichten?
Das stimmt, ein Tablet könnte sich durch die schnell wechselnden Magnetfelder gefährlich stark erwärmen; Metallgegenstände sind generell in einer MRT-Umgebung nicht sicher, diese können sich bewegen und zu Verletzungen führen. Die Texte haben wir über ein spezielles System von außen in die Röhre projiziert, und es gibt extra metallfreie, MRT-kompatible Kopfhörer.

Wie konnten Sie von ihren Messungen auf die Verarbeitung der Geschichten im Gehirn schließen?
Wenn ein Bereich des Gehirns aktiv ist, erhöht sich dort der Blutfluss in den Gefäßen und der Sauerstoffgehalt in den Venen verändert sich. Da sauerstoffreiches und sauerstoffarmes Blut unterschiedliche magnetische Eigenschaften haben, kann man die Hirnaktivität mit der Magnetresonanztomographie erkennen. Wir können also für jedes dreidimensionale Pixel von wenigen Millimetern Kantenlänge im Gehirn die Aktivität zu einem bestimmten Zeitpunkt messen, während gelesen oder gehört wird. Auf diese Weise können wir feststellen, welche Worte und Sätze an welcher Stelle der Geschichte wo im Gehirn verarbeitet werden.

Gibt es denn einen Unterschied in der Verarbeitung eines Wortes, je nachdem, wo es in einer Geschichte auftaucht?
Oh ja! Das ist ein weiteres sehr wichtiges Ergebnis unserer Forschungen. Schon seit den 1990er Jahren wurden einzelne Worte und später auch Sätze dahingehend untersucht, wo sie im Gehirn Aktivität auslösen. Auf diese Weise konnten verschiedene Zentren der Sprachverarbeitung lokalisiert werden. Wir haben allerdings herausgefunden, dass diese sehr künstliche Situation, wenn dem Gehirn nur ein einziges Wort präsentiert wird, sehr wenig mit der natürlichen Sprache zu tun hat. Je nach Kontext, also wo in einem Text ein Wort steht, kann es im Gehirn auch ganz woanders verarbeitet werden.

Ist es nicht unglaublich komplex, den Kontext zu analysieren, in dem ein Wort in einer Geschichte auftaucht?
Natürlich, deshalb haben es bisher auch noch nicht viele versucht. Wir machen uns hier die Fortschritte bei den Sprachmodellen der Künstlichen Intelligenz, der KI, zunutze. Zugrunde legen wir dabei sogenannte Bedeutungsräume. In diesen stehen Worte nahe beieinander, die oft zusammen gebraucht werden. Mann und Frau etwa, König und Königin, aber auch Apfel, kaufen, Messer, Tisch, essen. Jedem Wort können sie andere Worte mit einem bestimmten Gewicht zuordnen. Diese Gewichtung sagt aus, wie wahrscheinlich es ist, dass dieses Wort mit dem anderen im Zusammenhang genannt wird. Daraus lassen sich „Vektoren“ bilden, die Sie vielleicht aus dem Mathematikunterricht kennen. Jeder Vektor ist dort ein Pfeil, der jeweils aus Anteilen auf der x-, y- und z-Achse besteht. Unsere Vektoren haben allerdings nicht diese drei, sondern 300 Dimensionen.

Der Vektor von „Apfel“ besteht dann also aus Anteilen von „kaufen“, „Messer“, „Tisch“ und so weiter?
Im Prinzip ist das so. Es gibt tatsächlich Systeme, in denen quasi ganze Wörterbücher in so einem selbstbezüglichen Rahmen dargestellt werden. Wir verwenden allerdings eine Erweiterung dieses Systems, in dem die Vektoren der Worte aus selbstgewählten, künstlichen Dimensionen bestehen. Dies ist effizienter und gleichzeitig kann man so noch genauer Bedeutungen zusammenfassen.

Wie läuft dann genau das Zusammenspiel mit den Sprachmodellen der KI, von denen ja ChatGPT mittlerweile vielen bekannt sein dürfte?
Die Sprachmodelle beruhen selbst genau auf diesen Repräsentationen von Worten in Bedeutungsräumen. Mit Hilfe dieser Repräsentationen erarbeiten wir zunächst Modelle, wie Semantik, also die Bedeutung von Sprache, im Gehirn verarbeitet wird. Mit Hilfe dieser Modelle versuchen wir dann, Vorhersagen zu machen, welche Hirnaktivitäten neue, bisher noch nicht verwendete Geschichten auslösen werden. Und was wir sehen, ist, dass unsere Vorhersagen über semantische Repräsentationen im Gehirn sehr gut von den experimentellen Daten bestätigt werden. Wesentlich besser als Modelle, die nur mit Hilfe einzelner Wörter oder Sätze gewonnen wurden, die Probanden im MRT gehört oder gelesen haben.

Welche Bedeutung hat dieser Fortschritt für die Erforschung des menschlichen Sprachverstehens?
Aus meiner Sicht ist das eine erhebliche Erweiterung unserer Erkenntnisse über das Gehirn. Das Gehirn ist offenbar ein stark kontextabhängiges Organ. Es gibt dort zwar tatsächlich Zentren, in denen bestimmte Arten von Informationen immer vorrangig verarbeitet werden. Also wenn es um Gesichter geht, oder um Objekte, oder um Soziales, dann springen schon immer bestimmte Bereiche in unserem Gehirn an, bestimmte Netzwerke von Gehirnregionen. Aber je nach genauem Kontext kommen dann eben noch viele andere Bereiche hinzu. Und diese lassen sich nur vorhersagen, wenn wir die ganze Geschichte in einem hochdimensionalen Bedeutungsraum der Worte betrachten.

Dieses Wissen könnte ja auch die Sprachmodelle der KI wie ChatGPT weiter verbessern. 
Absolut. Wie ähnlich sind sich die künstlichen neuronalen Netze und unsere eigenen neuronalen Netze in Bezug auf die Repräsentationen von Worten in Bedeutungsräumen? Das wäre gut zu wissen, um die Repräsentationen der KI menschenähnlicher zu machen. Zusätzlich kann man inzwischen aus Gehirnscans sogar zu einem gewissen Grad ablesen, was genau ein Mensch sagen will, auch wenn er oder sie es nicht mehr richtig aussprechen kann, zum Beispiel nach einem Schlaganfall. Auch in der Bildungsforschung könnten unsere Methoden Anwendung finden, etwa beim Thema Legasthenie und wie man damit umgeht. Ganz allgemein könnte die Entwicklung von Schreib- und Lesehilfen von unseren Erkenntnissen sicher profitieren.

Sie haben ja auch gerade einen Starting Grant des Europäischen Forschungsrats ERC bekommen, wo es um Fremdsprachen geht …
Ja, bei dieser Förderung geht es um das Erlernen von Fremdsprachen, in einem anderen Förderprojekt des Bundesministeriums für Bildung und Forschung um Mehrsprachigkeit. In beiden Fällen arbeiten wir mit genauen Hirnscans von einzelnen Personen. Wie wird Mehrsprachigkeit im Gehirn organisiert? Werden „Blume“ und „Flower“ kontextabhängig an denselben Orten verarbeitet? Für den ERC Starting Grant begleiten wir Menschen beim Erlernen einer Sprache. Welche Prozesse werden dabei im Gehirn ausgelöst? Gibt es vielleicht Kipp-Punkte, wo ab einem bestimmten Sprachverständnis sich die Verarbeitung nochmal grundlegend ändert? All das könnte schließlich zu einem verbesserten Curriculum und vielleicht auch neuen technischen Hilfsmitteln für das Sprachenlernen führen. Damit würden wir Menschen uns besser verstehen – bei der momentanen Weltlage kein schlechtes Ziel, finde ich.

Über Fatma Deniz

Prof. Dr. Fatma Deniz studierte in München und Pasadena (USA). Ihre Promotion in der Informatik legte sie an der TU Berlin in Kooperation mit dem Berlin Bernstein Center for Computational Neuroscience (BCCN) vor. Ihr Forschungsbereich umfasst Neurowissenschaft und Informatik. Von 2013 bis 2020 forschte sie an der University of California – Berkeley, USA. Danach kehrte sie nach Berlin zurück und bekam im April 2023 einen Ruf an die TU Berlin für die Leitung des Fachgebietes „Sprache und Kommunikation in Biologischen und Künstlichen Systemen“. Ihre Professur wird durch das Berliner Programm für Chancengleichheit gefördert. Sie ist Mitglied im BCCN und aktiv in der Berlin University Alliance (BUA).