Neuronale Informationsverarbeitung

Lernen auf strukturierten Daten

Induktives Lernen zur Bildung von Vorhersage-Modellen zählt zu einem der wichtigsten Hauptgebiete des Maschinellen Lernens. Folglich existieren zahlreiche Lernverfahren, um Klassifikations- und Regressionsprobleme zu lösen. Die meisten Verfahren beruhen auf der Annahme, dass die Daten durch Merkmalsvektoren eines Euklidischen Raums repräsentiert werden. Für die Entwicklung von Lernverfahren sind Merkmalsvektoren eine geeignete Darstellung, da der Euklidische Vektorraum ein breites Arsenal an mathematischen Methoden für die statistische Datenanalyse bereithält.

Strukturierte Daten wie beispielsweise Proteine, Dokumente, Bilder, Videos, Moleküle, usw., lassen sich selten auf natürliche Weise durch Vektoren ohne Verlust struktureller Information darstellen. Geeignetere Repräsentationen struturierter Daten sind jedoch nicht-euklidisch. Zahlreiche etablierte Techniken und Lernverfahren können somit nicht für die Konstruktion prediktiver Modelle eingesetzt werden. Forschungsziel ist es, existierende induktive Lernverfahren für Merkmalsvekoren auf strukturierte Daten zu erweitern. Wir verfolgen dazu die folgenden Ansätze:

  1. Erweiterung von Kern-Methoden zu Lernverfahren für relationale Daten.
  2. Erweiterung von Standard-Lernverfahren auf kombinatorischen Strukturen via Einbettungen in Quotientenräumen von Euklidischen Räumen.
  3. Entwicklung von Lernverfahren in Riemannschen Manigfaltigkeiten unter Berücksichtigung der geometrischen Struktur der Daten, insbesondere im Bereich aktives Lernen.

Die von uns entwickelten Verfahren wurden u.a. in der Bio- und Chemoinformatik angewendet (vgl. "Anwendungen in der Bio- und Chemoinformatik") als auch in der Analyse multimodaler neuronale Netze (vgl. "Forschung" Seite "MRI, EM, Autoradiography, and Multi-modal Data").

Danksagung: Dieses Projekt wird vom BMWA und der Technischen Universität Berlin finanziert.

 

Software:

The Potential Support Vector Machine (P-SVM)