Alle News

Neuer Sonderforschungsbereich für die Datenanalyse

Medieninformation | 25. Juni 2020 | kj

Ab dem 1. Juli 2020 fördert die Deutsche Forschungsgemeinschaft (DFG) den neuen Sonderforschungsbereich (SFB) „FONDA – Grundlagen von Workflows für die Analyse großer naturwissenschaftlicher Daten“. Zu den beteiligten Institutionen gehören auch zwei Fachgebiete der Technischen Universität Berlin: Distributed and Operating Systems von Prof. Dr. Odej Kao sowie Database Systems and Information Management von Prof. Dr. Volker Markl. Die Sprecherschaft des ersten Berliner SFB in der Informatik liegt bei Prof. Dr. Ulf Leser von der Humboldt-Universität zu Berlin.

„Die Untersuchung vieler aktueller Fragestellungen der Naturwissenschaften basiert auf der Auswertung großer Datenbestände – Big Data – mit automatischen Analysewerkzeugen, deren Zusammenspiel in sogenannten Datenanalyseworkflows festgelegt wird“, so Volker Markl. „Der Begriff ‘Big Data‚ umschreibt dabei eine herausfordernde Datenanalyse, weil die Datensätze zum einen sehr groß und zum zweiten heterogen sind. Hinzu kommt, dass sie sich im Laufe der Zeit ändern oder schnell wachsen können.“

„Eine effiziente Analyse solcher Daten erfordert sowohl parallele als auch verteilte Rechensysteme, die Einbeziehung fortschrittlicher statistischer Methoden sowie geeignete Mittel zur Durchführung der Datenintegration, -normalisierung und -filterung. Die Abfolge dieser Verarbeitungsschritte wird als Data Analysis Workflows bezeichnet“, weiß Odej Kao. Beispiele für solche Data Analysis Workflows (DAW) gehören mittlerweile zu den alltäglichen Werkzeugen in zahlreichen wissenschaftlichen Disziplinen. Dazu zählen eine Gen-Sequenzierung in der Biotechnologie, die Auswertung von Satellitenbildern in der Geowissenschaft oder auch die Beobachtung von biologischen Prozessen mit Mikroskopen. Die DAW setzen das Wissen der einzelnen Schritte in entsprechende Verarbeitungsketten um, so dass große Datenmengen effizient, nachvollziehbar und reproduzierbar ausgewertet und neue wissenschaftliche Erkenntnisse generiert werden können.

Der dafür notwendige Entwicklungsaufwand ist nach wie vor sehr hoch, da die Entwicklung Detailkenntnisse über moderne Computerinfrastrukturen, komplexe Hardware (Computercluster, Multi-Core-Server, Hochleistungsrechnersysteme), Software (Ressourcenmanager, Scheduler, Dateisysteme), Programmiersprachen sowie Datenanalysewerkzeuge erfordert. Diese Kenntnisse sind nicht in allen wissenschaftlichen Bereichen vorhanden, wodurch sehr viel Entwicklungszeit abseits der eigentlichen Forschung zum Beispiel für Datenanalyse und Erkenntnisgewinn benötigt wird. „Daher ist ein interdisziplinärer Ansatz bei diesem Thema entscheidend“, so Odej Kao. Der SFB „FONDA“ will diese Lücke schließen und Techniken, Verfahren und Werkzeuge erforschen, die eine Steigerung der Produktivität von Wissenschaftler*innen bei der Erstellung und Anwendung von Datenanalyseworkflows ermöglichen.

Kontakt

Prof. Dr. Odej Kao
TU Berlin
Fachgebiet Distributed and Operating Systems
Tel.: 030 314-25154
E-Mail: odej.kao(at)tu-berlin.de

Prof. Dr. Volker Markl
TU Berlin
Fachgebiet Database Systems and Information Management
Tel.: 030 314-25553
E-Mail: volker.markl(at)tu-berlin.de