Datenbanken und Informationssysteme

Projekt DORIAN

DORIAN ist ein Projekt des Software Campus.

Moderne Unternehmen sind in hohem Maße auf datengestützte Erkenntnisse angewiesen. Sie setzen komplexe Data-Science-Prozesse ein, die aus einem breiten Spektrum von Aufgaben bestehen: Analyse von Geschäftsfällen, Datenerfassung, Integration, Vorverarbeitung, Modellierung und prädiktive Analyse, Experimentieren und Auswertung der Ergebnisse, Bereitstellung, Überwachung, Visualisierung und Berichterstattung. Der Prozess selbst ist in hohem Maße iterativ und dynamisch, wie die modernen Geschäfts- und Rechenumgebungen es sind. Die Datenquellen und Ausführungssysteme sind heterogen, die verantwortlichen Teams sind vielfältig. Die hohe Komplexität und Variabilität der Umgebung führt zu einem erheblichen Overhead für Analysten, die datenintensive Anwendungen ausführen und verwalten.

In diesem Projekt wollen wir den daraus resultierenden Overhead bei der Überwachung und Inspektion komplexer Data-Science-Workflows reduzieren, indem wir einen Prototyp des Systems für das End-to-End-Management von Data-Science-Prozessen entwickeln. Wir konzentrieren uns auf eine gemeinsame Managementaufgabe - die automatisierte Dokumentation von Arbeitsabläufen für datenintensive Experimente, um die Reproduzierbarkeit, den systematischen Vergleich und die weitere Wiederverwendung zu erleichtern. Unter Dokumentation verstehen wir den Prozess der Ableitung einer deklarativen Darstellung des Workflows, die die Herkunft und Metadaten der zugrunde liegenden digitalen Artefakte (z. B. Datensätze, DS-Pipeline, Vorhersagemodell) zur Laufzeit erfasst, um den Zustand des Experiments (Softwareabhängigkeiten, Hardwarespezifikation, Versionierung des Quellcodes, Zwischenartefakte usw.) zu kontrollieren und Reproduzierbarkeit zu ermöglichen.

Im Rahmen dieses Projekts entwerfen wir die High-Level-Abstraktion für die deklarative Spezifikation der DS-Workflows. Wir implementieren einen Prototyp des Managementsystems, das diese deklarative Zwischenrepräsentation (IR) automatisch aus einem datenwissenschaftlichen Experiment extrahiert und in einer Experimentdatenbank für weitere Reproduzierbarkeit, Suche, Vergleich und Wiederverwendung speichert.

Weitere Informationen finden Sie unter https://softwarecampus.de/en/project/dorian-reproducibility-inspection-and-automation-of-data-oriented-experiments/.

 

Projektlaufzeit: 01/01/2020 - 31/12/2021

Software-Campus-Teilnehmer: Sergey Redyuk

Projektpartner: Software AG

Mittelgeber: Deutsches Zentrum für Luft- und Raumfahrt (DLR)