Datenbanken und Informationssysteme

EDADS - Efficient Data Analysis and Data Summaries

Trotz der jüngsten Fortschritte im Bereich der verteilten Datenverarbeitung und der Verfügbarkeit von Big-Data-Plattformen wie Apache Flink und Apache Spark wachsen die Datenmengen weiter an. Das Aufkommen neuer Technologien, wie das Internet der Dinge (IoT), macht die Entwicklung neuer Lösungen zur Beschleunigung der Datenanalyse, insbesondere für Streaming-Daten, noch dringender erforderlich. Um diese Herausforderung zu meistern, nutzen Informatiker verschiedene Ansätze, um die Datenflut zu bewältigen. Ein Ansatz besteht in der Berechnung von Skizzen auf großen Datensätzen, die es uns ermöglichen, bestimmte Merkmale der ursprünglichen Daten, wie den Durchschnitt, die Varianz oder die Extrema, zu approximieren. Im Software-Campus-Projekt EDADS (Efficient Data Analysis Based on Data Summaries) besteht unser Hauptziel darin, Sketch-Algorithmen für Streaming-Daten in modernen Dataflow-Engines zu entwickeln und zu implementieren. Dies würde dazu dienen, die Größe von Datenströmen zu reduzieren. Darüber hinaus könnte die Skizze im Gegensatz zur Untersuchung des gesamten Datensatzes von der Datenanalyse verwendet werden (z.B. zur Erkennung von Anomalien) und so die Ausführungszeit der Datenanalyse verkürzen.

Das EDADS Projekt wird als Teil des Software Campus Programms vom Bundesministerium für Bildung und Forschung gefördert und von Huawei Technologies unterstützt.

Projektdauer: 06/2019 - 09/2020

Supervisor: Prof. Dr. Volker Markl

Advisor: Martin Kiefer