Datenbanken und Informationssysteme

DIMA-Forscher auf der SIGMOD 2022 in Philadelphia, Pennsylvania

Forscher des Fachgebiets Datenbanksysteme und Informationsmanagement (DIMA) der TU Berlin präsentierten vier Forschungsbeiträge auf der International Conference on Management of Data (SIGMOD 2022), die vom 12. bis 17. Juni in Philadelphia, Pennsylvania, stattfand. Darüber hinaus hielten sie Vorträge an der Harvard University, dem MIT, der Boston University, der Columbia University sowie bei Google, Microsoft, NVIDIA und Oracle.

SIGMOD 2022

DIMA-Forscher haben vier Forschungsbeiträge zur führenden internationalen Konferenz für Datenmanagement, SIGMOD 2022, einer CORE A* Konferenz (d.h. einer führenden Konferenz für Datenmanagement), beigesteuert. Jeder dieser Beiträge zielt darauf ab, die Leistung von Systemen zu optimieren und dadurch die Verarbeitungszeit zu verkürzen und die Analyse von großen Datenmengen in einer Vielzahl von Anwendungen zu beschleunigen. Außerdem hielt Prof. Volker Markl eine Keynote zum Thema "NebulaStream: Data Management for the Internet of Things" auf der BiDEDE 2022, dem internationalen Workshop zu Big Data in Emergent Distributed Environments.

In ihrem Papier "Rethinking Stateful Stream Processing with RDMA" konzentrieren sich Bonaventura Del Monte et al. auf die Verwendung von Hochgeschwindigkeitsnetzwerken zur Beschleunigung von Stream-Processing-Engines. Die größte Herausforderung sind dabei die Echtzeitbeschränkungen und die Gewährleistung der Zustandskonsistenz. Zu diesem Zweck schlagen sie Slash vor, eine neuartige Stream Processing Engine, die Hochgeschwindigkeitsnetzwerke und RDMA nutzt, um verteilte Streaming-Berechnungen effizient auszuführen. Slash verwendet ein für die RDMA-Beschleunigung geeignetes Verarbeitungsmodell und verzichtet auf eine teure Vorpartitionierung der Daten. Insgesamt verbessert Slash den Durchsatz um bis zu zwei Größenordnungen gegenüber bestehenden Systemen, die in einem InfiniBand-Netzwerk eingesetzt werden. Darüber hinaus ist Slash bis zu 22-mal schneller als eine selbst entwickelte Lösung, die zur Skalierung der Abfrageverarbeitung auf eine RDMA-basierte Vorpartitionierung der Daten zurückgreift.

In dem Papier "Triton Join: Efficiently Scaling to a Large Join State on GPUs with Fast Interconnects" (Effiziente Skalierung auf einen großen Join-Zustand auf GPUs mit schnellen Interconnects) schlagen Clemens Lutz et al. einen neuen Join-Algorithmus vor, der schnelle Interconnects ausnutzt, um auf modernen GPUs auf große Datenmengen zu skalieren. Schnelle Interconnects wie NVLink 2.0 sind eine neue Technologie, die GPUs mit einer hohen Bandbreite an den Hauptspeicher anbindet. Durch die Nutzung von Interconnects sind Joins in der Lage, ihren Status zu verschütten, was dazu führt, dass GPU-fähige DBMS über die GPU-Speicherkapazität hinaus skalieren können.

In der Arbeit "NuPS: A Parameter Server for Machine Learning with Non-Uniform Parameter Access" stellen Alexander Renz-Wieland et al. NuPS vor, eine neuartige Parameterserver-Architektur, die: (i) mehrere Verwaltungstechniken integriert und für jeden Parameter eine geeignete Technik einsetzt, und (ii) Sampling direkt über geeignete Primitive und Schemata unterstützt, die einen kontrollierten Kompromiss zwischen Qualität und Effizienz ermöglichen. Als Ergebnis übertrifft NuPS bestehende Parameterserver um bis zu einer Größenordnung und bietet lineare Skalierbarkeit über mehrere maschinelle Lernaufgaben hinweg.

In ihrem Beitrag "Materialization and Reuse Optimizations for Production Data Science Pipelines" schlagen Behrouz Derakhshan et al. ein System zur Optimierung des Trainings von Pipelines für maschinelles Lernen (ML) durch Materialisierung und Wiederverwendung vor. Dieses Papier formuliert das Problem der Materialisierung und Wiederverwendung von Artefakten in ML-Pipelines und entwickelt ein einheitliches Kostenmodell für verschiedene Arten von ML-Artefakten. 
 

Die Publikationen im Einzelnen:

Vollständige Forschungspapiere:

  1. Bonaventura Del Monte, Steffen Zeuch, Tilmann Rabl, und Volker Markl. “Rethinking Stateful Stream Processing with RDMA.” Proceedings of the 2022 International Conference on Management of Data. 2022. [PDF].
  2. Clemens Lutz, Sebastian Breß, Steffen Zeuch, Tilmann Rabl, und Volker Markl. “Triton Join: Efficiently Scaling to a Large Join State on GPUs with Fast Interconnects.” Proceedings of the 2022 International Conference on Management of Data. 2022. [PDF].
  3. Alexander Renz-Wieland, Rainer Gemulla, Zoi Kaoudi, und Volker Markl. “NuPS: A Parameter Server for Machine Learning with Non-Uniform Parameter Access.” Proceedings of the 2022 International Conference on Management of Data. 2022 [PDF].
  4. Behrouz Derakhshan, Alireza Rezaei Mahdiraji, Zoi Kaoudi, Tilmann Rabl, und Volker Markl. “Materialization and Reuse Optimizations for Production Data Science Pipelines.” Proceedings of the 2022 International Conference on Management of Data. 2022. [PDF]