Forscher des Fachgebiets Datenbanksysteme und Informationsmanagement (DIMA) der TU-Berlin präsentierten zwei Workshop-Papiere und ein Demo-Papier auf der SIMGOD 2023 (https://2023.sigmod.org/), der International Conference of on Management of Data, die vom 18. bis 23. Juni in Seattle, USA, stattfand.
Haralampos Gavriilidis präsentierte das Papier "P2D: A Transpiler Framework for Optimizing Data Science Pipelines" [1] auf dem Workshop Data Management for End-to-End Machine Learning (DEEM). Das Papier befasst sich mit der Ineffizienz von Pre-processing, einem entscheidenden Schritt in Data-Science-Pipelines, da diese derzeit die Fähigkeiten von
Datenbankmanagementsystemen (DBMS) als Backends nicht voll ausschöpfen. Zur Optimierung des Pre-processssing schlagen die Autoren einen transpilationsbasierten Ansatz vor, der die statische Codeanalyse nutzt, um Operationen zu erkennen und an DBMS-Backends weiterzuleiten.
Das Papier "Exploiting Access Pattern Characteristics for Join Reordering" [2] von Nils L.Schubert, Philipp M. Grulich, Steffen Zeuch und Volker Markl untersucht das
Speicherzugriffsmuster des Join-Zwischenzustandes, das ein oft vernachlässigter Leistungsfaktor ist. Basierend auf der Analyse schlagen die Autoren einen neuartigen Join-Reordering-Algorithmus vor, der das Speicherzugriffsmuster erkennt und die Join-Reihenfolge während der Laufzeit entsprechend anpasst.
Kajetan Maliszewski stellte TeeBench [3] vor, ein einheitliches Benchmarking-Framework für relationale Operatoren in vertrauenswürdigen Ausführungsumgebungen (TEE). Das Framework ermöglicht es Forschern, benutzerdefinierte Implementierungen von relationalen Operatoren auf nahtlose Weise zu benchmarken und zu evaluieren. TeeBench verfügt über eine benutzerfreundliche GUI sowie über einen neuartigen TEE-Analyzer, der den Benutzer auf Leistungsengpässe hinweist und mögliche Code-Verbesserungen vorschlägt.
Das Konferenzprogramm bot eine Vielzahl von Vorträgen, Panels und Workshops sowie eine wunderbare Gelegenheit zum Austausch und zur Diskussion mit Forschern und Branchenexperten aus der Datenbankbranche. Auf diese Weise konnten sich die Forscher über die Trends in der Datenbankforschung und ihrer Gemeinschaft informieren.
Ein Höhepunkt der Konferenz war die Bekanntgabe des ACM SIGMOD Systems Award 2023, der an Apache Flink verliehen wurde. Mit dem Preis wird "eine Person oder eine Gruppe von Personen gewürdigt, die ein Software- oder Hardwaresystem entwickelt haben, dessen technische Beiträge einen bedeutenden Einfluss auf die Theorie oder Praxis großer Datenverwaltungssysteme haben." Diese Systeme werden in der Regel in großem Umfang in der Praxis eingesetzt und haben das Design zukünftiger Datenverarbeitungssysteme beeinflusst. Apache Flink ist eine Open-Source-Plattform für die Analyse großer Datenströme.
Die Ursprünge von Apache Flink lassen sich bis ins Jahr 2008 zurückverfolgen, als BIFOLD-Direktor Prof. Dr. Volker Markl die Forschungsgruppe Datenbanksysteme und
Informationsmanagement (DIMA) [3] an der Technischen Universität (TU) Berlin gründete. Im Jahr 2014 beschloss das Team der TU Berlin, die Codebasis unter dem Namen "Flink" an die Apache Software Foundation zu spenden. Heute ist Apache Flink ein von der Apache Software Foundation entwickeltes Framework und ein verteiltes Verarbeitungssystem für zustandsabhängige Berechnungen über unbegrenzte und begrenzte Datenströme.
[1] Yordan Grigorov, Haralampos Gavriilidis, Sergey Redyuk, Kaustubh Beedkar, and Volker
Markl. 2023. P2D: A Transpiler Framework for Optimizing Data Science Pipelines. In Proceedings of the Seventh Workshop on Data Management for End-to-End Machine Learning (DEEM '23) (PDF)
[2] Schubert, Nils L., Philipp M. Grulich, Steffen Zeuch, and Volker Markl. "Exploiting Access Pattern Characteristics for Join Reordering." In Proceedings of the 19th International Workshop on Data Management on New Hardware, pp. 10-18. 2023. (PDF)
[3] Maliszewski, Kajetan, Tilman Dietzel, Jorge-Arnulfo Quiané-Ruiz, and Volker Markl.
"TeeBench: Seamless Benchmarking in Trusted Execution Environments." In Companion of the 2023 International Conference on Management of Data, pp. 163-166. 2023. (PDF)