Open Distributed Systems

Forschungsprojekte

Diese Seite gibt einen Überblick über die Forschungsprojekte bei ODS.

Weitere ODS-Forschungsprojekte im Zusammenhang mit DCAITI finden Sie hier.

Berlin Institute for the Foundations of Learning and Data - BIFOLD

Das BIFOLD betreibt Grundlagenforschung in den Bereichen Big Data Management und maschinelles Lernen sowie deren Überschneidungen, um zukünftige Talente auszubilden und einen hochwirksamen Wissensaustausch zu schaffen.

Das Berlin Institute for the Foundations of Learning and Data (BIFOLD) ist 2019 aus der Fusion zweier nationaler Kompetenzzentren für Künstliche Intelligenz hervorgegangen: dem Berlin Big Data Center (BBDC) und dem Berlin Center for Machine Learning (BZML). Eingebettet in die pulsierende Metropolregion Berlin bietet das BIFOLD ein hervorragendes wissenschaftliches Umfeld und zahlreiche Kooperationsmöglichkeiten für nationale und internationale Forscher. BIFOLD bietet ein breites Spektrum an Forschungsthemen sowie eine Plattform für interdisziplinäre Forschung und Wissensaustausch mit den Natur- und Geisteswissenschaften, der Industrie, Start-ups und der Gesellschaft.

Datenmanagement (DM) und maschinelles Lernen (ML) sind die wissenschaftlichen und technischen Säulen, die die aktuelle Innovationswelle im Bereich der künstlichen Intelligenz (KI) vorantreiben; es ist die effiziente Verarbeitung und intelligente Analyse sehr großer, komplexer, heterogener Daten, die das Potenzial hat, unser Leben und unsere Gesellschaft zu revolutionieren und wesentlich zu verbessern. BIFOLD betreibt skalierbare und dennoch agile KI-Grundlagenforschung. Darüber hinaus befasst es sich mit den neuen Herausforderungen und Anforderungen, die durch die schnell wachsende Bedeutung von Datenmanagement und maschinellem Lernen in praktisch allen Bereichen entstehen, von der Medizin, der Industrie, den Naturwissenschaften, den Geisteswissenschaften, dem elektronischen Handel und den Medien bis hin zu Staat und Gesellschaft.

Weitere Informationen sind unter https://bifold.berlin/ verfügbar.

Informationstechnische Grundlagen semantischer Stromdatenverarbeitung (COSMO)

Originaltitel: Computing Foundations For Semantic Stream Processing (COSMO)

Stromdatenverarbeitung ist in modernen Informationssystemen bereits vielfältig im Einsatz. Dabei liegt die große Herausforderung beim Design der Verarbeitungsinfrastruktur für solche Systeme darin, zu verstehen, wie man in einem hochdynamischen Umfeld das richtige Gleichgewicht zwischen Expressivität und Berechenbarkeit erreichen kann. Expressivität definiert die Arten an Eingabedaten und die möglichen Operationen und Verarbeitungswege. Berechenbarkeit andererseits legt fest, wie eine bestimmte Arbeitslast (z.B. Verarbeitungsablauf und Datengröße) mit den zur Verfügung stehenden Ressourcen (z.B. CPU, RAM und Netzwerkbandbreite) verarbeitet wird.

Existierende Systeme basieren dabei häufig auf Vorkenntnissen über Daten (z.B. Format, Modalität, Schema und Verteilung), Verarbeitungsaufwand und Berechnungseinstellungen. Diese Annahemen sind jedoch nur bedingt auf Bereiche wie das Internet der Dinge oder  KI übertragbar, da hier zum Teil vollkommen andere Expressivität, und Verarbeitungspipelines benötigt werden, um  der Dynamik dieses Umfelds gerecht zu werden: Ein typische Verarbeitungspipeline eines vernetzten Fahrzeugs verarbeitet z.B. nicht nur multimodale Datenströme aus verschiedenster Sensorik, sondern braucht auch einen sehr komplexen Verarbeitungsablauf mit logischem Schließen und statistischer Inferenz, üblicherweise ablaufend in einem hochdynamischen, verteilten Umfeld, z.B. durch die Kombination von fahrzeuginternen Verarbeitungseinheiten mit Cloud-/Edge-Infrastrukturen. Solche Verarbeitungspipelines und -architekturen bedürfen einer systematischen Analyse und grundlegenden Weiterentwicklung des Standes der Technik in vielen Bereichen.

Dieses Projekt zielt ab auf die Erforschung der notwenigen Grundlagen eines neuartigen Stromdatenverarbeitungsansatzes, der ein einheitliches Verarbeitungsmodell für semantische Stromdatenverarbeitung in Verbindung mit einem standardisierten Graphdatenmodell und  einer Graphdatenabfragesprache anbieten soll. Die Grundlage dafür soll mit einer systematischen Studie über die Klassen nachvollziehbarer Verarbeitungsoperatoren, einschließlich Graphabfragemustern, sowie logischer und statistischer Inferenz auf Stromdaten geschaffen werden. Die daraus definierten neuen Verarbeitungsmethoden sollen die Entwicklung effizienter, inkrementeller Bewertungsalgorithmen ermöglichen. Darauffolgend wird im Projekt untersucht werden, wie eine expressive Stromdatenverarbeitungspipeline in einer dynamischen und verteilten Computerumgebung dynamisch und robust skalierbar implementiert werden kann. Zusätzlich wird das Projekt einen neuartigen Optimierungsansatz untersuchen, der auf Logik und theoretischen Garantien basierende Optimierungsalgorithmen mit Laufzeitstatistiken und adaptiven Algorithmen kombiniert. Diese neuen Algorithmen und Frameworks werden in zwei Anwendungsbereichen, dem Internet der Dinge und vernetzten Fahrzeugen, umfassend evaluiert.

NFDI4Cat

Die Katalyse hat als interdisziplinäres wissenschaftliches Technologiefeld große strategische Bedeutung für die Wirtschaft und die Gesellschaft als Ganzes. Sie ist eine der wichtigsten Kerntechnologien, um parallel die drängenden Herausforderungen des Klimawandels, der Versorgung mit nachhaltiger Energie und mit nachhaltigen Materialien zu lösen. Konkrete Beispiele sind die Reduzierung oder vollständige Vermeidung von CO2-Emissionen, die Verwertung von Kunststoffabfällen und CO2 in der chemischen Produktion, die nachhaltige Wasserstofferzeugung, die Brennstoffzellentechnologie oder die nachhaltige Ernährung von mehr als sieben Milliarden Menschen auf der Erde. Sie alle erfordern bahnbrechende Fortschritte in der Katalysewissenschaft und -technik.

Dafür ist ein grundlegender Wandel in der Katalyseforschung, der chemischen Verfahrenstechnik und der Prozesstechnologie erforderlich. Eine Schlüsselherausforderung besteht darin, die verschiedenen Disziplinen in der Katalyseforschung und -technologie mit der Unterstützung von Datenwissenschaftlern und Mathematikern zusammenzuführen. Ziel ist es, die Katalyseforschung im digitalen Zeitalter neu zu definieren. Diese sogenannte »digitale Katalyse« soll dabei entlang der Datenwertschöpfungskette realisiert werden, die sich entlang von »Molekülen zu chemischen Prozessen« orientiert.

Das von der DECHEMA (Gesellschaft für Chemische Technik und Biotechnologie e.V.) koordinierte Konsortium NFDI4Cat besteht aus Experten aus dem Bereich der homogenen, heterogenen, Photo-, Bio- und Elektrokatalyse und wird ergänzt durch Experten aus den Ingenieur-, Daten- und Mathematikwissenschaften. Partnerinstitutionen sind:

  • Leibniz-Institut für Katalyse e.V. (LIKAT)
  • Friedrich-Alexander-Universität Erlangen
  • RWTH Aachen
  • Universität Greifswald
  • Universität Leipzig
  • Universität Rostock
  • TU Berlin
  • TU Braunschweig
  • TU Dortmund
  • TU München
  • Fraunhofer-Institut für Offene Kommunikationssysteme (FOKUS)
  • High Performance Computing Center Stuttgart (HLRS)
  • Karlsruher Institut für Technologie (KIT)
  • Max-Planck-Institut für Chemische Energiekonversion
  • Max-Planck-Institut für Dynamik komplexer technischer Systeme

Ergänzt wird das Konsortium durch die TU Darmstadt als assoziierter Partner. Ein Alleinstellungsmerkmal von NFDI4Cat stellt die Rolle der Industrie dar, die NFDI4Cat in beratender Funktion unterstützt. Zu den Unternehmen gehören neben der hte GmbH, die eine führende Rolle übernehmen wird, die Branchenvertreter BASF SE, Clariant Produkte GmbH (Catalysts), Covestro Deutschland AG, Evonik Industries AG, Linde AG (Engineering Division) und thyssenkrupp Industrial Solutions AG.

Um die übergeordneten Ziele der NFDI interdisziplinär zu erreichen, wird NFDI4Cat besonders eng mit weiteren geförderten und im Entstehen begriffenen Konsortien wie NFDI4Ing und NFDI4Chem kooperieren, die eine inhaltliche Überschneidung aufweisen.

Weitere Informationen sind unter http://gecats.org/NFDI4Cat.html verfügbar.

Über die Nationale Forschungsdateninfrastruktur:

Die Nationale Forschungsdateninfrastruktur (NFDI) soll die Datenbestände von Wissenschaft und Forschung systematisch erschließen, nachhaltig sichern und zugänglich machen sowie (inter-)national vernetzen. Sie wird in einem aus der Wissenschaft getriebenen Prozess als vernetzte Struktur eigeninitiativ agierender Konsortien aufgebaut werden. Die NFDI wird als kooperatives Netzwerk von Konsortien über einen Zeitraum von drei Jahren (2019 bis 2021) in drei Stufen aufgebaut. In jeder der drei Stufen können in einem wissenschaftsgeleiteten Verfahren neue Konsortien in die NFDI aufgenommen werden. Bund und Länder beabsichtigen, insgesamt bis zu 30 Konsortien zu fördern. Für die Förderung der Konsortien stehen im Endausbau bis zu 85 Millionen Euro pro Jahr zur Verfügung.

NFDI4DataScience - NFDI4DS

The vision of NFDI4DataScience (NFDI4DS) is to support all steps of the complex and interdisciplinary research data lifecycle, including collecting/creating, processing, analyzing, publishing, archiving, and reusing resources in Data Science and Artificial Intelligence.

The past years have seen a paradigm shift, with computational methods increasingly relying on data-driven and often deep learning-based approaches, leading to the establishment and ubiquity of Data Science as a discipline driven by advances in the field of Computer Science. Transparency, reproducibility and fairness have become crucial challenges for Data Science and Artificial Intelligence due to the complexity of contemporary Data Science methods, often relying on a combination of code, models and data used for training. NFDI4DS will promote fair and open research data infrastructures supporting all involved resources such as code, models, data, or publications through an integrated approach.

The overarching objective of NFDI4DS is the development, establishment, and sustainment of a national research data infrastructure for the Data Science and Artificial Intelligence community in Germany. This will also deliver benefits for a wider community requiring data analytics solutions, within the NFDI and beyond. The key idea is to work towards increasing the transparency, reproducibility and fairness of Data Science and Artificial Intelligence projects, by making all digital artifacts available, interlinking them, and offering innovative tools and services. Based on the reuse of these digital objects, this enables new and innovative research.

NFDI4DS intends to represent the Data Science and Artificial Intelligence community in academia, which is an interdisciplinary field rooted in Computer Science. We aim to reuse existing solutions and to collaborate closely with the other NFDI consortia and beyond. In the initial phase, NFDI4DS will focus on four Data Science intense application areas: language technology, biomedical sciences, information sciences and social sciences. The expertise available in NFDI4DS ensures that metadata standards are interoperable across domains and that new ways of dealing with digital objects arise.

More information is available here: https://www.nfdi4datascience.de/

Basic Services for NFDI - Base4NDFI

Base4NFDI presents a unique chance for the German science system. Through broad cooperation of scientific domains and infrastructure-providers we set out to identify and exploit synergies in the scientific data infrastructure.  NFDI-wide basic services will have the potential to serve most or all consortia and thus have a significant impact on the efficiency of the German research community. To this end, Base4NFDI will support services in a three-phase process: their initialization, integration and ramping up for service operation. In Base4NFDI a “service” is understood as a technical-organisational solution, which typically includes storage and computing services, software, processes and workflows, as well as the necessary personnel support for different service desks.

More information is available here: https://base4nfdi.de/

Berlin Open Science Platform

Die Berlin Open Science Platform (BOP) ist eine Kuratierungsplattform für Daten der Berlin University Alliance (BUA). BOP leistet durch Bereitstellung von Diensten rund um elektronische Forschungsdaten einen Beitrag dazu, Offenheit, Transparenz und Teilhabe in der Forschung zu erhöhen. Die Plattform soll Nutzer:innen ermöglichen:

  • Daten (Publikationen, Forschungsdaten) aus Quellen der Verbundpartnerinnen an einem Ort einzusehen
  • verschiedene Daten experimentell miteinander zu kombinieren und auszuwerten (data curation: visualization, data clustering, text summarization, text translation)
  •  Forschende zu ähnlichen Themen für potenzielle Kollaboration zu identifizieren

Das Projekt bettet sich ein in das Vorhaben von Objective 5, ein SOURCE-Center zu entwickeln, das als Portal für Dienste rund um elektronische Forschungsdaten konzipiert ist. Geplant ist u.a., dass die Plattform und die für sie entwickelten Dienstleistungen langfristig an den Universitätsbibliotheken verfügbar sind.

Begleitet wird die Softwareentwicklung durch Co-Creation-Workshops zur Erfassung und Systematisierung der Anforderungen und des nachgelagerten Prototyping. Ziel ist es dabei, die Entwicklung zwischen Nutzerinnen und Nutzern und Software werteorientiert zu gestalten, damit die Plattform nachhaltig genutzt wird und den Zielen einer werteorientierten Wissenschaftsgovernance der BUA entspricht. Dieses Teilprojekt soll dabei auch Erkenntnisse über die Gestaltung, Nutzung und Akzeptanz der Co-Creation Workshops als Instrument erbringen, das in Zukunft für ähnliche Kontexte der kollaborativen Harmonisierung von Prozessen und Strukturen innerhalb der BUA eingesetzt werden kann. Die Unterstützung adressiert den vollständigen Projektzyklus und wird damit dem Anspruch gerecht, die Entwicklung der Software in iterativen Schritten an die Bedarfe und Erwartungen der Nutzerinnen und Nutzer anzupassen und dabei nicht nur Prototypen kollaborativ zu entwickeln, sondern auch zu testen.

Berlin Big Data Center Phase II - BBDC II

Das vom Bundesministerium für Bildung und Forschung (BMBF) geförderte und 2014 gestartete BBDC ist ein nationales Big-Data-Kompetenzzentrum, welches unter der Leitung der Technischen Universität Berlin (TUB) ist. In Phase I gehörten, neben der TUB, die Beuth Hochschule für Technik, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), das Fritz-Haber-Institut der Max-Planck-Gesellschaft und das Zuse-Institut Berlin (ZIB) zu den Konsortialpartnern. Über den Anfangszeitraum von vier Jahren erstrebte das BBDC die deutsche/europäische Industrie, Wissenschaft und Gesellschaft auf die globale Big-Data-Revolution vorzubereiten. Die Hauptziele umfassen:

  1. Durchführung von Grundlagenforschung, um skalierbare Big-Data-Analyse zu ermöglichen,
  2. Entwicklung eines integrierten, deklarativen und hoch-skalierbaren Open-Source Systems für fortgeschrittene Datenanalyse,
  3. Übermittlung von Technologie und Know-how zur Unterstützung von Innovation in der Industrie und
  4. Weiterbildung in der Führung von akademischen Programmen von zukünftigen Datenwissenschaftlern.

2018 startete BBDC in eine anschließende Dreijahresphase aufgrund einer zusätzlichen Förderungszusage vom BMBF. In Phase II gehören, neben der TUB, die Charité Universitätsmedizin Berlin, das DFKI, die Technische Universität Braunschweig und das ZIB zu den Konsortialpartnern. In dieser Phase wird die Forschung an der Schnittmenge von skalierbaren Datenmanagement und Maschinellem Lernen zugunsten von Big-Data und Datenwissenschaft durchgeführt. Insbesondere wird BBDC Skalierbarkeitsprobleme rund um Echtzeitverarbeitung von Datenströmen und deklaratives Maschinelles Lernen an massiven Datensätzen weitererforschen. Zusätzlich werden unterschiedliche Anwendungsgebiete, wie die Analyse verteilter biomedizinischer Daten und heterogener morphomolekularer Daten aus der Krebsforschung, Lernen auf komprimierten Datenströmen, Echtzeit-Sprachtechnologie für interaktive Benutzeroberflächen, sowie Sicherheits- und Datenschutzfragen in Bezug auf den Umgang mit sensiblen persönlichen Informationen in Big-Data-Systemen, behandelt. Zudem wird BBDC eng mit dem neu gegründeten Berliner Zentrum für Maschinelles Lernen (BZML) zusammenarbeiten.

Für weitere Informationen besuchen Sie bitte: www.bbdc.berlin.