KI zur Vorhersage von Ausführungskosten in der verteilten Datenstromverarbeitung

IT-Forschende stellen neue Publikation auf der IEEE ICDE vor

Die Forschungsarbeit "COSTREAM: Learned Cost Models for Operator Placement in Edge-Cloud Environments" wurde zur Veröffentlichung auf der renommierten IEEE International Conference of Data Engineering (ICDE) 2024 akzeptiert. In dem geplanten Vortrag werden die Autor*innen Roman Heinrich, Prof. Dr. Harald Kornmayer (beide DHBW Mannheim), Prof. Dr. Carsten Binnig und Dr.-Ing. Manisha Luthra (beide Technische Universität Darmstadt) COSTREAM vorstellen.

Von Datenbanken zu Datenströmen

COSTREAM ist ein neuartiges, KI-basiertes Kostenmodell für verteilte Stream-Processing-Systeme. Die praxisnahe Forschungsarbeit setzt Algorithmen Künstlicher Intelligenz für die Optimierung und Kostenvorhersage von Datenbanksystemen (vgl. Hilprecht, Binning: Zero-Shot Kostenmodelle) ein. Das KI-Modell wird einmal trainiert und kann dann erlernte Kostenschätzungen ohne zusätzlichen Trainingsaufwand auf unterschiedliche Datenbanken anwenden. Dieses Modell wurde in der Forschungsarbeit COSTREAM für verteilte Datenströme auf heterogenen Computing-Ressourcen adaptiert.

Ideal für Streaming-Abfragen mit variierenden Ressourcen

Verteilte Datenstromverarbeitungssysteme spielen in einem breiten Spektrum von Hochleistungsanwendungen eine entscheidende Rolle, da sie eine effiziente und skalierbare Verarbeitung unbegrenzter Datenströme ermöglichen. In Internet-of-Things-(IoT)-Anwendungen werden Datenströme aus verschiedenen Quellen wie Sensoren oder mobilen Geräten zusammengeführt und in Edge-Cloud-Infrastrukturen verarbeitet, in denen die Ressourcen in Bezug auf Rechenleistung, Speicher und Netzwerk stark variieren. Eine große Herausforderung in IoT-Szenarien mit heterogener Hardware, die von sehr einfachen Edge-Geräten bis hin zu serverbasierten Großrechnern in Cloud-Rechenzentren reicht, besteht darin, die Platzierung von Berechnungs-Algorithmen zu finden, um dadurch eine hohe Leistung zu erzielen.

Gute Vorhersage ermöglicht Optimierung vor der tatsächlichen Umsetzung

Das KI-basierte Kostenmodell ist in der Lage, die erwartete Leistung einer Streaming-Abfrage vor der Ausführung vorherzusagen. So können Operatoren auf verschiedenen Hardware-Ressourcen optimal platziert und die Abfrageleistung maximiert werden. Um präzise Vorhersagen auch für unbekannte Hardwareressourcen oder Abfragen vorzunehmen, werden ein heterogener Trainingsdatensatz, generalisierbare Lernmerkmale und graphbasierte neuronale Netzwerke verwendet. Somit ermöglicht COSTREAM eine effektive und bedarfsgerechte Ausführung von Abfragen in der verteilten Datenstromverarbeitung und ist u. a. für Cloud-Anbieter ein interessantes Modell.

Wichtiger Schritt für Roman Heinrich auf seinem Weg zur Promotion

Für das gesamte Team und insbesondere für Roman Heinrich ist die Publikation ein Meilenstein: Mit diesem Paper kommt er seinem Ziel, der erfolgreichen kumulativen Dissertation, wieder ein Stück näher. Sein erstes Paper "Zero-shot cost models for distributed stream processing" erschien 2022. Die kooperative Promotion an der DHBW Mannheim (Betreuer: Prof. Dr. Harald Kornmayer) wird durch das "DHBW Innovationsprogramm Forschung" ermöglicht und in Zusammenarbeit mit der TU Darmstadt (Doktorvater: Prof. Dr. Carsten Binnig) realisiert.

Führendes Forum für Vordenker*innen: IEEE International Conference on Data Engineering (ICDE)

Die IEEE International Conference on Data Engineering (ICDE) ist eine der wichtigsten Konferenzen im Bereich Daten- und Informationstechnik und befasst sich mit Forschungsfragen zu Design, Aufbau, Management und Evaluation fortschrittlicher datenintensiver Systeme und Anwendungen. Zu den jährlich über 500 Teilnehmer*innen gehören führende Datenwissenschaftler*innen und Professor*innen, Unternehmer*innen, Entwickler*innen, talentierte junge Forscher*innen und weitere Anwender*innen aus Industrie und Wissenschaft.