Web Data Integration Lab Unsere Kompetenzen Workflowbasierte Datenintegration

Workflowbasierte Datenintegration

E-Mail Drucken PDF

Die umfassende und korrekte Integration heterogener Webdaten erfordert typischerweise die Durchführung mehrerer abgestimmter Verarbeitungsschritte, die im Rahmen von automatisierten Workflows durchgeführt werden sollen. Die Datenintegrations-Workflows automatisieren derzeit von Nutzern manuell durchzuführende Datenbeschaffungs- und Integrationsaufgaben bzw. umgehen aufwändig zu erstellende und an geänderte Datenquellen anzupassende Spezialprogrammierungen.

Ein einfaches Anwendungsszenario zur workflowbasierten Optimierung von Datenintegrationsaufgaben ist der Preisvergleich für eine Menge von Produkten, die z.B. in allgemeinen Preisvergleichsportalen nicht abgedeckt sind. Die manuelle Vorgehensweise dazu ist sehr umständlich und sehr beschränkt einsetzbar. Hierzu müsste ein Mitarbeiter mehrere relevante Websites manuell ansteuern, um dort die gewünschten Preisangaben durch Navigation oder geschickte Suchanfragen zu bestimmen und in geeigneter Form, z.B. im Rahmen einer Excel-Tabelle, zusammen zu tragen. Für den Datenvergleich ist zudem wichtig, die sich entsprechenden Produkte korrekt zu identifizieren („Objekt-Matching“). Die automatisierte Durchführung dieser Aufgaben durch getestete Workflows ermöglicht diese Aufgaben wesentlich schneller und für eine größere Anzahl von Produkten und Websites durchzuführen. Zudem können durch engmaschige Ausführung z.B. größere Preisänderungen schnell erkannt werden. Die Abbildung zeigt einen typischen Datenintegrations-Workflow, wie er mit dem verfolgten Integrationsframework zur Behandlung des Anwendungsszenarios realisierbar ist. Ein erster Teilschritt ist die automatische Generierung geeigneter Suchanfragen bzw. Web-Service-Aufrufen, mit denen die vorgegebenen Produkte in den relevanten Webquellen gefunden werden. Die Suchergebnisse müssen nachbearbeitet werden, und es müssen entsprechende Objekte identifiziert werden, z.B. durch Abgleich mit den Produkten in der Ausgangsdatenmenge. Die aufbereiteten Produktdaten können dann gespeichert und mit Analysetools ausgewertet werden.

Die einfache Erstellung und Ausführung solcher Workflows für unterschiedliche Einsatzfälle erfordert ein mächtiges und flexibles Integrationsframework, das im Rahmen von Working Group 1 entwickelt wird. Als Grundlage dient der bereits seit 2005 an der Universität Leipzig entwickelte Forschungs-Prototyp iFuice, mit dessen Software-Infrastruktur Datenintegrations-Workflows definiert und ausgeführt werden können.

 

 

 

 

Logo BMBF Logo Unternehmen Region