Schema- und Ontologiematching

Drucken

Die korrekte Integration von Daten unterschiedlicher Herkunft erfordert deren Metadaten zu berücksichtigen, welche die Struktur und Bedeutung der Daten festlegen. Zu diesen Metadaten zählen die Schemas, welche den Aufbau der Daten (z.B. durch Attribute, deren Datentypen und Beschreibung) spezifizieren. Daneben erlauben Ontologien die semantische Kategorisierung von Inhalten/Daten. So dienen Produktkataloge zur Einordnung von Produkten, z.B. um dadurch gezielter relevante Produkte finden zu können.

Zur Integration der Daten sind die Schemas und Ontologien verschiedener Websites semantisch abzugleichen. Im Rahmen des erforderlichen Schema- bzw. Ontologie-Matching sind die Elemente (Schemaattribute bzw. Ontologiekategorien), die sich entsprechen, zu ermitteln. Die Menge dieser Korrespondenzen bilden ein Mapping, welches z.B. zur Informationsfusion, zur Datentransformation bzw., im Falle von Ontologien, zur übergreifenden Beantwortung von Suchanfragen oder zum Mischen von Ontologien Verwendung findet. Aufgrund der meist großen Heterogenität der Datenquellen bzw. für die oft sehr großen Ontologien (Produktkataloge mit tausenden Kategorien) ist die manuelle Bestimmung der Korrespondenzen äußert aufwändig und fehleranfällig, selbst wenn Werkzeuge mit graphischen Oberflächen zur Festlegung der Korrespondenzen genutzt werden.

Wichtig ist daher die weitgehend automatische (korrekte) Berechnung von Korrespondenzen durch ein leistungsfähiges Tool. Hierzu wurden bereits seit 2002 mit COMA und COMA++ Werkzeuge entwickelt, die in der Forschung hohe internationale Wertschätzung erreichten. COMA++ soll im Rahmen des WDI-Labs für den Einsatz in Unternehmen weiter entwickelt werden. Die Abbildung zeigt Teile zweier Screenshots mit von COMA++ automatisch berechneten Korrespondenzen für eine Schema-Matching- (links) bzw. eine Ontologie-Matching-Aufgabe (rechts). Die Schema-Matching-Aufgabe vergleicht zwei Bestellformate (Purchase Order); das Ergebnis kann z.B. zur Umformatierung entsprechender Bestellvorgänge verwendet werden. Die Ontologie-Match-Aufgabe vergleicht zwei Weinkategorisierungen, z.B. als erster Schritt zur Kombination der beiden Ontologien im Rahmen einer übergreifenden Ontologie. Die Match-Aufgaben werden i. Allg. teilautomatisch gelöst, d.h. der Nutzer kann jeweils vorgeschlagene Korrespondenzen korrigieren sowie eigene Korrespondenzen ergänzen.

Prototyp COMA++ Screenshot der GUI

Prototyp COMA ++: Screenshot der GUI