Web Data Integration Lab Unsere Kompetenzen Objekt-Matching und Dublettenbehandlung

Objekt-Matching und Dublettenbehandlung

E-Mail Drucken PDF

Eine besonders wichtige Teilaufgabe der Datenintegration ist das sogenannte Objekt-Matching, mit dem semantisch korrespondierende Objekte (Dateninstanzen, Sätze) verschiedener Quellen identifiziert werden. Die Objekte sind dabei meist unterschiedlich repräsentiert und die Inhalte einzelner Quellen überlappen sich häufig.

Ein typisches Beispiel für das Objekt-Matching in Unternehmensdaten ist die Verarbeitung von Kundendaten. Die gleiche Person kommt oft mehrfach in verschiedenen Kundendaten eines Unternehmens vor, möglicherweise mit unterschiedlichen Namensschreibweisen und Adressen (z. B. aufgrund von Tippfehlern oder Abkürzungen) sowie sich ergänzenden Angaben (z.B. Telefonnummer). Durch die Identifikation und Zusammenführung solcher Datensätze, etwa zum Customer-Relationship-Management, können fehlerhafte Auswertungen und unnötige Kosten, z. B. durch Mehrfachversand von Postsendungen, vermieden werden. Im Web gestaltet sich das Objekt-Matching aufgrund einer größeren Heterogenität der Daten noch schwieriger als mit Unternehmensdaten, da es wesentlich mehr Datenquellen gibt und die Daten vielfach nur teilstrukturiert vorliegen.

Methoden zum Objekt-Matching müssen zwei widersprüchliche Ziele in Einklang bringen: Die Methoden sollen einerseits effizient sein (geringe Laufzeit, Skalierbarkeit auf große Datenmengen), andererseits aber auch effektiv, das heißt, dass sie zuverlässig und präzise korrespondierende Objekte erkennen. Zur Bestimmung aller korrespondierenden Objekte ist es meist nur für kleinere Datenmengen möglich, jedes Objekt mit jedem anderen Objekt zu vergleichen. Für größere Datenmengen ist zur Vermeidung der quadratischen Komplexität der Suchraum zu reduzieren, z. B. durch sogenannte Blocking-Strategien, welche zunächst eine ähnlichkeitsbasierte Partitionierung der Daten vornehmen, um die Suche nach identischen Objektpaaren danach auf je eine Partition zu beschränken.

Die meisten Objekt-Matching‑Ansätze basieren auf der Feststellung von Ähnlichkeiten zwischen Attributwerten. Für die Ähnlichkeitsvergleiche werden dabei typischerweise String-basierte Abstandsmaße oder domänenspezifische Metriken (z.B. für Adressen) herangezogen. Zur Lösung des Objekt-Matching-Problems für unterschiedliche Anwendungsfälle wurden seit 2006 an der Universität Leipzig mehrere neue Ansätze erarbeitet und aufeinander aufbauende Prototypen (MOMA, STEM und FEVER) entwickelt. Diese Systeme wurden für mehrere Anwendungsfälle erfolgreich eingesetzt und evaluiert, insbesondere zum Objekt-Matching von Webdaten. Der aktuelle Prototyp FEVER soll im Rahmen des WDI-Labs für den Einsatz in Unternehmen weiter entwickelt werden.

Daten Spezifikation Mapping Resultate

FEVER: Snapshots der GUI


 

 

Logo BMBF Logo Unternehmen Region