Dublettenprüfung

Identifiziert und entfernt Dubletten - MatchUp®

Im Durchschnitt enthält eine Datenbank 8% - 10% Dubletten. Diese Duplikate führen zu Verschwendung und Unwirksamkeit, aber über anpassbare Kriterien in MatchUp® erhalten Sie eine einzige, exakte Sicht auf jeden Kunden.

Erfahren Sie mehr

Testen Sie unsere Dublettenprüfung!

Was wir tun

Identifiziert und entfernt Dubletten

Melissas MatchUp® ist die leistungsfähigste, genaueste und schnellste Lösung auf dem Markt, um das Problem der Dubletten in Dateien zu bekämpfen. Was es von den anderen unterscheidet, ist seine intelligente Analysefähigkeit, um die verschiedenen Komponenten von nationalen und internationalen Adressen zu verstehen und zu analysieren. Durch die Kombination von fundiertem Domainwissen über internationale Adressformate und fortschrittlichen Fuzzy-Matching-Techniken haben Sie mit MatchUp® die Möglichkeit, selbst die am schwierigsten zu erkennenden Dubletten zu identifizieren und zusammenzuführen.

Genauere, umfassende Ansicht Ihrer Kundendaten
Identifizierung mehrerer Datensätze, die zu einer Adresse gehören - spart Zeit und Geld
Reduzierung von Porto- und Versandkosten, da durch MatchUp® Dubletten vermieden werden

Sehen Sie hier eine Übersicht über alle Datenqualitätslösungen, die wir anbieten.

Wie MatchUp® funktioniert

Mit MatchUp® können Sie Dubletten in Ihren Datenbanken identifizieren und durch Zuordnungsregeln, sogenannte Matchchodes, herausfinden, ob die zu einem Haushalt, einem Unternehmen oder einer Organisation gehören. MatchUp® verwendet einen vordefinierten Matchcode oder einen, den Sie mit dem Matchcode-Editor selbst erstellt haben. Dieser Matchcode kann aus über 35 Komponenten beliebig kombiniert werden.

Zur Identifizierung von Dubletten stehen folgende Matchcode-Komponenten (Datentypen) zur Verfügung:

Präfix	Hausnummer	ZIP+4
Vorname	Straße prä-direktional	Postleitzahl
zweiter Vorname	Straßenname	Land
Nachname	Straßensuffix	Telefonnummer/Faxnummer v
Suffix	Straße Postdirektional	E-Mail-Adresse
Geschlecht	Postfach	Kreditkartennummer
Erster/Spitzname	Adresszusatz	Datum
Erster/Spitzname	Adresse	Numerisch
Zweiter/Spitzname	Stadt	Nachbarschaft
Abteilung/Titel	Bundesland/Provinz	Allgemeine Identität
Unternehmen	ZIP9
Abkürzung der Firma	ZIP5

Fuzzy Matching

MatchUp® kombiniert Melissas fundiertes Domainwissen über Kontaktdaten mit über 20 Fuzzy-Matching-Algorithmen, um ähnliche Datensätze abzugleichen und die Datenbank schnell zu entlasten.

MatchUp® verwendet die folgenden Fuzzy-Matching-Algorithmen, um "nicht genau übereinstimmende" Dubletten zu identifizieren:

Phonetex	Nur Vokale	Needleman-Wunch
Soundex	Nur Konsonanten	Dice’s Koeffizient
Containment	Nur alphabetische Buchstaben	Smith-Waterman-Gotoh
Häufigkeit	Nur Nummern	Jaccard-Koeffizient
Fast Near	MD Keyboard	Overlap Coefficient
Accurate Near	Jaro	Longest Common Substring
Frequency Near	Jaro-Winkler	Double MetaPhone
UTF-8 Near	N-Gramm

Globale Zusammenführung

Die World Edition von MatchUp® unterstützt 12 Länder, darunter Kanada, Deutschland, Großbritannien und Australien. MatchUp's® fortgeschrittene Deduplizierung kann diakritische Gegenstücke zu lateinischen Zeichen erkennen und Schlüsselwörter interpretieren, die identisch sind, jedoch unterschiedlich geschrieben sind (z.B. Deutschland und DEU).

Einzigartige Matching-Möglichkeiten

MatchUp® verfügt über einige einzigartige Attribute, mit deren Hilfe Dubletten auf interessante Weise identifiziert werden können.

Survivorship/Golden Record
Automatisierte und intelligente Auswahl des “Golden Records” über die Bewertung der Datenqualität und andere Algorithmen. Verfügbar in Microsoft SQL Server Integration Services (SSIS) und Pentaho PDI.
Proximity Matching
Der patentierte Distanz-Algorithmus von MatchUp® verwendet Breiten- und Längengrade, um Dubletten zu identifizieren, die räumlich nah beieinander liegen. Mithilfe von Standortattributen kann MatchUp® beispielsweise übereinstimmende Datensätze an verschiedenen Adressen (z.B. einem Unternehmen mit zwei verschiedenen Eingängen) erkennen und verlinkt diese Beziehung mit einer Toolbox von Fuzzy-Algorithmen und match thresholds.
Householding
Wenn ein Kunde drei oder vier Kataloge von Ihnen an einem Tag erhält, weil ihn alle Erwachsenen in dem Haushalt auf Ihrer Website bestellt haben, hinterlässt dies einen schlechten Eindruck. Mit MatchUp® können Sie Datensätze in Ihren Datenbanken identifizieren, die zu einem Haushalt, einem Unternehmen oder einer Organisation gehören. Die Versandkosten reduzieren sich, denn überzählige Aussendungen werden hinfällig. MatchUp® führt mehrere Datensätze, die zu einem Empfänger gehören, in einen einzigen zusammen und gibt Ihnen die notwendigen Informationen, um den damit verknüpften Gesamtumsatz zu ermitteln.

data-deduplication-unique-matching-scenarios-1

Drei Möglichkeiten, Dubletten aus Ihren Daten zu entfernen

Lesen/Schreiben
Vergleicht Datensätze in einer oder mehreren Datenbanken gleichzeitig. Jede einzelne Gruppe erhält einen Datensatz, der einen „Output“-Status erhält. Die anderen passenden Datensätze erhalten einen „Dubletten“-Status. Eignet sich ideal für das Zusammenführen, Bereinigen und Unterdrücken bestehender Daten in der Stapelverarbeitung.
Inkrementelle Dublettenentfernung
Vergleicht jeden eingehenden Datensatz mit einer Datenbank, die bereits verarbeitete Datensätze beinhaltet. Eignet sich ideal für die Dateneingabe in Echtzeit. Wenn der eingehende Datensatz neu ist, wird er der bestehenden Datenbank hinzugefügt.
Hybride Dublettenentfernung
Gibt Ihnen die Flexibilität, den Prozess dann anzupassen, wenn in Ihrer Umgebung eine interne Schlüsselspeicherung oder kleinere Einheiten von Datensätzen verglichen werden müssen. Ideal für Dateneingabe in Echtzeit oder zur Stapelverarbeitung.

Brauchen Sie Hilfe?

Häufig gestellte Fragen

Was ist eine Dublettenprüfung?

Als Dublettenprüfung bezeichnet man die Identifizierung und Zusammenführung von doppelten Datensätzen (oder auch Duplikate). Dafür haben wir eigens über 20 Fuzzy-Matching-Algorithmen entwickelt.

Welche Vorteile bietet die Dublettenprüfung?

Umfassende Ansicht Ihrer Kundendaten
Einsparung von Zeit & Geld durch die Beseitigung von doppelten Datensätzen
Reduzierung von Porto- und Versandkosten

Wie funktioniert die Dublettenprüfung? Und wie kann ich diese nutzen?

Die Dublettenlösung nennt sich MatchUp® und ist einfach in Ihr System integrierbar. Diese Lösung identifiziert Dubletten in Ihren Datenbanken und fügt diese, durch sogenannten Matchcodes (Zuordnungsregeln), zusammen. Sie haben die Möglichkeit einen vordefinierten Matchcode auszuwählen oder sich selbst einen zu erstellen. Dafür stehen Ihnen 35 Komponenten zur Verfügung. Außerdem gibt es eine erweiterte Technologie, die es ermöglicht Datensätze zu einem „Golden Record“ zu konsolidieren.

Die Dublettenprüfung können Sie ganz einfach, mit vorinstallierten Fuzzy-Algorithmen, on-premise implementieren. Die Lösung können Sie sowohl im Echtzeit-Modus als auch im Batch (Stapelverarbeitung) einsetzen. Alternativ können Sie uns Ihre Datei auch zur Verfügung stellen und wir bereinigen diese als Dienstleistung (Service Bureau) für Sie.