Ein weiteres wichtiges Tool für unsere Produkte ist Fuzzy-Text-Matching. Dies umfasst das Finden von Worten oder Zeichenketten in großen Textbeständen, die nicht unbedingt gleich, aber deren Text ähnlich ist. Textkernel hat hierfür einen FuzzServer entwickelt, ein Softwaremodul, das Hochgeschwindigkeits-Fuzzy-Text-Matching in jede Applikation integriert.
Die Buchstaben erkennen
In vielen Fällen ist der Ursprung von einem Dokument ein gescanntes Bild. Der erste Schritt bei diesen Dokumenten ist es, sie mittels OCR Technologie (Optical Character Recognition) in einen Text umzuwandeln. Das Ergebnis des OCR-Prozesses enthält jedoch oftmals Zeichen, die nicht korrekt erkannt wurden. Für die weitere Bearbeitung stellt dies ein Problem dar und tritt vielfach bei Scans mit minderer Bildqualität auf. Unsere Fuzzy-Matching Lösung basiert auf einem stark Hardware-optimierten String-Matching-Algorithmus: FuzzServer ist in der Lage in weniger als einer Zehntelsekunde zu jeder Vorlage nahezu identische Abbilder aus Millionen von Kandidaten in einer Datenbank zu finden. Das ist wirklich schnell!
Bei der Suche nach vergleichbaren Worten, führt FuzzServer einen automatischen Abgleich der Zeichenketten – unter Verwendung verschiedener Ähnlichkeitsmetriken – durch. Mittels der resultierenden Paare an ähnlichen Wörtern können wiederum Validierungs- und Klassifikationsalgorithmen trainiert werden, die Konfidenz-Scores für die Ähnlichkeit bestimmen und damit ermöglichen, den richtigen Kompromiss zwischen Wiederruf und Präzision einzustellen.
Die FuzzServer Engine ist ein OEM Produkt, das in verschiedene Anwendungen integriert werden kann, wie zum Beispiel in Text-Mining-Applikationen, Suchmaschinen, Produkt-, Kunden-ID-, oder Verzeichnis-Suchlösungen. Die Technologie wird auch bei vielen Textkernelprodukten verwendet, um extrahierte Strings intelligent auf Taxonomien abzubilden oder zur Informationsextraktion aus stark rauschenden OCR Daten.
Zurück zu Technologie.