Fuzzy text matching
Een andere belangrijke tool in onze producten is fuzzy text matching, Dit betekent het vinden, in een zeer grote verzameling tekst, van twee strings die niet identiek zijn, maar tekstueel het meest vergelijkbaar. Textkernel heeft FuzzServer hiervoor ontwikkeld. Dit is een softwaremodule waarmee zeer snelle fuzzy text matching in iedere applicatie geïntegreerd kan worden.
De letters herkennen
Vaak zijn de documenten waarmee we werken gescande bestanden. De eerste stap bij deze documenten is om de gescande plaatjes naar tekst te transformeren met behulp van OCR (Optical Character Recognition) technologie. De uitvoer van een OCR-proces bevat echter vaak veel slecht herkende karakters. Dit is een probleem voor verdere bewerking, en met name wanneer de originele scans van lage kwaliteit zijn. Onze fuzzy matching oplossing is gebaseerd op sterk hardware-geoptimaliseerde string matching: voor iedere input geeft FuzzServer het meest gelijkende record uit miljoenen kandidaten in een database in minder dan een tiende van een seconde. Dat is snel!
Gedurende het ophalen van de meest gelijkend string, voert FuzzServer een automatische alignment uit, gebruikmakend van vele verschillende gelijkenismetrieken. Op de resulterende opgelijnde stringparen, kunnen dan weer krachtige validatie en classificatiealgotimen getuned worden om confidence-scores af te geven en zo iedere balans tussen precisie en recall te kunnen instellen.
Terug naar Technologie.