Correspondance partielle de textes
Un autre outil important parmi nos produits est la correspondance partielle de textes. Cela consiste à trouver, dans un grand ensemble de chaînes candidates, deux chaînes qui ne sont pas les mêmes mais qui sont textuellement similaires. Textkernel a développé FuzzServer, un module logiciel qui intègre une correspondance partielle de textes à grande vitesse, quelle que soit l’application.
Saisir les lettres
Dans un grand nombre de cas, les documents apparaissent comme des images scannées. La première étape pour ces documents consiste à les convertir en texte à l’aide de la technologie OCR (reconnaissance de caractères optiques). Cependant un processus OCR produit souvent un grand nombre de caractères qui n’ont pas été correctement reconnus. C’est un problème pour tout traitement ultérieur, en particulier pour les lectures optiques de qualité médiocre. Notre solution de correspondance partielle repose sur une correspondance des chaînes par force brute fortement optimisée au niveau matériel : pour chaque chaîne entrante, FuzzServer est capable de trouver, au sein d’une base de données, l’enregistrement le plus proche parmi des millions de candidats et ce, en moins d’un dixième de seconde. C’est rapide !
Lors de la prochaine recherche de chaîne, FuzzServer effectue un alignement automatique des chaînes à l’aide de nombreuses métriques de similarité. Concernant les chaînes alignées qui en résultent, de puissants algorithmes de classement et de validation peuvent être ajustés afin de produire des indices de confiance pour tout compromis de précision et de rappel.
Le moteur FuzzServer est un produit OEM qui peut être intégré à la fouille de textes, aux moteurs de recherche, à la recherche d’ID de client et de produits, à la recherche de répertoires et aux produits de nettoyage des bases de données des autres fournisseurs de logiciels. Cette technologie est aussi utilisée dans de nombreux autres produits Textkernel, comme la cartographie du pouvoir ou les taxonomies ainsi que l’extraction d’informations d’un OCR peu performant.
Retourner à Technologie.