Posted on May 3, 2012

Nieuw: 中文简历解析 (Chinese CV parsing)

Chinese CV parsing is het 15e taalmodel in de nieuwe release van Textkernel’s module Extract!. Textkernel is erin geslaagd om een goede parser voor Chinees te ontwikkelen. Echter, de ontwikkeling van het Chinese model was een uitdagende taak.

Verschillen tussen Chinees en Nederlands
De opbouw van het Chinees verschilt veel van de Westerse talen. Een tekst bestaat uit een reeks Chinese tekens (karakters) zonder spaties. Bepaalde combinaties van karakters vormen betekenisvolle eenheden (zoals onze woorden). Welke combinaties gemaakt worden, is echter afhankelijk van de context.

Extra stap voor parsing
Om Chinese CV’s te kunnen parsen moeten eerst woorden en zinsdelen uit de reeks karakters geïdentificeerd worden. Om dit extra uitdagend te maken: het Vereenvoudigd Chinees bevat ongeveer 7000 tekens, waarvan 2500 vaak gebruikte tekens.

Het overwinnen van de obstakels
Textkernel gebruikt geavanceerde segmentatietechnieken, om de semantische eenheden in Chinese teksten met een hoge accuraatheid te identificeren. In combinatie met de informatie-extractie-technologie die ook voor de andere talen gebruikt wordt, heeft Textkernel een goede parser ontwikkeld die Chinese CV’s kan analyseren en ze automatisch structureert in uw database.

Vraag een webdemo aan
Krijgt uw bedrijf Chinese sollicitaties? Of wilt u de magie van het CV parsen in het Chinees zelf ervaren?
Neem contact met ons op voor een vrijblijvende webdemo.