Posted on March 27, 2015

Nieuw: Hongaarse CV parsing (in Extract! 2015.1)

Textkernel’s R&D-team kondigt met vreugde haar 2015.1 Extract! CV parsing release aan. Deze release introduceert Hongaarse cv parsing en verbeteringen voor onder andere de Duitse, Nederlandse en Engelse parsers.

Nieuw: Hongaarse cv parsing

Eind 2014 is Textkernel gestart met de extractie van Hongaarse cv’s en is trots om nu haar volledige Hongaarse CV parsing-model te presenteren. Met de toevoeging van Hongaars biedt Textkernel nu cv parsing in 16 talen aan.

De ontwikkeling van de Hongaarse cv parser
Hungarian-CVEen nieuw taalmodel ontwikkelen, is een complex proces. Eerst wordt een groot aantal cv’s geannoteerd. Textkernel heeft Hongaarse taalkunde-studenten aangenomen, die de verschillende secties in deze cv’s markeren, zoals ervaring en opleiding, maar ook specifiekere informatie, zoals opleidingsniveau, school, functietitel en bedrijf.

Vervolgens trainen Textkernel’s onderzoekers de cv parsing engine op deze geannoteerde voorbeelden. Hieruit volgt een Hongaars cv parsing-model dat wordt geoptimaliseerd en gefinetuned op basis van meer cv’s totdat het gewenste resultaat is bereikt. Op het eind wordt de Hongaarse ‘language guesser’ toegevoegd, zodat Hongaarse cv’s automatisch worden herkend en geleid naar het Hongaarse cv parsing model.

Verbetering van Duitse cv parsing met Deep Learning

Vorig jaar heeft Textkernel’s R&D team gestart met het toepassen van ‘Deep Learning’-technieken om de kwaliteit van haar cv parsers verder te verbeteren. Na succes met het Engelse en Franse cv parsing-model, wordt Deep Learning nu voor het eerst gebruikt om het Duitse model te verbeteren. Deze nieuwe technologie verhoogt de robuustheid van de Duitse cv parser en heeft verbeteringen teweeg gebracht in de extractie van opleiding- en ervaringitems (zoals functietitel en bedrijfsnaam).

Verbeteringen in Nederlandse en Engelse cv parsers

Additionele verbeteringen zijn doorgevoerd in de Nederlandse en Engels cv parsing modellen.

  • Nederlands: verbeterde extractie van plaatsnamen bestaande uit meerdere woorden zoals ‘Den Helder’.
  • Nederlands: verbeterde extractie van namen.
  • Engels: extractie van Indiase mobiele telefoonnummers.

Voor meer informatie over deze release of over Textkernel’s cv parsers, neem contact op Textkernel.