Posted on March 27, 2015

Neu: Ungarisches CV Parsing (in Extract! 2015.1)

Textkernels R&D Team freut sich Ihnen das neuestes 2015.1 Extract! CV Parsing Release vorzustellen. Dieses Release enthält CV / Lebenslauf-Parsing von ungarischen Lebensläufen sowie weitere Verbesserungen für deutsche und niederländische CVs.

Neu: Ungarisches CV Parsing

Ende 2014 startete Textkernel mit der Extraktion von ungarischen CVs und kann nun voller Stolz das ungarische CV Parsing Model präsentieren. Mit der Erweiterung von Ungarisch, bietet Textkernel nun Parsing in 16 Sprachen an.

Die Entwicklung des ungarischen CV Parsers
Hungarian-CVDie Entwicklung einer neuen Sprache ist ein sehr komplexer Prozess. Zuerst muss eine große Anzahl von Lebensläufen manuell annotiert werden. Ungarische Linguistik Studenten haben uns geholfen verschiedene Abschnitte in den Lebensläufen zu identifizieren und nicht nur Ausbildungs- oder Berufsstation zu kennzeichnen, sondern auch spezifischer Informationen, wie Ausbildungstyp, Schule, Positionstitel und Unternehmensname.

Anschließend haben Textkernels Researchers unsere CV Parsing Maschinen mit den gesammelten Beispielen trainiert. Das Modell wurde optimiert und ein fine-tuning wurde mit weiteren ungarischen CVs durchgeführt. Zuletzt wurde auch ein sogenannter “Guesser” hinzugefügt, der die Sprache erkennt und alle ungarischen CVs automatisch zum ungarischen CV Parser weiterleitet.

Verbesserung des deutschen Modells mit Deep Learning

Im letzten Jahr startete Textkernels R&D Team mit den Anpassungen der “Deep Learning” – Techniken , um die Qualität des Parsers zu verbessern. Nachdem die englischen und französischen Modelle erfolgreich verbessert werden konnten, wird Deep Learning nun auch eingesetzt, um das deutsche Modell zu verbessern. Diese neue Technologie erweitert die Robustheit des deutschen CV Parsers und hat die Extraktion von Ausbildungs- und Berufserfahrungsabschnitten (wie Jobtitel und Unternehmen) verbessert.

Verbesserungen im niederländischen und englischen Parser

Neben den oben genannten Verbesserungen, wurden weitere Verbesserungen im englischen und niederländischen Modell durchgeführt:

  • Niederländisch: Verbesserte Extraktion von Stadtnamen, die aus zwei Wörtern bestehen, wie z.B. “Den Helder”
  • Niederländisch: Verbesserte Namensextraktion
  • Englisch: Verbesserte Extraktion von indischen Mobilnummern

Für weiteren Informationen zu Textkernel und zum neuen Release, kontaktieren Sie Textkernel.