Das Parsing von chinesischen CVs ist das 15. Sprachmodell in der neuesten Version von Textkernels Modul Extract!. Textkernel ist es gelungen, einen guten Parser für Chinesisch zu entwickeln. Die Entwicklung des chinesischen Modells war jedoch eine Herausforderung.
Unterschiede zwischen Chinesisch und Deutsch
Der Aufbau der chinesischen Sprache unterscheidet sich deutlich von dem westlicher Sprachen. Ein Text besteht aus einer Reihe von chinesischen Schriftzeichen ohne Leerzeichen dazwischen. Bestimmte Kombinationen von Schriftzeichen bilden bedeutungsvolle Einheiten (so wie unsere Wörter). Welche Kombinationen gebildet werden, hängt jedoch vom Kontext ab.
Zusätzlicher Schritt vor dem Parsing
Um chinesische CVs parsen zu können, müssen erst Wörter und Satzteile aus der Reihe von Schriftzeichen identifiziert werden. Eine echte Herausforderung: die vereinfachte Kurzzeichenschrift umfasst ungefähr 7000 Zeichen, davon werden 2500 Zeichen häufig verwendet.
Das Überwinden der Hindernisse
Textkernel nutzt fortschrittliche Segmentierungstechniken, um die semantischen Einheiten in chinesischen Texten mit hoher Genauigkeit zu identifizieren. In Kombination mit der Informationsextraktionstechnologie, die auch für die anderen Sprachen eingesetzt wird, hat Textkernel einen guten Parser entwickelt, der chinesische CVs analysieren kann und sie automatisch in Ihrer Datenbank strukturiert.
Fordern Sie eine Web-Demo an
Bekommt Ihr Unternehmen chinesische Bewerbungen? Oder möchten Sie die Magie des CV Parsing auf chinesisch selbst erleben?
Nehmen Sie für eine unverbindliches Web-Demo Kontakt zu uns auf.