
Von Karlijn Dinnissen, Forschungsingenieur im F&E-Team von Textkernel und Chao Li, Teamleiter im F&E-Team von Textkernel
Wenn Sie Jobfeed für die Generierung von Leads oder für Arbeitsmarktanalysen nutzen, ist es für Sie wahrscheinlich wichtig, welche Art von Unternehmen die Jobs ausschreiben. Aus diesem Grund unterscheidet Jobfeed zwischen zwei Arten von Inserenten: direkte Arbeitgeber und Personalvermittlungsagenturen.
Die Herausforderung besteht darin, dass die Art des Inserenten typischerweise in einer Stellenbeschreibung nur implizit enthalten ist. Im besten Fall erwähnt der Inserent wortwörtlich „wir sind eine Personalagentur“, aber dann gibt es immer noch unzählige andere Möglichkeiten, das zu formulieren. Daher müssen wir den Organisationstyp selbst herleiten.
Wir haben ein neues mehrstufiges Deep-Learning-KI-System entwickelt, das zunächst klassifiziert, ob eine Stellenausschreibung von einem direkten Arbeitgeber oder einem Personaldienstleister stammt. Dann verwendet es alle Klassifizierungen auf der Ebene der Stellenausschreibung, um festzustellen, ob ein Unternehmen ein direkter Arbeitgeber oder eine Agentur ist. Dieser Ansatz führt zu einer wesentlich höheren Genauigkeit, aber auch zur Konsistenz der Stellenausschreibungen, die von derselben Organisation stammen.
Unsere bisherige Methode
Da wir wussten, wie wichtig es ist, den Anzeigentyp für jedes Unternehmen zu kennen, haben wir seit den Anfängen von Jobfeed damit begonnen, eine Wissensbasis von Organisationen und ihren Typen aufzubauen. Am Anfang haben wir das alles manuell gemacht, indem wir die Stellenbeschreibungen gelesen oder den Inserenten recherchiert haben.
Aber je größer Jobfeed wurde, desto mehr neue Organisationen fanden wir. Daher wurde die manuelle Pflege des Wissens einfach unhaltbar. Eine einfache Logik wurde hinzugefügt, um automatische „Personalvermittlungs“-Signale von Stellenanzeigen zu erhalten, von denen die effektivste der Musterabgleich war: Personalvermittlungsagenturen verwenden typischerweise sehr ähnliche Wege, um sich selbst und die Stelle, die sie ausschreiben, zu beschreiben.
Diese Art von Sätzen könnte Ihnen zum Beispiel sehr bekannt vorkommen:
- „Für einen unserer Kunden suchen wir …“
- „Ein großes Unternehmen in der Branche sucht …“
- „Wir agieren als Arbeitsvermittler für die Festanstellung von …“
Und wenn Sie diese Unternehmensnamen sehen, was glauben Sie, welcher Art ihr Inserent ist?
- Personal-Recruiting
- Personalvermittlung 123
- Amsterdam Resourcing
Unseres Wissens nach verwendet unsere Konkurrenz einen ähnlichen Ansatz. Die erreichte Qualität ist gut, aber in einem so wichtigen Bereich ist gut einfach nicht genug. Jeder falsch getaggte Inserent kann ein großes Ärgernis für die Nutzer sein. Wir brauchten eine bessere, skalierbare Lösung für dieses Problem.
Deep Learning für die Textklassifizierung
Textkernel verfügt über fast 20 Jahre Erfahrung in der Anwendung des neuesten Stands des maschinellen Lernens für die Personalbeschaffung. Daher lag es nahe, unser Fachwissen auch für die automatische Klassifizierung von Anzeigenkunden einzusetzen.
Da ein Job immer von einem der beiden Organisationstypen „Direkter Arbeitgeber“ oder „Personalvermittler“stammt, bedeutet dies, dass wir es mit einer binären Textklassifizierungsaufgabe zu tun haben, die eine häufige Aufgabe im Forschungsbereich der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) ist. Sie eignet sich besonders gut für die Anwendung eines Deep Learning-Klassifizierungsmodells.
Deep Learning ist eine fortschrittliche Technik, die automatisch Muster aus großen Datenmengen erkennen kann. Wir haben es seit 2017 erfolgreich in unseren Extract-Parsing-Modellen eingesetzt (weitere Details zum Ansatz gibt es hier) und es hat zu großen Leistungsverbesserungen geführt. Nun war es an der Zeit, das auf ein neues Problem anzuwenden. In unserem Fall bedeutet dies, dass wir uns nicht mehr selbst gute Muster ausdenken müssen, die auf einen bestimmten Typ von Organisationen hinweisen, sondern dass wir einen Deep Learning-Klassifikator die Arbeit für uns erledigen lassen. Dieses Modell wird mit großer Wahrscheinlichkeit viel mehr nützliche Muster finden, auch solche, die einem Menschen nie einfallen würden.
Um all diese Muster zu finden, muss das Modell so viele Beispiele von Jobtexten von beiden Organisationstypen wie möglich gesehen haben (wir nennen das „überwachtes Lernen“). Normalerweise kann dies ein großes Problem sein: Jeder Text, den Sie zum Trainieren des Modells verwenden, muss mit einem Etikett versehen werden („Personalvermittler“ oder „direkter Arbeitgeber“) und Sie können sich vorstellen, dass die manuelle Kommentierung von 100 000 Stellenanzeigen auf diese Weise sehr viel Zeit in Anspruch nehmen würde.
Aber in unserem Fall hatten wir unsere große Wissensbasis und historische Daten: Wir konnten alle Jobfeed-Jobs von jeder Organisation, die wir im Laufe der Jahre kategorisiert hatten, als Trainingsdaten verwenden. Es war nicht nötig, irgendetwas manuell zu annotieren!
Ein typischer Trainings-Prozess (blau) und ein Vorhersage-Prozess (grün) für ein Machine Learning Modell
Zunächst trainierten wir einen CNN-Klassifikator (Convolutional Neural Network) anhand englischer Stellenausschreibungen aus mehreren Ländern. Um sicherzustellen, dass das neue System zukunftssicher ist, bewerteten wir seine Qualität, indem wir die Ergebnisse des Klassifikators anhand einer Stichprobe von Stellenangeboten von Unternehmen, die noch nicht in unserer Wissensdatenbank vorhanden waren, manuell überprüften.
Im Vergleich zum alten System fand unsere neue Methode deutlich mehr Personalvermittlungsagenturen als das alte regelbasierte System. Das bedeutet, dass wir in der Lage sind, viele neue Stellenausschreibungen von Personaldienstleistern im Long Tail von Organisationen zu identifizieren, für die wir zuvor keine manuelle Klassifizierung hatten.
Dies hat uns davon überzeugt, dass Deep Learning der richtige Weg ist, um dieses Problem zu lösen. Also haben wir mehr Zeit in die Optimierung unseres Trainingsprozesses investiert, mehr Daten von mehr Organisationen und Jobfeed-Ländern gesammelt, die Hyperparameter des Modells optimiert und schließlich auch Modelle für alle anderen Jobfeed-Sprachen (Niederländisch, Deutsch, Französisch, Italienisch und Spanisch) trainiert.
Sicherstellung der Konsistenz: ein zweites Deep Learning Modell
Nachdem wir unseren neuen Klassifikator in Jobfeed aktiviert hatten, gab es bereits einen großen Anstieg der Qualität der Anzeigentypen in allen Ländern. Es gab jedoch einen Vorbehalt: Nicht unbedingt alle Stellenanzeigen eines Unternehmens enthalten dieselbe Art von Signalen. Daher besteht die Möglichkeit, dass bei bestimmten Organisationen 90-95 % der Stellen als eine der ausgeschriebenen Arten und 5-10 % als die andere klassifiziert werden.
Wir wollten sicherstellen, dass alle Stellen eines Unternehmens demselben Anzeigentyp zugeordnet werden, um unsere Daten konsistent zu halten. Die logischste Lösung bestand darin, die Klassifizierungen auf Ausschreibungsebene zu verwenden, um neues Wissen auf Organisationsebene abzuleiten.
Wir haben einen Prozess entwickelt, der regelmäßig die Stellenausschreibungen eines Unternehmens zusammenfasst und anhand der Klassifizierungen der einzelnen Organisationstypen darauf schließt, ob es sich bei dem Unternehmen um einen direkten Arbeitgeber oder einen Personalvermittler handelt. Wenn die endgültige Vorhersage sicher genug ist, können wir unsere Wissensbasis sogar automatisch aktualisieren! Der Schwellenwert, den wir für „sicher genug“ verwenden, kann je nach Sprachmodell und damit Land unterschiedlich sein, was wir bei der Entwicklung des Prozesses berücksichtigt haben.
Ein naiver Ansatz bestand darin, einfach die Zählungen pro Organisation zu addieren und den häufigsten Organisationstyp zu nehmen (z. B. 20 Stellenausschreibungen in der Art von Personalvermittlern und 5 Stellenausschreibungen passend zu direkten Arbeitgebern = Personalvermittler).
Dies lieferte jedoch nicht die Genauigkeit und Ausbeute, die wir benötigten. Daher haben wir ein weiteres Deep-Learning-Modell erstellt, das die endgültige Entscheidung auf der Grundlage der Ergebnisse des ersten Modells trifft.
Die Eingabe besteht aus statistischen Merkmalen, die aus Vorhersagen für alle Stellenausschreibungen einer Organisation abgeleitet wurden. Darüber hinaus haben wir auch den Namen des Unternehmens und die Website, auf der die Stelle ausgeschrieben wurde, verwendet. Ein zusätzlicher Vorteil der Verwendung von statistischen Merkmalen bestand darin, dass wir ein sprachunabhängiges Modell trainieren konnten, das unabhängig von Land oder Sprache auf alle Stellenanzeigen eines Unternehmens angewendet werden kann.
Wir trainierten das Modell erneut (mit markierten Trainingsdaten) und bewerteten es mit Daten von unbekannten Organisationen. Die Ergebnisse zeigten uns, dass unser Klassifikator mit hoher Zuverlässigkeit zwischen 55 % und 85 % der neuen Personalvermittlungsagenturen (je nach Land) automatisch identifiziert. Da unser System in regelmäßigen Abständen läuft, um neue Personalvermittlungsagenturen zu erkennen, haben wir festgestellt, dass seine Leistung und Sicherheit zunimmt, wenn neue Stellenanzeigen von noch nicht klassifizierten Personalvermittlern eingehen. Je mehr Daten unser System sieht, desto besser wird es.
In der Folge haben wir seit der Aktivierung des Klassifizierers eine 20-50%ige Zunahme der Personalagenturen in Jobfeed festgestellt.
Während wir uns zunächst auf die Identifizierung von Personavermittlungslagenturen konzentrierten, stellten wir fest, dass wir zwei Fliegen mit einer Klappe schlagen konnten. Wir konnten nicht nur die Vorhersagen von Personalvermittlern mit sehr hohem Vertrauen nutzen, um automatisch Agenturen zu identifizieren, sondern auch die entgegengesetzte Kategorie: die direkten Arbeitgeber. Daher fügten wir auch die automatische Erkennung von direkten Arbeitgebern hinzu, um die Qualität und Konsistenz unserer Jobfeed-Daten weiter zu verbessern.
Fazit
Diese Lösung hat es uns bereits ermöglicht, mit hoher Zuverlässigkeit den Organisationstyp von über 55,000 neuen Organisationen in allen Ländern zu identifizieren. Da unser Prozess als iterative, sich selbst nährende Schleife organisiert ist, werden viele weitere kontinuierlich und automatisch hinzugefügt.
Wir freuen uns, dass wir durch unsere Erfahrung im Bereich der künstlichen Intelligenz und die Nutzung unserer eigenen Daten und unseres Wissens ein großes Kundenproblem gelöst haben. Dies eröffnet auch neue Möglichkeiten, andere Aspekte der Daten in Jobfeed zu verbessern. Unsere kontinuierliche Investition in die Jobfeed-Daten wird sicherstellen, dass unsere Kunden weiterhin Zeit sparen und der Konkurrenz voraus bleiben.