
2003 startete Textkernel mit dem Label „Jobfeed“ als innovativer Pionier in der Aggregation von Jobinformationen für Matching- und Analyseprozesse. Heute ist Textkernel Marktführer in diesem Gebiet in den Niederlanden und hat Jobfeed mittlerweile auch in anderen europäischen Ländern, wie Deutschland und Frankreich, eingeführt. Dank seiner starken technologischen Basis hat Textkernel eine einzigartige Position entwickelt, wenn es sich um Lieferung von Jobdaten und Einsicht in den Arbeitsmarkt handelt.
Die einzigartigen Aspekte von Jobfeed sind:
- Eine sehr große Anzahl (viele tausende) an Quellen die tagtäglich gecrawlt werden
- Detaillierte Anreicherung der Jobinformationen, die es erlauben nach vielen Kriterien zu suchen unabhängig von der Struktur des Originaltextes
- Ein qualitativ hochwertiger und verlässlicher Extraktionsprozess durch jahrelange Erfahrung
- Akkurate Re-Duplizierung der Jobs zwischen verschiedenen Quellen
- Kodierung von Berufen und weiteren Kriterien auf Basis unserer Taxonomien oder den Taxonomien unserer Kunden
- Das Liefern von maßgeschneiderten Daten
- Historische Daten an Stellenangeboten, um Analysen möglich zu machen
Jobfeed liefert die Möglichkeit um beinahe in Echtzeit Information vom Arbeitsmarkt zu liefern und Trendanalysen zu erstellen basierend auf den größten Jobdatenbanken in dem jeweiligen Land.
Der Jobfeed-Prozess
Jobfeed durchsucht täglich und automatisiert das Internet nach neuen Jobs. Gefundene Stellenangebote werden automatisch in Jobfeed extrahiert, kategorisiert und in unsere Datenbank aufgenommen. Das untenstehende Diagramm gibt einen schematischen Überblick:
In weiteren Details besteht Jobfeed aus folgenden Komponenten:
Spidering
Mit einer sogenannten “Spider”- Technologie sammelt Jobfeed täglich Jobs aus dem Internet. Jobfeed handhabt zwei Spidermethoden: Breite “wild” Spider und zielgerichtete Spider.
Der breite Spider arbeitet automatisch und dynamisch und durchsucht Millionen von Websites in dem jeweiligen Land kontinuierlich nach Jobs.
Zielgerichtete Spider werden eingesetzt um spezifische Websites zu durchsuchen und die Jobs zu speichern. Dazu gehören Jobbörsen, Zeitungen, Seiten von großen Arbeitgeber und auch Vermittlern. Diese Jobs werden täglich mit speziell entwickelten Scripts gesammelt.
Anschließend durchsucht Jobfeed auch Soziale Netzwerke, wie z.B. Twitter nach Tweets mit Links zu Jobs.
Websites, die Jobs von anderen Websites kopieren und keinen eigenen Inhalt liefern (sogenannte Aggregatoren), sind in Jobfeed nicht enthalten.
Klassifikation
Die Klassifikation beinhaltet die Überprüfung, ob eine bestimmte Website ein Stellenangebot enthält ist oder nicht. Auf Basis von textbasierten Merkmalen wird mit Hilfe von fortschrittlicher Sprachtechnologie festgestellt, ob diese Website zugelassen wird oder nicht.
Diese Klassifikation ist darauf zugeschnitten um soviel wie möglich zuzulassen ohne mögliche irrelevante Ergebnisse.
Informationsextraktion
Um die Jobangebote durchsuchbar zu machen, werden diese vollautomatisch strukturiert mit Hilfe der intelligenten Textractor Informationsextraktionssoftware. Diese Software ist trainiert um bestimmte Elemente in willkürlichen Stellenbeschreibungen zu finden, unabhängig von der Struktur des Textes oder der Quelle.
Der Extraktionsprozess besteht aus zwei Schritten:
- Die „Reinigung“ der Webseite mitsamt der Entfernung von nicht-relevantem Inhalt (wie Menü, Formularen etc.). Auf diese Art und Weise bleibt allein die Stellenbeschreibung bestehen.
- Das Extrahieren und Validieren von mehr als 30 Feldern aus dem Jobtext, wie z.B. der Jobtitel, der Standort, das Ausbildungsniveau und die Organisation.
Normalisierung und Matching
Normalisierung bedeutet, dass der extrahierte Inhalt mittels einer Standardeinteilung kategorisiert wird. Dies macht es einfacher, um die Jobs zu durchsuchen und Analysen zu erstellen. Normalisierungen finden bei Berufen, Ortsnamen, Ausbildungsniveau und Organisation statt.
Die Normalisierung von Berufen passiert mit Hilfe von Codetables. Dies ist eine Berufseinteilung bestehend aus den Hauptcodes (Referenzberufen) mit Synonymen. Die Koppelung mit dem Job wird möglich gemacht durch die Extraktion des Funktionsnamens gematcht mit den Synonymen und Codetables. Das Matchingergebnis muss nicht exakt sein, der Job kann trotzdem automatisch mit dem am besten passenden Beruf gematcht werden.
Die Normalisierung von Ausbildungsniveaus geschieht auch mit Hilfe von Codetables. Dies ist eine Ausbildungseinteilung die auch aus Hauptcodes mit Synonymen besteht. Die Koppelung mit dem Job wird möglich gemacht durch die Extraktion der Ausbildung gematcht mit den Synonymen und Codetables. Das Matchingergebnis muss nicht exakt sein, der Job kann trotzdem automatisch mit dem am besten passenden Ausbildungsniveau gematcht werden. Sollte kein Ausbildungsniveau gefragt werden, leiten wir das automatisch vom Jobtitel ab. Die Normalisierung der Organisation, die den Job veröffentlicht hat, geschieht indem der Job mit der aktuellen Version der Kompass Datenbank gematcht wird. Hierfür wird „Fuzzy Matching“ eingesetzt, eine Technik, die Dank verschiedener Methoden den richtigen „Match“ durch Adressen und Organisationsnamen findet. Dadurch ist es auch möglich weitere Daten abzuleiten, wie die Branche oder die Mitarbeiteranzahl.
Doppelte Einträge auffinden
Da Jobs oft auf vielen verschiedenen Websites veröffentlicht werden, müssen sie verglichen und dedupliziert werden. Doppelte Stellenangebote werden jedoch nicht gelöscht. Auf diese Art und Weise kann man aus Jobfeed ableiten, wie viele Unikate veröffentlicht wurden und auf wie viel verschiedenen Quellen der Job veröffentlicht wurde.
Die Re-Duplizierung findet statt, indem jedes neue Stellenangebot mit allen bestehenden Jobs in Jobfeed verglichen wird. Somit wird bei jeder Klassifikation und Extraktion auch das maschinelle Lernen angepasst. Um zu sehen ob es sich um eine Kopie handelt, wird der Text der Stellenbeschreibung, der Jobtitel, der Standort und das Unternehmen verglichen.
Um zu sehen ob es sich um eine Kopie handelt, wird der Text der Stellenbeschreibung, der Jobtitel, der Standort und das Unternehmen verglichen.
Abgelaufene Stellenangebote
Für jedes Stellenangebot wird nicht nur das „Spider-Datum“ sondern auch das Ablaufdatum festgestellt. Unter „abgelaufen“ verstehen wir, dass diese Stelle nicht länger verfügbar ist und der Original-Link nicht mehr aufgerufen werden kann. Somit ist es auch möglich nur aktive Jobs an Kandidaten auszusenden.
Monitoring, Qualitätskontrolle und -verbesserung
Der automatischen Prozess im Bezug auf „Spidering“, Extraktion, Klassifikation und Normalisierung sind eine einzigartige, kosteneffiziente Möglichkeit um das beste aus online verfügbaren Stellenangeboten zu realisieren. Diese Prozesse sind jedoch nicht fehlerlos, daher muss die Qualität von Jobfeed ständig kontrolliert und verbessert werden.
Für weitere Informationen zu Jobfeed wenden Sie sich bitte an Textkernel via info@textkernel.nl.
Über Textkernel
Jobfeed ist ein Produkt von Textkernel B.V. Textkernel hat sich auf semantische Recruitingtechnologie spezialisiert und liefert Tools, den Zusammenführungsprozess von Angebot und Nachfrage auf dem Arbeitsmarkt beschleunigen. Einen multilingualen CV und Job Parser sowie semantische Such-, Sourcing- und Matching Software.
Textkernel wurde 2001 als privater kommerzieller R&D-Spin-Off gegründet. Das Unternehmen entstand aus Forschungsprojekten zu maschineller Sprachverarbeitung und maschinellem Lernen der Universitäten Tilburg, Antwerpen und Amsterdam. Inzwischen hat sich Textkernel international als Marktführer in diesem Segment etabliert.
www.textkernel.de