Zo werkt Jobfeed van Textkernel

Zo werkt Jobfeed van Textkernel

In 2003 is Textkernel gestart met het aggregeren van vacature-informatie voor matching-en analysedoeleinden onder het label ‘Jobfeed’. Vandaag de dag is Jobfeed naast Nederland beschikbaar in België, Canada, Duitsland, Frankrijk, Italië, Oostenrijk, Spanje, Verenigd Koninkrijk en de Verenigde Staten en is Textkernel marktleider in dit domein. Dankzij haar sterke technologische basis en kennis van het domein, heeft Textkernel een unieke bron van arbeidsmarktgegevens gecreëerd die gebruikers inzicht geeft in de trends en ontwikkelingen in de vraagzijde van de arbeidsmarkt.

De unieke aspecten van Jobfeed:

  • Een zeer groot aantal bronnen (vele tienduizenden websites) die dagelijks gespiderd worden
  • Gedetailleerde verrijking op de vacature-informatie, dat het gebruik van vele zoekcriteria mogelijk maakt, ongeacht de structuur van de originele vacaturetekst.
  • Hoge kwaliteit en betrouwbaarheid van het ontdekkings- en extractieproces door jarenlange ervaring
  • Accurate ontdubbeling van vacatures
  • Codering van beroepen en andere criteria naar klantspecifieke taxonomieën
  • Op maat gemaakte rapportages
  • Een ongekende historie aan vacaturedata voor analyse-doeleinden en de capaciteit om deze vacatures naar nieuwe inzichten analyseerbaar te maken.

Jobfeed biedt de mogelijkheid om een bijna real-time beeld van de arbeidsmarkt te schetsen en trendanalyse te maken op basis van historische data uit deze grote vacaturedatabase.

Het Jobfeed-proces

Jobfeed doorzoekt dagelijks het internet naar nieuwe vacatures via een geautomatiseerd proces. Gevonden vacatures worden automatisch geëxtraheerd, gecategoriseerd en opgenomen in de Jobfeed-database. Het volgende diagram geeft een schematische weergave hiervan.

Het-Jobfeed-proces

In meer detail, bestaat Jobfeed uit de volgende modules:

Spidering

Jobfeed verkrijgt dagelijks nieuwe vacatures van het Internet door middel van spidering. Om brede en diepe dekking te bereiken, hanteert Jobfeed twee spidermethoden: brede spidering en doelgerichte spidering.
De brede spider is een systeem dat automatisch en dynamisch werkt. Het doorzoekt continue honderdduizenden relevante (bedrijfs)websites en ontdekt nieuwe vacatures.

Doelgerichte spider-scripts worden ingezet om vacatures van specifieke, meestal grote, websites op te halen. Hieronder vallen vacaturebanken en websites van grote werkgevers. Ondanks hun grootte en complexiteit zorgt het spiderscript ervoor dat alle vacatures worden gevonden. De doelgerichte scripts draaien meerdere keren per dag.

Daarnaast zoekt Jobfeed in Twitter naar links die naar vacatures leiden (op dit moment alleen in Nederland).

Websites die alleen vacatures van andere sites kopiëren of doorplaatsen (de zogenaamde aggregators) zijn uitgesloten van Jobfeed, omdat Jobfeed al de originele vacatures indexeert. Bovendien verliezen de aggregatoren vaak belangrijke vacature-informatie of interpreteren dit verkeerd, wat resulteert in slechte kwaliteit.

Classificatie

Het classificeren houdt in dat wordt vastgesteld of een opgehaalde webpagina een vacature is of niet. Door middel van geavanceerde taaltechnologie en het gebruik van tekstuele kenmerken op de pagina, bepaalt Textkernel’s algoritme of een pagina moet worden verwerkt. Deze classificatie is afgestemd op het accepteren van zoveel mogelijk vacatures en tegelijkertijd het weggooien van zoveel mogelijk pagina’s die geen vacatures zijn.

Classificatie is alleen noodzakelijk voor pagina’s die afkomen van de brede spider. De doelgerichte spiders scripts halen alleen pagina’s binnen waarvan bekend is dat het vacatures zijn.

Informatie-extractie

Om de vacatures doorzoekbaar te maken, worden zij volautomatisch gestructureerd met behulp van Textkernel’s intelligente informatie-extractiesoftware. Deze software is getraind op het vinden van gegevens in vrije tekst en is dus onafhankelijk van de structuur van de tekst of de opmaak van de bron.
Het extractieproces bestaat uit twee stappen:

  • Het “schoonmaken” van de webpagina door het verwijderen van alle niet-relevante inhoud (zoals menu’s en formulieren). Op deze manier blijft alleen de werkelijke vacaturetekst over. In het geval van pdf’s is deze stap niet van toepassing.
  • Het extraheren en valideren van meer dan 30 velden uit de vacaturetekst, zoals de vacaturetitel, standplaats, opleidingsniveau en organisatie.

Normalisatie en verrijking

Normalisatie houdt in dat geëxtraheerde gegevens gecategoriseerd worden volgens een standaardindeling. Dit maak het eenvoudiger om de gegevens te doorzoeken en om analyses op te doen. Normalisatie vindt plaats bij velden als beroepen, opleidingsniveaus en organisaties.

Een voorbeeld: het normaliseren van beroepen gebeurt met behulp van een codetabel. Dit is een hiërarchische structuur dat bestaat uit hoofdcodes (referentieberoepen) met synoniemen. De geëxtraheerde vacaturetitel wordt gematcht naar een van de synoniemen. De match hoeft niet exact te zijn. De vacature zal gekoppeld worden aan het meest vergelijkbare beroep. Wanneer gezocht wordt naar vacatures van een bepaald beroep, worden alle vacatures gevonden die matchen met een van de synoniemen van dat beroep.

Verrijking wordt gedaan in het geval van organisaties. De geëxtraheerde contactinformatie van de vacature wordt gebruikt om de betreffende record in een nationale bedrijfsdatabase te vinden (zoals de Kamer van Koophandel-tabel in Nederland). Omdat informatie in de vacatures vaak schaars is, wordt een techniek genaamd ‘fuzzy matching’ gebruikt. Met deze techniek kan Jobfeed de juiste organisatie vinden, ongeacht verschillen in spelling van de organisatienaam, adres of in het geval van onvolledige informatie. Vanuit de bedrijfsdatabase kan andere informatie worden afgeleid, zoals het aantal werknemers, de primaire activiteit en de volledige contactgegevens van de organisatie.

Ontdubbeling

Vacatures worden vaak op meerdere websites geplaatst, of meerdere keren op dezelfde website. Ontdubbeling wordt gedaan door een nieuwe vacature te vergelijken met alle vacatures die door Jobfeed in de afgelopen zes weken zijn gevonden.

Twee vacatures die dubbelen zijn van elkaar, zijn vaak niet identiek. Ontdubbeling vereist daardoor een verfijnde aanpak. Zoals bij classificatie en extractie, wordt bij de ontdubbeling ook een machine learning algoritme toegepast. Om te bepalen of twee vacatures dubbelen van elkaar zijn, worden de vacatureteksten en belangrijke kenmerken van de vacatures vergeleken, zoals vacaturetitel, standplaats en adverteerder.

Dubbele vacatures worden niet weggegooid, maar bewaard in Jobfeed. Op die manier is uit Jobfeed af te leiden hoeveel unieke vacatures er zijn, maar ook hoeveel vacatureplaatsingen er zijn geweest.

Verlopen vacatures

De originele bron van elke vacature wordt regelmatig bezocht om te checken of de vacature nog steeds actief is. ‘Verlopen’ betekent dat de vacature niet meer direct beschikbaar is vanaf de originele URL, of dat de vacature door een normale bezoeker niet meer kan worden opgevraagd vanaf de homepage van de originele website. De verloopdatum wordt opgeslagen in de Jobfeed-database.

Kwaliteitscontrole

Automatische processen voor spidering, extractie, classificatie en normalisatie zijn de enige kosteneffectieve manier om een maximaal potentieel uit online vacature-informatie te realiseren. Deze processen zijn echter niet foutloos. De kwaliteit van de Jobfeed-data wordt continu bewaakt en verbeterd. Dit wordt gedaan door een combinatie van automatische meldingen en handmatige kwaliteitscontroles.
Voor meer informatie over Jobfeed, neem contact op met Textkernel via info@textkernel.nl.

Over Textkernel

Jobfeed is een product van Textkernel BV. Textkernel specialiseert zich in semantische recruitment-technologie en levert recruiting-tools om het matchen van vraag en aanbod in de arbeidsmarkt te versnellen: meertalige cv parsing, vacatureparsing en semantische searching-, sourcing- en matching-software.

Textkernel is opgericht in 2001 als een private commerciële R&D spin-off van onderzoek in Natural Language Processing en Machine Learning aan de Universiteiten van Tilburg, Antwerpen en Amsterdam. Met duizenden klanten wereldwijd opereert Textkernel als één van de marktleiders in haar segment.