Comment fonctionne Jobfeed?

Comment fonctionne Jobfeed?

En 2003, Textkernel commenca à agréger les informations contenues dans les offres d’emploi publiées en ligne aux Pays-Bas pour pouvoir développer ses capacités de matching et d’analyse sous le label “Jobfeed“. Aujourd’hui Texkernel est le leader du marché dans ce domaine aux Pays-Bas et a étendu Jobfeed à d’autres pays européens, comme par exemple l’Allemagne et la France. Grace à de solides bases techniques et une expertise dans le domaine, Textkernel est aujourd’hui seul capable de fournir des données sur le marché du travail et de permettre une vision analytique de l’offre sur ce même marché.

Jobfeed est unique pour plusieurs raisons:

  • un grand nombre de sources (des milliers de sites web) crawlées quotidiennement;
  • un enrichissement détaillé des informations de chaque offre qui permet l’utilisation de nombreux critères de recherche quelque soit la structure du texte de l’annonce;
  • une procédure de découverte et d’extraction de grande qualité, résultat d’années d’expérience;
  • une déduplication parfaite des offres;
  • une codification des professions et d’autres critères adaptées aux taxonomies de chaque utilisateur;
  • un reporting customisé; et
  • une archive de données permettant des analyses poussées sur plusieurs années.

Jobfeed vous donne la possibilité d’établir un tableau du marché de l’emploi en temps réel et de mettre à jour et analyser les tendances de l’emploi à partir de données récoltées sur plusieurs années.

Le procédé Jobfeed

Jobfeed parcourt le web quotidiennement à la recherche de nouvelles offres d’emploi à travers un processus automatisé. Les offres trouvées sont automatiquement extraites, catégorisées et enregistrées dans la base de données de Jobfeed. Le schéma suivant est une représentation de ce processus.

Het-Jobfeed-proces

Le processus Jobfeed est composé des modules suivants:

Spidering

Grace au spidering, Jobfeed recueille quotidiennement de nouvelles offres d’emploi. Pour permettre une couverture à la fois large et profonde, Jobfeed utilise 2 méthodes de spidering: le sipdering sauvage et le spidering ciblé.
Le spridering sauvage est un système qui fonctionne automatiquement et de façon dynamique. Il indexe constamment des centaines de milliers de sites web et découvre de nouvelles offres.

Le spidering ciblé permet, lui, de recueillir des offres émanant de sites web spécifiques comme les sites d’offres d’emploi ou les sites de grandes entreprises. Malgré la taille et la complexité de ces sites, le script permet d’y trouver la totalité des annonces présentes. Les scripts de spidering ciblé sont lancés plusieurs fois par jour.

De plus, Jobfeed recherche Twitter pour y recueillir les liens vers des offres d’emploi (seulement aux Pays-Bas à l’heure actuelle).

Les sites web qui se contentent de copier et republier les offres d’autres sites (plus connus sous le noms d’agrégateurs) sont exclus de Jobfeed car Jobfeed indexe déjà les annonces d’origine. De plus, les agrégateurs perdent ou interprètent mal certaines informations contenues dans les annonces.

Classification

La classification consiste à déterminer si la page recueillie contient une offre d’emploi ou non. Grâce a une technologie de langage avancée et en utilisant les éléments textuels de la page, l’algorithme de Jobfeed détermine si la page doit être extraite. La classification est réglée de façon à ce qu’à la fois le plus d’offres possible soient recueillies et le plus de pages qui ne contiennent pas d’annonces soient rejetées.

La classification n’est nécessaire que dans le cas de spidering sauvage car le spidering ciblé va se diriger vers les pages dont on sait par avance qu’elles contiennent des offres.

Extraction de l’information

Pour permettre la recherche des offres, elles sont structurées automatiquement à l’aide du logiciel d’extraction de Textkernel. Ce logiciel est entrainé à trouver des données dans un texte libre ce qui lui permet de fonctionner indépendamment de la structure ou du format d’une source donnée.
L’extraction se fait en deux étapes:

  • Nettoyage de la page web en enlevant les éléments non important (comme les menus ou les formulaires) pour ne garder que le texte de l’annonce. Dans le cas des fichier PDF cette étape n’a pas lieu.
  • Extraction et validation de plus de 30 champs dans le texte, comme par exemple le titre de l’offre, le niveau d’éducation ou le nom de l’organisation.

Normalisation et enrichissement

La normalisation signifie que les données extraites sont catégorisées suivant un format standard. Ceci rend plus simple la recherche et l’analyse de données. La normalisation s’effectue sur des champs tels que la profession, les niveau d’éducation et l’organisation.

Par exemple, la normalisation de professions s’effectue grâce à une taxonomie. C’est une structure hiérarchique qui consiste en une liste de professions de référence associés à leurs synonymes. Le titre de la profession extraites est jointe à un de ces synonymes. La correspondance ne doit pas forcement être exacte car l’offre sera relié à la profession la plus proche. En cherchant des offres pour une profession donnée, toutes les annonces correspondantes à un synonyme de cette profession seront proposé dans le résultat de recherche.

L’enrichissement s’effectue essentiellement pour le champ des organisations. Les coordonnées d’une organisation extraites sont comparées à une base de données d’entreprises ( comme par exemple celle de la chambre de commerce dans le cas des Pays-Bas). Parce que les informations contenues dans l’offres sont souvent incomplètes, une technique appelé fuzzy matching est employée. En utilisant cette technique, Jobfeed peut retrouver l’organisation exacte, même si des erreurs ont été commises dans le nom de l’organisation, son adresse ou même quand une information est tout simplement manquante. D’autres informations peuvent être dérivées des bases de données d’entreprises, tel que le nombre d’employés ou l’activité principale de la société.

Détection des doublons

Les offres d’emploi sont souvent publiées sur plusieurs sites ou plusieurs fois sur le même site. La déduplication s’effectue en comparant une nouvelle offre à toutes les offres déjà extraites par Jobfeed pendant le 6 dernières semaines.

Deux annonces qui sont des doublons ne sont en général pas identiques. La déduplication requiert donc une approche complexe. Comme pour la classification et l’extraction, la déduplication utilise des algorithmes d’apprentissage machine. Pour déterminer si deux offres sont des doublons, l’annonce et des éléments important de celle-ci sont comparées comme le titre, la ville etc.

Les doublons ne sont pas rejetés mais sauvegardés dans Jobfeed. De cette façon, Jobfeed est capable de montrer combien d’offres uniques sont publiées mais aussi combien de publications ont été effectuées.

Expiration

La source de chaque offre est régulièrement revisitée pour vérifier si les annonces sont toujours actives.”Expiré” signifie que l’offre n’est plus directement disponible dans l’URL originale ou que l’annonce n’est plus à la disposition des utilisateurs du site hébergeur. La date d’expiration est, elle aussi, stockée dans la base de données de Jobfeed.

Contrôle Qualité

Les processus automatiques de spidering, d’extraction, de classification et de normalisation sont les moyens les plus économiques et efficaces pour tirer le maximum des données mises en ligne. Néanmoins, ces processus ne sont pas infaillibles. La qualité des données de Jobfeed est constamment contrôlée et améliorée à travers un système d’alertes automatiques ainsi qu’un contrôle qualité manuel.
Pour plus d’information à propos de Jobfeed, contactez Textkernel via info@textkernel.fr.

À propos de Textkernel

Jobfeed est un produit de la société Textkernel B.V. Textkernel est spécialisé dans le domaine des technologies de recrutement sémantique proposant des outils de recrutement permettant d’accélérer le processus d’adéquation entre offre et demande sur le marché de l’emploi: logiciel d’analyse et d’extraction de CV et d’offre d’emploi multilingue, de recherche sémantique, de sourcing et de matching

Fondé en 2001, Textkernel est une entreprise commerciale privée spécialisée en recherche et développement. Trouvant sa source dans les travaux de recherche en machine learning et traitement du langage naturel des universités de Tilburg, Anvers et Amsterdam, Textkernel est devenue un des leaders du marché international dans son propre segment.
www.textkernel.fr