Online Stellenangebote haben viele Duplikate! Doch wie erkennen wir diese, wenn es sich nicht um exakte Kopien handelt?

UnbenanntFür Jobfeed, Textkernels Big Data Job Plattform für die Arbeitsmarktanalyse, crawlen wir das Web nach online Stellenanzeigen. Um eine hohe Qualität zu gewährleisten, müssen einige technische Herausforderungen überwunden werden. Eine dieser Herausforderung ist die Deduplizierung von Stellenanzeigen.

In diesem Blog Post beschreibt Valentin Jijkoun, Web Mining Team Lead, wie Textkernel mit dieses Problem überwindet.

Lesen Sie den gesamten Blog Post auf Englisch!

About the author
meValentin Jijkoun is the head of the Web Mining Team at Textkernel and one of the architects behind Jobfeed. He is Russian, grew up and studied in St. Petersburg, but has been living in Amsterdam “forever”. His background is in machine learning and natural language processing, and in his spare time he reads, plays piano and watches old British comedies.

Are you curious about Textkernel and the web mining team? We are growing and looking for a Software Engineer – Python and Big Data!