
Textkernels Arbeitsmarktdaten expandieren nach Irland
Textkernel ist stolz darauf, die Verfügbarkeit seines renommierten Arbeitsmarkt-Tools Jobfeed für den irischen Markt bekannt zu geben. Der irische Arbeitsmarkt mit seiner Mischung aus alten und neuen Sektoren und einer wachsenden Technologiebranche bietet sowohl Chancen als auch Herausforderungen. Jobfeed bietet unverzichtbare Einblicke in den irischen Arbeitsmarkt, die Personalvermittler und Unternehmen in die Lage versetzen, datengestützte Talent- und Einstellungsentscheidungen zu treffen.
Erforschen Sie den irischen Arbeitsmarkt mit Jobfeed
Der irische Arbeitsmarkt ist ebenso vielfältig wie dynamisch und spiegelt eine Mischung aus langjährigen Industrien und aufstrebenden Sektoren wider. Lassen Sie uns die wichtigsten Trends und Erkenntnisse, die unsere Daten aufgedeckt haben, untersuchen.
Beliebtheit von Hilfskräften: Sowohl im Vereinigten Königreich als auch in Irland sind Hilfskräfte der meistgesuchte Beruf. Irland bietet dabei einen lukrativen Vorteil, da Support Worker mit einem Durchschnittsgehalt von 35.000 € jährlich fast 20 % mehr verdienen.

Dublins Job-Dichte: Dublin ist mit einem Anteil von 38% am gesamten Arbeitsplatzangebot das Beschäftigungszentrum Irlands. Dieser stadtzentrierte Trend spiegelt globale Muster wider, wie sie zum Beispiel auch in Auckland, Neuseeland, zu beobachten sind.

Sprachdynamik: Während Englisch, Deutsch und Französisch in den Stellenangeboten dominieren, steigt die Nachfrage nach Irisch-Gälisch, was das tief verwurzelte kulturelle Erbe Irlands widerspiegelt.

Bleiben Sie dem Markt einen Schritt voraus mit Textkernel:
- Einfacher Zugang: Profitieren Sie von umfassenden, detaillierten Arbeitsmarktdaten über eine intuitive Schnittstelle, einen eigenen Datensatz oder unsere vielseitige API-Integration.
- Erkennung von Trends: Bleiben Sie immer auf dem neuesten Stand der Markttrends und sammeln Sie unschätzbare Arbeitsmarktinformationen.
- Wettbewerbsvorteil: Erhöhen Sie die Markttransparenz und sichern Sie sich so einen konsequenten Vorsprung vor Ihren Mitbewerbern und die Erkennung von Trends in Echtzeit.
- Optimale Integration: Integrieren Sie Jobfeed nahtlos in Ihre Arbeitsabläufe, sei es durch direkten Zugang zur Schnittstelle oder durch unsere API, um ein optimales Ergebnis zu erzielen.

Die perfekte Lösung für Personaldienstleister
Jobfeed versorgt Personaldienstleister, sowohl auf lokaler als auch auf internationaler Ebene, mit deduplizierten und durchsuchbaren Echtzeitdaten zu den neuesten Stellenangeboten auf dem Markt. Überwachen Sie die von potenziellen oder bestehenden Kunden und Konkurrenten geschalteten Anzeigen und gewinnen Sie wichtige Erkenntnisse über aktuelle Markttrends.
Die perfekte Lösung für HR-Teams
Jobfeed Irland ermöglicht HR-Teams eine mühelose Navigation auf dem irischen Arbeitsmarkt. Mit Echtzeitdaten und -einblicken können HR-Profis fundierte Entscheidungen treffen, Rekrutierungsstrategien verfeinern und in dem sich schnell entwickelnden Bereich der Talentakquise immer einen Schritt voraus sein.
Warum sollten Sie sich für Jobfeed Irland entscheiden?
- Verbesserte Markteinblicke: Die Expansion von Jobfeed nach Irland bietet den Nutzern einen breiteren Einblick in den europäischen Arbeitsmarkt und hebt die wichtige Rolle Irlands hervor.
- Globale Reichweite Ihrer Lead Generation: Jenseits lokaler Nuancen stellt Jobfeed Irland die Verbindung zu einem globalen Talentpool her und stellt sicher, dass Ihr Unternehmen in einem sich verändernden Markt an der Spitze bleibt.
- Reaktionsfähige Marktstrategie: Unser Vorstoß nach Irland entspricht dem sich entwickelnden Bedürfnis, diesen Arbeitsmarkt zu verstehen. Anerkannte Branchenführer wie Manpower, Hays, Stepstone und McKinsey sind bereits in Irland tätig.
Jobfeed Irland ist mehr als nur ein analytisches Werkzeug – es ist Ihr strategischer Verbündeter bei der Erforschung des dynamischen irischen Arbeitsmarktes. Während wir diese aufregende Reise antreten, laden wir Sie dazu ein, all die großartigen Möglichkeiten und Vorteile zu entdecken, die Jobfeed Irland zu bieten hat.
Entwickeln Sie Ihr Recruiting weiter mit Jobfeed und Arbeitsmarktdaten aus Irland.

Die STAFFINGpro widmet sich am 18. Oktober 2023 wieder einen Tag lang ausschließlich den Themen der Zeitarbeits-, Staffing- und Personaldienstleistungs-Branche. Erleben Sie Textkernel live!


Als Mitglied des Textkernel-Teams freue ich mich, die kürzlich erfolgte Übernahme von Joboti bekanntzugeben. Das in Amsterdam ansässige Unternehmen hat sich auf die Bereitstellung innovativer Technologien für Kommunikation mit Kandidat:innen spezialisiert (Candidate Engagement). Mit dieser Übernahme macht die weltweite Buy-and-Build-Strategie von Textkernel einen weiteren bedeutenden Schritt nach vorn und ermöglicht es uns, unseren Kunden einen noch größeren Mehrwert zu bieten
Gerard Mulder, CEO of Textkernel

Die Übernahme bringt zwei innovative Unternehmen zusammen, die eine gemeinsame Vision haben: nahtlose, automatisierte und skalierbare Lösungen für Recruiter:innen und Sourcing-Profis. Die Parsing- und Matching-Technologie von Textkernel in Kombination mit der Candidate Engagement Technologie von Joboti schafft eine leistungsstarke Plattform für Recruiter:innen, um die richtigen Kandidat:innen mit minimalem Aufwand zu finden und zu kontaktieren.
Gegenwärtig sind Recruiter:innen durch einen hauptsächlich manuellen Prozess bei der Suche nach den richtigen Kandidat:innen eingeschränkt, die dann über soziale Medien, E-Mail, Telefon oder Sofortnachrichten kontaktiert werden, um ihre Verfügbarkeit und ihr Interesse zu ermitteln. Mit der Kombination unserer Technologien können Recruiter:innen jedoch dank KI-gestützter Matching-Technologie schnell relevante Kandidat:innen finden und mit denjenigen in Kontakt treten, die über die richtigen Skills verfügen und die ihr Interesse, ihre Verfügbarkeit und aktualisierte Skills angegeben und entsprechende Überprüfungsfragen beantwortet haben.
Darüber hinaus ermöglicht die Integration der Joboti-Technologie in unsere Lösungen Recruiter:innen die Automatisierung von Kommunikationsabläufen im Recruiting-Prozess, einschließlich Jobbenachrichtigungen, DSGVO-Prüfungen, Pre-Screenings, Terminierung von Vorstellungsgesprächen und Feedback-Nachrichten. Dadurch wird der Prozess der Kontaktaufnahme mit den Kandidat:innen gestrafft, sodass sich Recruiter:innen auf höherwertige Aufgaben konzentrieren können, beispielsweise auf die Aufnahme zielführender Kontakte mit verfügbaren Kandidat:innen.
Unsere Kunden können in den kommenden Monaten und Jahren mit weiteren Funktionen und Produkten rechnen. Durch die Kombination der Technologie von Joboti und unseren KI-gestützten Recruiting-Lösungen stehen Tools zur Verfügung, um mit den Kandidat:innen in Kontakt zu treten, den Recruiting-Prozess zu verbessern und um die Time-to-Hire zu verkürzen. Mit der Möglichkeit, die Datensätze von Kandidat:innen auf dem neuesten Stand zu halten und nur mit verfügbaren und interessierten Kandidat:innen in Kontakt zu treten, können Recruiter:innen eine positive Candidate Experience sicherstellen.
Wir setzen uns weiterhin ein für Innovationen und für die Weiterentwicklung der Recruiting-Branche. Die Übernahme von Joboti stärkt unsere Position als führender Anbieter von KI-gestützten Recruiting-Lösungen, und wir freuen uns, das Joboti-Team bei Textkernel willkommen zu heißen. Gemeinsam freuen wir uns darauf, Lösungen zu entwickeln, die die Branche revolutionieren und unseren Kunden helfen werden, ihre Recruiting-Ziele mit noch größerer Effizienz und geringstem Aufwand zu erreichen.
Weitere Informationen finden Sie im FAQ zur Übernahme auf unserer Website.
Über Joboti
Joboti ist ein Start-up-Unternehmen, das sich auf automatisierte Technologien zur Kommunikation mit Kandidat:innen spezialisiert hat. Sie umfassen personalisierte Jobempfehlungen, Orientierungshilfen und Feedback für Stellensuchende und sorgen für eine intuitivere und benutzerfreundlichere Erfahrung. Die Lösungen des Unternehmens wurden entwickelt, um den Recruiting-Prozess zu verbessern, die Effizienz von Personalverantwortlichen und Recruitern zu steigern und ihre Arbeitsbelastung zu reduzieren. Die Technologie von Joboti wird weltweit von einer wachsenden Zahl von Unternehmen eingesetzt. Ihr innovativer Ansatz im Recruitment hat bereits große Beachtung gefunden.

Angesichts des zunehmenden Wettbewerbs um Talente sind hohe Vermittlungsquoten ein wichtiges Ziel für Personalvermittler, die sich mit flexiblen Beschäftigungsverhältnissen befassen. Allerdings fehlt in ihren Systemen oft das Detailwissen über die Verfügbarkeit von Bewerber:innen und die Eignung für eine Stelle. Durch die Übernahme von Akyla kann Textkernel diese Wissenslücke schließen. Wir erklären, warum Textkernel Akyla übernommen hat und welche Fortschritte Sie durch die Zusammenarbeit mit Akyla in Zukunft erwarten können.
Im Juni 2022 erwarb Textkernel das Softwareunternehmen Akyla, ein niederländisches Unternehmen und ein echter Best-of-Breed-Lösungsanbieter. Akyla entwickelt Mid-Office-Plattformlösungen für automatisierte Personalvermittlungen, effizientes Management von Zeitarbeitskräften, Zeitmanagement und Dokumentenverarbeitung.
Personaldienstleister verzeichnen derzeit auf dem Arbeitsmarkt einen erheblichen Bewerber:innenmangel. Diese Situation wird sich in den kommenden Jahren in den meisten westlichen Ländern aufgrund des demografischen Wandels weiter verschärfen. Vor diesem Hintergrund wird die Personalbeschaffung immer teurer und zeitintensiver.
Bewerber:innen sind schlichtweg knapp. Personalvermittler werden also versuchen, gute Kandidat:innen möglichst mehrfach zu vermitteln, anstatt nach dem Prinzip “Post & Pray“ zu verfahren und immer wieder neue zeitaufwändige Einstellungsverfahren durchzuführen. Dafür sind Daten über die Verfügbarkeit von Bewerber:innen entscheidend. Doch diese fehlen häufig in den Front-Office-Systemen, in denen die Einstellungen vorgenommen werden.
Die richtigen Daten für fundierte Geschäftsentscheidungen
Die Übernahme von Akyla durch Textkernel erweitert unser Lösungsangebot. Als Mid-Office-Softwarelösung unterstützen die Lösungen von Akyla Kundinnen und Kunden bei administrativen Aufgaben wie Onboarding, Zeiterfassung, Arbeitszeitauswertung, digitale Unterschriften oder Lieferantenmanagement. Die Akyla-Lösung verbindet Front- und Backoffice-Systeme und steht sowohl mit Bewerber:innen als auch Arbeitgebern über eine mobile App in direktem Kontakt. Personaldienstleister können so wissen, wann ein Einsatz endet und Kandidat:innen verfügbar werden und diese Daten als Grundlage für bessere Geschäftsentscheidungen nutzen.
Auf der Grundlage dieser Daten werden Kundinnen und Kunden, die Akyla und Textkernel einsetzen, von Matching-Ergebnissen profitieren, die besser auf ihre Prozesse und die Verfügbarkeit von Kandidaten zugeschnitten sind.
Sie sind damit in der Lage, Bewerber:innen zum richtigen Zeitpunkt neue Beschäftigungsmöglichkeiten anzubieten, die Mitarbeiterbindung zu erhöhen und die Wiederholung kosten- und zeitintensiver Einstellungs-, Interview-, Auswahl- und Onboarding-Prozesse zu vermeiden.
Die Kombination aus der besten Matching-Engine und dem besten Mid-Office-System wirkt sich positiv auf das Engagement und die Candidate Experience aus und führt zu einer geringeren Fluktuation, hohe Vermittlungsquoten und mehr Wiedervermittlungen sowie niedrigeren Kosten pro Einstellung und einer kürzeren Vermittlungszeit. Und nicht nur die Personaldienstleister, sondern auch die Bewerber:innen werden von einer besseren Vermittlung profitieren. Die Reduzierung finanzieller Risiken und von Unsicherheiten führt darüber hinaus auch zu einem besseren Image der Personaldienstleister.

Die Highlights unserer Produkt-Updates
Das Ende des Jahres 2022 ist in Sicht. Trends im Bewerberverhalten, dem Verfassen von Stellenausschreibungen und datengesteuerten Funktionen schaffen weiterhin neue Herausforderungen und Möglichkeiten für Recruiting-Verantwortliche als je zuvor. Wir wissen, dass unsere Kunden schnell fundierte Entscheidungen treffen müssen, um mit den Entwicklungen auf dem Markt Schritt zu halten, und dass unsere Produkte Talent- und Arbeitsmarktdaten aussagekräftig und anwendbar machen müssen. Dies erfordert kontinuierliche Verbesserungen unserer Produkte. Wir freuen uns, Ihnen die Highlights der jüngsten und kommenden Produktverbesserungen von Textkernel vorzustellen, die Ihnen helfen, Menschen und Jobs besser zu verstehen, zu verbinden und zu analysieren.
Verstehen – Verschaffen Sie sich einen aktuellen Überblick über die Talentlandschaft
Alles beginnt mit dem Verarbeiten und Verstehen unstrukturierter Bewerberinformationen und -unterlagen als Basis für das Filtern, Suchen und Ranking von Kandidat:innen. Mit unserem Lebenslauf-Parser können Sie die Verarbeitung von Bewerberdaten automatisieren, um einen schnelleren, effizienteren und genaueren Prozess zu erhalten. Was ist neu…?
- Wir unterstützen jetzt 25 Sprachen im Parsing mit einem hohen Genauigkeitsgrad. Zu den neuesten Sprachen, die wir unterstützen, gehören Chinesisch und Hebräisch.
- Wir haben unsere Analysegenauigkeit erheblich verbessert; zuletzt auch für Lebensläufe aus Rumänien, Kolumbien, Brasilien und Portugal. Sehen Sie sich unsere Testergebnisse im Vergleich zu unseren Mitbewerbern an.
- Anstatt eine große Liste von Skills zu extrahieren, sehen Sie jetzt die extrahierten Skills in Verbindung mit dem beruflichen Werdegang, was die Relevanz erhöht.
- Durch das Upgrade auf unser Skills Parsing Framework Version 2, profitieren alle Kunden jetzt von 80% mehr extrahierten Skills, bis zu 20% weniger Datenrauschen, automatischen zukünftigen Updates und Skill-Normalisierung.
Daten über Personen und Jobs sind oft unübersichtlich: Skills und Jobtitel können unterschiedlich formuliert sein, und die Informationen können in verschiedenen Quellen und/oder Formaten gespeichert sein. Textkernels Data Enrichment APIs helfen bei der Standardisierung und Anreicherung von Job- und Skill-Daten. Was ist neu?
- Wir haben die Skill-Taxonomie um 9 neue Sprachen erweitert!
- Die Berufe-Taxonomie wurde aktualisiert, um O*NET 2019 und lokale Taxonomien in Deutschland (KLDB), Großbritannien und den Niederlanden zu unterstützen – damit Sie lokale Vorschriften einhalten können.
Connect – Nutzen Sie Daten, um Menschen und Stellen besser miteinander zu verbinden
Unsere Search!- und Match!-Tools ersparen Ihnen viel Zeit bei der Suche und dem Matching der richtigen Kandidaten und Stellen. Nutzen Sie den Wert Ihrer internen Datenbank und/oder führen Sie eine einzige Suche mit mehreren externen Quellen durch. Mit einem einzigen Mausklick kann auf der Grundlage eines Profils ein automatisierter Abgleich mit internen oder externe Stellenangeboten erstellt werden. Was ist neu…?
- Die Suche nach ähnlichen Kandidaten (Matching von Kandidat zu Kandidat) wurde aktualisiert und verbessert und bietet Ihnen eine weitere Möglichkeit, Personen und Stellen effizient zu verbinden.
- Das Matching ist noch genauer und konzentriert sich auf bestimmte Aspekte der Kandidat:innen. In unseren dynamischen Templates ist es jetzt möglich, bevorzugte Abfragen zu erstellen. So ist beispielsweise die Ausbildung für Hochschulabsolventen sehr wichtig, während sie bei der Suche nach sehr erfahrenen Kandidat:innen weniger wichtig ist.
- Sammelaktionen für eine große Anzahl von Such- oder Matching-Ergebnissen werden bald viel einfacher durchzuführen sein.
- ‚Source‘ ist unser neues, eigenständiges und vereinfachtes Produkt für die Suche in mehreren externen Bewerberdatenbanken
- Mit der Private Data Analytics ist es einfach, Ihre privaten Daten mit der Marktnachfrage zu vergleichen. Jetzt können Sie Daten aus Ihrem Textkernel Search Index mit angereicherten und normalisierten Daten aus unseren Taxonomien in Ihr Data Warehouse laden, um sie einfacher zu analysieren.
- Demnächst können web-Profile mit einem einzigen Klick über unsere Browser-Erweiterung importiert werden.
Um Ihnen noch mehr Zeit zu sparen, werden wir bald eine neue Automatisierungs-API herausbringen, die automatisch Listen mit passenden Kandidaten und Stellen in Ihrem ATS generiert. Diese Listen können von Recruitern oder der ATS-Automatisierung abgerufen werden, um mit diesen potenziellen Kandidaten in Kontakt zu treten. Weitere Informationen und Anwendungsbeispiele werden wir im neuen Jahr veröffentlichen.
Analysieren – Machen Sie Daten zugänglich, um Strategien auf individueller und organisatorischer Ebene zu entwickeln
Der einzige Weg, der Konkurrenz in angespannten Märkten einen Schritt voraus zu sein, besteht darin, schneller zu reagieren. Jobfeed bietet Ihnen Echtzeit-Markteinblicke, die es Ihnen ermöglichen, Wachstumschancen zu identifizieren, sich von der Konkurrenz abzuheben und Zeit und Aufwand zu sparen. Wir versorgen Sie mit exzellenter Marktexpertise, Wettbewerbsinformationen und einem Überblick über sich schnell verändernde Trends. Was ist neu?
- Wir verbessern kontinuierlich unsere Datengenauigkeit, die letzten Aktualisierungen umfassen Gehälter und Standorte.
- Jobfeed ist jetzt für 11 Länder verfügbar, mit der Schweiz als neuem Arbeitsmarkt.
- Weitere Arbeitsmärkte für Jobfeed sind in Planung, demnächst: Australien, Neuseeland und Japan.
- Verbessertes Nutzererlebnis für Bewerber durch Hinzufügen der Bewerbungs-URL zum Datenmodell.
- Bessere Anzeige und höhere Benutzerfreundlichkeit mit unserer Markdown-Formatierung
- Die neue und verbesserte Jobfeed-Benutzeroberfläche wird bald fertig sein!
Wir arbeiten mit den Besten
Über hundert Partner auf der ganzen Welt bieten die hochmoderne KI-basierte Technologie von Textkernel an, von lokalen Marktführern bis hin zu großen internationalen Unternehmen wie Salesforce, Bullhorn, SAP, Cornerstone und Oracle und bauen unser Ökosystem ständig aus. Wir sind stolz darauf, einige bedeutende Verbesserungen in unserem Salesforce Connector zu präsentieren:
- Implementierte Support-Funktion, so dass Sie problemlos externe Kandidaten in Salesforce suchen und importieren können
- Widgets zur Anzeige der besten Treffer in Salesforce direkt neben den Kandidat:innen oder der offenen Stelle
- Sie können jetzt ganz einfach Jobfeed-Leads in Salesforce importieren
Wir hoffen, dass Sie unsere Begeisterung für diese Produkt-Updates teilen! Fühlen Sie sich inspiriert, Ihre Recruiting-Strategie für das kommende Jahr weiterzuentwickeln? Lesen Sie jetzt unseren Blogpost mit 4 Recruiting-Empfehlungen durch, mit denen Sie auch 2023 erfolgreich sind.
Auf ein erfolgreiches Jahr 2023!

Summary
Column CVs are visually appealing and are becoming widely used by candidates. We estimate that currently at least 15% of CV documents use a column layout. However, properly dealing with this layout is a surprisingly difficult computer vision problem. Since third party tools do not work well on CVs or are very slow, Textkernel already had a system in place to deal with column layout documents. We have greatly improved this system by applying various AI techniques. As a result, our handling of column CVs in PDF format has improved significantly, resulting in better extraction quality regardless of the document language.
Intro
The first step in an information extraction pipeline is to convert documents into raw text from which information can be extracted.
The system’s ability to perform well in this first step is crucial: any mistake will impact the performance of subsequent steps. Generating a well-rendered text representation for many different types of documents is a difficult problem to solve.
A simple method, that renders the text in a top-down, left to right order is usually sufficient for documents that have a standard layout.

However, CVs come in various layouts, which are easy for humans to understand, but can be challenging to a machine.
A common layout we find in CV documents is the usage of columns. Column CVs are visually appealing and widely used by candidates applying for a job. Candidates want to neatly organize the information in their CV and provide visual structure, for example by having a sidebar that contains their contact information.
If a system were to use the basic left-to-right, top-down order rendering for this type of document, that would generate a rendering where the information from different sections of the CV is mixed together (see image aside).
Instead of reading the columns one after the other, the system would mix bits and pieces of each column together.

An imperfect text rendering can still be useful for certain tasks: searching for keywords is still possible, and humans can still easily read the document.
But when automated systems try to extract structured information from an imperfect rendering, problems compound very quickly: finding the correct information becomes incredibly challenging.
At Textkernel, we strive to offer the best parsing quality on the market, which means that the widespread use of column based layouts demands our full attention. Keep reading to follow us on our journey to create a system that can understand creative document layouts and see how we were able to leverage machine learning to bring our Extract! product to the next level.
Our Previous Approach
Our system was already able to handle several types of document layouts, being able to identify sections of a document that should be rendered independently.
The approach has 3 steps. In the first step, the text content of the PDF is scanned and visual gaps between them are identified (see below an example). In the second step, a rule-based system decides whether a visual gap is a column separator or not. As you can see in the example below, not all visual gaps are column separators and the left-to-right reading should not be interrupted for these gaps. Based on these predictions, in the third step the text will be rendered by separating all identified columns.


A naive approach that always renders the big visual gaps separately would have issues on several types of layouts, as an example a key-value structured layout would break the key from the value and separate it in its text representation, leading to incorrect extraction of fields.


Visual gaps (in red) in Key-Value structured layout
Our system achieved good rendering for many cases but was still failing to predict certain column separators. By design the system was very precise when predicting that the visual gap is a column separator (i.e. precision of the positive class is very high), the rationale being that predicting a column separator when there is none (i.e. a false positive) is very costly: the rendered text will be wrong and as a result it would affect the parsing quality. In order to achieve this high precision, its coverage was more limited (i.e. precision of the positive class was favored over the recall of the positive class). In addition, the system is also very fast (tens of milliseconds), making it a quite efficient solution.
Improving such a system requires a model centric approach: we have to focus our efforts in changing the code. For example, increasing the coverage of supported cases is very difficult. When we encounter a new case, we need to implement a new rule for it, make sure it is compatible with the rest of the rule base and choose how the rules should be applied and combined. Complexity can grow very high with the more rules we add.
Ideally we would like our solution to be data centric, so we can improve its performance by collecting examples of how the system should perform, and focus our attention on curating and improving the example data. We would also like a solution that preserves our processing speed.
The first improvement trial
We analyzed several third party solutions that might help us improve our system, without going through all the difficulties of managing a rule-based system.
Most of these systems apply computer vision methods to extract text from an image representation of the document. These require computationally expensive algorithms and are therefore quite slow (i.e. seconds), and also difficult to manage for on-premise installations. We were also surprised to see that their performance was not much better than our previous rule-based approach. Therefore, we abandoned the third party track.
As we are focusing on improving our column handling, we don’t need to identify all the gaps in the text, only the larger vertical visual gaps should correspond to columns. With these simplified assumptions, we came up with a new method to detect the largest vertical visual gap from a histogram of the whitespace in the image representation of the document, as can be seen in the image below.


Looking at this representation, we can see a distinction between both types of layouts in terms of whitespace distribution, and we used this representation to train a neural network model for classifying between column layouts and regular layouts.
Note that this method does not fit all our requirements: we still don’t have the coordinates needed to separate the column content. In addition, we also noticed the processing speed will be an issue if we continue on this track.
Given the expected effort still to get this method to a usable state, we took a step back and went back to the drawing board.
Our New Approach
We already stated that in our ideal scenario we would be able to improve our system by feeding it good quality data. How can we move from our model centric approach into a data centric approach?
At the core of our solution we have a single type of decision: deciding if a visual gap is separating related or unrelated content (e.g. a column separator). This is a binary classification problem, for which we can train a machine learning model to replicate the decision.
By making use of our rule-based system we can generate our training data by converting our rules into features and our output decision as the label we want our new model to learn. By doing this we can begin to focus on improving the collection and curation of more training data, and easily retrain the model everytime we want to improve it, instead of adding more rules to our code base.
We have a new approach and we need to validate it. For that we follow the model development pipeline:

Data Selection
We start with selecting the data for training our machine learning model. Unlike a rule-based system that needs a few hundred examples to develop and test the rules, we will need several thousand examples to learn our model.
We started with problematic documents that our customers kindly shared with us in their feedback. However, this set was quite small (about 200 documents). How can we find thousands more column CVs when they only account for about 10-15% of documents? Luckily, from our initial attempt we have a neural network based column classifier. Although not sufficient for replacing our old rule-based system, it’s a great method to mine documents with a column layout. Even if this classifier is not 100% accurate, it is still better than randomly selecting documents (which will have an accuracy of 10-15%). In addition, we also collect a random sample of documents to make sure our method works well across all layouts (i.e. ensure we do not break rendering of correctly working document layouts).
Generation of the Dataset
To generate our dataset we process our document sets through our existing rendering pipeline. For each visual gap, the target label is initially set to the decision made by our rule-based system. We bootstrapped the features by using the variables and rules computed in this decision. In addition, we added several new features that quantify better some of the properties of column layouts.
Manual Annotation
In the previous step we generated a pseudo-labeled dataset: the labels originate from our existing system and are not verified by a human. To ensure that our machine learning model will not simply learn to reproduce the mistakes of the rule-based system, we also manually annotated a small sample of column CVs. Since this is a time consuming task, having potential column CVs as identified by our neural network based column classifier helped to speed up our annotation process.
Model Training
We can now train a machine learning model to mimic our ruled-based system decisions. We started our experiments with the decision tree algorithm. This is a simple algorithm to apply to our dataset and very effective, offering good classification performance while very fast to apply, a key characteristic we wanted in our approach.
However, decision trees have several problems: they are prone to overfitting and suffer from bias and variance errors. This results in unreliable predictions on new data. This can be improved by combining several decision tree models. Combining the models will result in better prediction performance in previously unseen data.
There are several ways to achieve this, the more popular methods being bagging, where several models are trained in parallel on subsets of the data: an example of such method is the random forest. Another ensemble method is boosting, where models are trained sequentially, each model being trained to correct the mistakes of the previous one: an example of such method is the gradient boosting algorithm.
After testing a few options we settled on the boosting approach using a gradient boosting method.
Efficient Label Correction
Our new model was mostly trained to reproduce the decisions of our rule-based system because most of its training data comes from pseudo-labeled examples. The limited human annotations also makes it difficult to do error analysis and identify which cases the new model is misbehaving.
Even so, the added small sample of manually annotated data for column CV documents can already shift the decision in informative ways. As a result, the discrepancy between the predictions of the new method and the rule-based system can be analyzed manually and corrected. We call this approach delta annotation. This is an effective process of labeling only the data that will push the model into performing better.
At Textkernel we are always looking for ways to deliver the best quality parsing. Having quality data is essential for what we do, so of course, we already have implemented great solutions for this using tools such as Prodigy to facilitate rapid iteration over our data.

WIth this partially corrected dataset, we can retrain our model and we can keep iterating and improving our dataset by doing delta annotation between the latest model and the older ones. In our case, two iterations was enough to saturate the differences and reach a good performance at the visual gap level.
This enables us to follow a data centric approach, we can focus on systematically improving our data in order to improve the performance of our model.
Evaluation
We have a new approach that is more flexible than before, but we still have a big challenge. How can we be sure that better decisions at the visual gap level translate in an overall improvement in rendering at the document level (recall that a document can have multiple visual gaps). Even more important, does this translate into extraction quality improvements? If we want to be confident in our solution, we need to evaluate our system at multiple levels.
Firstly, we did a model evaluation to know if we are better at making decisions at the visual gap level. For this, we can simply use our blind test set and compare the performance of our new model with the old model. On more than 600 visual gaps, our new model makes the right decision in 91% of the cases as opposed to only 82% for our old rule-base system. However, visual gaps are not all equally important and some matter more than others: in our case, the visual gaps corresponding to columns are the most important to get right. For this important subset, we see a performance increase from 60% to 82%. In other words, we have more than cut in half the errors we used to make!
Secondly, we looked to see if the improvement in visual gap classification translates into better rendering (recall that in a document there might be multiple visual gaps). In other words, are we doing a better job of not mixing sections in column CVs? However, since multiple renderings can be correct, it is hard to annotate a single “correct” rendering (which would have allowed us to automatically compute rendering performance). Therefore, we had to do a subjective evaluation of the rendering. Using our trustworthy Prodigy tool, we displayed side-by-side the renderings of the new and the old system to our annotators (without them knowing which side is which). The annotators evaluated if the text is now better separated, worse, or roughly the same as before. The results on a set of about 700 CVs are really good: well rendered CVs increased from 62% to 90%.
Finally, we looked to see if better rendering translates in better parsing. We knew that in column CVs where the old system was failing, our parser would sometimes extract less information, in particular contact information like name, phones and address. Thus, the least labor intensive way is to simply check if the fill rates are increasing. On more than 12000 random CVs, we see that the contact information fill rates are increasing by 4% to 10% absolute. But more does not necessarily mean better! Thus, we also invested in evaluating more than 1000 differences between our parser using the old system and our parser using the new system. The results in the figure below show the percentage of errors our new system has fixed. This is our final confirmation that we now have in our hands a better parser! Great job team!

To summarize our improvements:
- Correct decisions at the visual gap level improved from 60% to 82% for visual gaps corresponding to columns.
- Rendering quality improved from 62% to 90%.
- Contact information fill rates increased by 4% to 10% absolute.
- Error reduction in contact information from 33% to 100%.
- Speed impact is negligible compared to our rule-based system (10ms extra)
Conclusions
Our extraction quality on column CVs is now better than ever. By leveraging machine learning to replace our rule-based system we can now correctly parse an even wider range of CV layouts.
Our main takeaways from this project are:
- It is important to choose the right approach. For certain problems, more complex approaches or ML models require a lot of time investment to get right and still have speed issues.
Experimenting with several approaches, even if abandoned, still brings value. These systems can be complimentary in parts of the pipeline (e.g. for efficient data selection). - With the right data and ML methods, a rule-base system can be bootstrapped into an ML system with significantly better generalization capabilities.
Further improvements to the system can be done by improving the training data instead of the complex task of managing the rules.
- It is important to look at the global picture especially for systems with downstream tasks.
Local improvements need to be evaluated globally to validate their effectiveness
Don’t miss out on the great candidates that make use of these layouts!
About The Author
Ricardo Quintas has been working for Textkernel for 4 years as the Tech Lead Machine Learning.


Below you can find links to dedicated product pages including the latest Textkernel releases. Click to select a product that is relevant to you.

Wie KI die Personalbeschaffung optimiert
Für Jahrzehnte basierten Unternehmen sämtliche Entscheidungen über Gehälter, Personalentwicklungen oder Einstellungen auf dem Jobtitel. Doch der ist nicht mehr die einzige Einheit in der Personalarbeit.
Skill-basierte Ansätze sind immer häufiger die Grundlage für HR-Entscheidungen. In diesem Video zeigen wir, wie Sie mit Skill-Daten effektiv arbeiten und was durch KI-Technologien heute möglich ist.

Füllen Sie das Formular aus, um sich das On-Demand Webinar anzuschauen: