Op 3 december vond de 19e editie van de “Dutch-Belgian Information Retrieval Workshop” (DIR) plaats.
Deze conferentie zou in Antwerpen plaatsvinden, maar vanwege de corona-pandemie werd zij volledig online gehouden. Zoals vele voorgaande edities was Textkernel present! Ditmaal met een digitale stand.
DIR is een conferentie waar de meest recente ontwikkelingen in het wetenschappelijke domein van de Information Retrieval worden gepresenteerd. Dit jaar had de conferentie als thema ‘lightning-talks’: Nederlandse of Belgische sprekers van andere toonaangevende internationale conferenties waren uitgenodigd om hun werk te laten zien in een kortere presentatie. Hierdoor gaf de conferentie een waardevol overzicht van de state-of-the-art in enkele gebieden in Information Retrieval.

Wat is Information Retrieval?
Ik heb de term Information Retrieval (IR) nu een paar keer genoemd, maar dat is waarschijnlijk niet iets waar iedereen bekend mee is. Daarentegen gebruiken we allemaal IR-system op dagelijks basis. IR zou je kunnen zien als de wetenschap achter zoekmachines, aanbevelingssystemen (bekend van o.a. Netflix en Spotify) en matchingsystemen. In de kern gaat het om de juiste informatie vinden in een enorme hoeveelheid data. Dit aspect van de computerwetenschappen is steeds belangrijker geworden sinds internet niet meer weg te denken is uit onze samenleving, sinds de jaren ’90 en ’00. We kennen allemaal vast nog de vroege zoekmachines van AltaVista en Yahoo!.
Sindsdien is de hoeveelheid data in computersystemen gigantisch gegroeid, en daarom is het des te belangrijker geworden om deze data goed te kunnen doorzoeken. Daardoor is Information Retrieval dus een steeds noodzakelijker vakgebied geworden.
Typische vragen die IR-wetenschappers zichzelf stellen zijn bijvoorbeeld:
- Hoe kunnen we de beste zoekopdrachten uitvoeren om de beste matches of aanbevelingen te krijgen?
- Hoe kunnen we de nieuwste AI-technologieën gebruiken in het zoeken en matchen?
- Hoe kunnen we garanderen dat zoek- en matchresultaten objectief en fair zijn en zonder vooroordelen in acht te nemen zijn gevonden?

Toepassing in de technologie van Textkernel
Dit zijn vragen die we onszelf ook doorlopend stellen over onze zoek- en matchtechnologie bij Textkernel.
Laten we een voorbeeld bekijken van hoe deze onderwerpen terugkomen in de ontwikkeling van de zoek- en matchsoftware bij Textkernel: hoe kunnen we de kracht van Deep Learning algoritmes (de laatste ontwikkeling in de kustmatige intelligentie) gebruiken voor het verbeteren van onze zoek- en matchresultaten? Van Deep Learning is aangetoond dat het zoekmachines kan helpen de juiste resultaten te vinden. Deep Learning begrijpt de inhoud van documenten op een zeer complex en gedetailleerd niveau, wat kan veel bijdragen bij het zoeken. Het nadeel van deze methoden is echter dat het systeem werkt als een “black box”: het is lastig uit te leggen waarom het algoritme een bepaald resultaat geeft. Daarom moeten we dus deze krachtige zelflerende algoritmes combineren met onze reguliere transparante en uitlegbare matching, om tot het beste van beide werelden te komen.
Een ander voorbeeld van hoe de eerder genoemde vragen terugkomen bij ons onderzoek naar zoek- en matchalgoritmes: een veelvoorkomende techniek om zoekresultaten te optimaliseren is om te algoritmes te laten leren van het klikgedrag van gebruikers, of directe feedback van gebruikers op de zoekresultaten. Echter, in het HR-domein is deze methode controversiëler: het algoritme kan ook de (onbewuste) vooroordelen van de gebruiker leren. Het leren van vooroordelen door het algoritme is iets dat we koste wat het kost moeten voorkomen. Daarom nemen we bias (vooroordelen) en fairness (eerlijkheid) van de resultaten mee in de zoekresultaten, zodat we zeker kunnen zijn dat we matchen op vaardigheden en competenties, en niet op zaken die er niet toe doen voor het uitvoeren van de baan.
Een conferentie zoals DIR kan inzichten geven in de modernste technieken om Deep Learning te gebruiken in zoeken en matchen, terwijl we eventuele vooroordelen of oneerlijkheden uit de zoekresultaten halen.
Deze blogpost is geschreven door Vincent Slot, Team Lead Search R&D bij Textkernel.
10 december 2020.