Een verhaal van Luuk van Neerven, medeoprichter Joboti en voormalig recruiter

AI in werving en selectie in 2023: De reis van de recruiter naar slim tijdmanagement en zinvolle betrokkenheid van kandidaten

Home / Learn & Support / Blog / 7 beperkingen van grote taalmodellen (LLM's) in wervingstechnologie

In ons vorige bericht in deze blogserie verwachten we dat LLM’s een grote invloed zullen hebben op wervingstechnologie, waaronder parsing- en matchingsoftware. Maar het effectief toepassen van LLM’s in productiesoftware is niet eenvoudig. Er moeten verschillende technische, functionele en juridische hindernissen worden genomen. In deze blogpost bespreken we de inherente beperkingen en risico’s van het gebruik van LLM’s in recruitment- en HR-technologie.

Beperking 1: snelheid en kosten

LLM’s zijn rekenkundig erg duur: het verwerken van een enkele pagina tekst vereist berekeningen over miljarden parameters, wat kan resulteren in hoge responstijden, vooral voor langere invoerdocumenten. Het uitvoeren van complexe informatie-extractie uit een document met meerdere pagina’s (zoals CV parsing) kan tot tientallen seconden duren. Voor bepaalde toepassingen kunnen deze latenties acceptabel zijn. Maar dat geldt niet voor taken waarbij grote hoeveelheden documenten in bulk moeten worden verwerkt. Naast de responstijd brengt de complexiteit van de berekening ook financiële kosten met zich mee. LLM’s vereisen over het algemeen veel speciale GPU’s en veel meer rekenkracht dan standaard deep learning modellen. De hoeveelheid elektriciteit die wordt gebruikt om één enkel document te verwerken, wordt geschat op substantieel. Hoewel de kosten de afgelopen maanden al aanzienlijk zijn gedaald, zal het gebruik van zware, algemene machines zoals LLM’s voor zeer specifieke (HR) taken waarschijnlijk nooit de meest kosteneffectieve optie zijn.

Gevolgen voor wervingssoftware

Wanneer je te maken hebt met kleine hoeveelheden cv’s of vacatures, hoeven snelheid en kosten geen beperkende factoren te zijn. Maar veel organisaties werken met duizenden of zelfs miljoenen documenten in hun databases. Hoge verwerkingslatenties kunnen zich vertalen in weken wachttijd voor een grote database. Het ligt voor de hand dat organisaties met grote documentvolumes snelle en betaalbare parsing- en matchingoplossingen nodig hebben.

Een belangrijke kanttekening bij deze beperking is dat deze in de loop der tijd waarschijnlijk zal afnemen. In de AI-gemeenschap wordt veel onderzoek gedaan naar het verkleinen van LLM’s, het specialiseren ervan en het verlagen van de kosten. Gezien de aard van het beestje zullen LLM’s nooit vederlicht worden, maar het is waarschijnlijk dat de snelheid en de kosten de komende jaren tot een acceptabel niveau zullen worden teruggebracht.

Beperking 2: Hallucinaties

LLM’s hebben maar één doel: taal produceren die door mensen als ‘natuurlijk’ wordt ervaren. Ze zijn niet ontworpen om waarheidsgetrouwe informatie te produceren. Een veelgehoorde klacht over LLM’s (waaronder ChatGPT) is dan ook dat ze de neiging hebben om te ‘hallucineren’: ze kunnen tekst van hoge kwaliteit produceren die feitelijk onjuiste informatie bevat. De LLM zelf presenteert deze hallucinaties met volle overtuiging.

Wikipedia geeft het volgende voorbeeld: Asked for proof that dinosaurs built a civilization, ChatGPT claimed there were fossil remains of dinosaur tools and stated “Some species of dinosaurs even developed primitive forms of art, such as engravings on stones”.

Niet alle hallucinaties zijn zo onschuldig als deze. Er zijn meldingen van ChatGPT die valse informatie geven over gevoelige onderwerpen zoals de veiligheid van COVID-19 vaccinaties of de geldigheid van de Amerikaanse verkiezingen in 2020.

Gevolgen voor wervingssoftware

In de context van CV parsing kan hallucinatie betekenen dat de uitvoer informatie bevat die niet aanwezig was in het originele document. In onze eigen experimenten hebben we hier al heel wat voorbeelden van gezien: vermeldingen van werkervaringen of diploma’s verschijnen in de uitvoer terwijl ze nergens in het ingediende CV worden genoemd. Dit kan uiteraard leiden tot verwarring onder gebruikers en, als het niet wordt opgemerkt, nogal verrassende functieaanbevelingen opleveren.

Hoe moeilijk is het om dit probleem op te lossen? Een voor de hand liggende aanpak is om simpelweg te controleren of de uitvoertermen voorkomen in het invoerdocument en het document te negeren als dat niet het geval is. Het risico bestaat echter dat het kind met het badwater wordt weggegooid: in sommige gevallen leiden LLM’s correct informatie af en kunnen de ‘niet-vermelde’ delen van de uitvoer correct zijn. Het bedrijf waar iemand heeft gewerkt kan bijvoorbeeld correct worden afgeleid op basis van het afstudeerprogramma dat in een CV wordt genoemd (terwijl het bedrijf zelf niet wordt genoemd). Deze inferenties kunnen daadwerkelijk waarde toevoegen aan traditionele CV parsers. De uitdaging is om uit te zoeken welke van de inferenties die door de LLM worden gemaakt veilig zijn om te behouden.

Beperking 3: Gebrek aan transparantie

Een belangrijke beperking van LLM’s is dat ze een complete zwarte doos zijn. Er is geen zicht op waarom de uitvoer eruit ziet zoals hij eruit ziet. Zelfs de ontwikkelaars van ChatGPT en soortgelijke systemen kunnen niet verklaren waarom hun producten zich gedragen zoals ze doen. Dit gebrek aan verklaarbaarheid kan zorgwekkend zijn: als het onmogelijk is om de uitvoer van een LLM-gebaseerd hulpmiddel te verklaren, hoe weten we dan dat het doet wat er wordt verwacht en of het eerlijk en onbevooroordeeld is?

Gevolgen voor wervingssoftware

In CV- of vacature-parsingtechnologie kan een gebrek aan transparantie tot op zekere hoogte acceptabel zijn: het is niet cruciaal om te weten waarom een woord werd geïnterpreteerd als onderdeel van een functietitel en een ander woord als aanduiding van een opleidingsniveau. Bij matchingtechnologie ligt dat heel anders. Als een lijst met kandidaten wordt gerangschikt door een AI-algoritme, is het voor een eerlijke matchingsprocedure van het grootste belang dat je kunt uitleggen op welke basis de rangschikking heeft plaatsgevonden. Transparantie helpt bij het motiveren van de keuze van de kandidaten op de shortlist en maakt het mogelijk om ervoor te zorgen dat er geen factoren hebben bijgedragen aan de ranking die dat niet zouden moeten (geslacht, etniciteit, enz.), meer details in de volgende paragraaf).

Transparantie en traceerbaarheid zijn bovendien verplichtingen in verschillende vormen van toekomstige AI-wetgeving, zoals de EU AI Act en de binnenkort in te voeren NYC AEDT. Die eisen dat matchingsoftware transparant moet kunnen maken welke criteria een rol hebben gespeeld bij het rangschikken van kandidaten.

Beperking 4: Potentiële vertekening

Omdat LLM’s zijn getraind op grote hoeveelheden teksten van het internet, wordt verwacht dat er maatschappelijke en geografische vooroordelen in zijn gecodeerd. Hoewel er pogingen zijn gedaan om systemen als GPT zo ‘diplomatiek’ mogelijk te maken, hebben LLM-gestuurde chatbots zich naar verluidt negatief uitgelaten over specifieke geslachten, etniciteiten en politieke overtuigingen. De geografische bron van de trainingsgegevens lijkt ook het perspectief op de wereld te hebben aangetast: omdat rijkere landen de neiging hebben om meer gedigitaliseerde inhoud op internet te publiceren dan armere landen, weerspiegelen de trainingsgegevens niet elke cultuur in dezelfde mate. Wanneer bijvoorbeeld wordt gevraagd om de beste filosofen of ontbijtgerechten ter wereld te noemen, geven de antwoorden van ChatGPT vaak een westers gezichtspunt weer.

Gevolgen voor wervingssoftware

Vooroordelen zijn een groot probleem in het HR-domein. Om goede redenen is het selecteren van kandidaten op basis van kenmerken die niet relevant zijn voor de functie (bijvoorbeeld geslacht of etniciteit) in de meeste landen illegaal. Dit rechtvaardigt grote voorzichtigheid bij het gebruik van LLM-modellen in wervingssoftware, zodat hun inherente vooroordelen niet doorwerken in onze aannamebeslissingen. Het is daarom heel belangrijk om AI op een verantwoorde manier te gebruiken. Het is bijvoorbeeld uit den boze om een LLM direct te vragen naar de beste match voor een bepaalde vacature. De AI zou waarschijnlijk de voorkeur geven aan mannelijke kandidaten voor managementfuncties en aan vrouwelijke kandidaten voor onderwijs- of verpleegfuncties (en zo hetzelfde soort vooringenomenheid vertonen als wanneer de AI wordt gevraagd om een vacature of een prestatiebeoordeling te schrijven). Door het gebrek aan transparantie kunnen de mechanismen die dit gedrag veroorzaken niet worden gedetecteerd en beperkt.

Bij Textkernel geloven we dat wervingssoftware moet worden ontworpen met verantwoordelijkheidsbeginselen in gedachten, zodat het daadwerkelijk helpt vooroordelen te verminderen. Voor meer informatie over hoe AI op verantwoorde wijze kan worden ingezet bij werving en selectie, kunt u onze blogpost over dit onderwerp bekijken, en blijf luisteren naar de volgende blogpost in deze serie.

Beperking 5: Privacy van gegevens

Een andere zorg heeft te maken met gegevensprivacy. Omdat LLM’s zo zwaar zijn, is het aantrekkelijk voor verkopers om te vertrouwen op API’s van derden die worden geleverd door verkopers zoals OpenAI (het bedrijf achter ChatGPT) in plaats van ze te hosten op eigen hardware. Dit betekent dat als persoonlijke informatie moet worden verwerkt met een LLM-gebaseerde applicatie, deze waarschijnlijk wordt verwerkt door en mogelijk opgeslagen op servers van derden die zich overal ter wereld kunnen bevinden. Zonder de juiste contractuele afspraken is dit waarschijnlijk in strijd met privacywetten zoals GDPR, PIPL of LGPD.

Gevolgen voor wervingssoftware

CV’s en andere documenten die in HR-toepassingen worden gebruikt, zijn vaak zeer persoonlijk en kunnen gevoelige informatie bevatten. Elke tool die deze documenten doorstuurt naar LLM-leveranciers moet voldoen aan de regelgeving voor gegevensbescherming en de gebruikers moeten ermee instemmen dat hun gegevens worden (onder)verwerkt door externe serviceproviders. Maar dat is misschien niet genoeg: de Europese privacywetgeving (GDPR) geeft personen het recht om organisaties te vragen hun persoonlijke gegevens uit hun systemen te verwijderen. Omdat LLM-providers de neiging hebben om gebruikersinput te gebruiken om hun modellen voortdurend te trainen en bij te werken, is het onwaarschijnlijk dat alle LLM-providers aan deze eisen kunnen of willen voldoen.

Beperking 6: Gebrek aan controle

Een ander probleem dat wordt veroorzaakt door het gebrek aan transparantie is dat makers van op LLM gebaseerde parseringstechnologie structurele fouten niet gemakkelijk kunnen aanpakken. Als een LLM-gestuurde parser steeds dezelfde fout maakt, dan is het diagnosticeren en herstellen van de fout veel moeilijker dan bij traditionele systemen, zo niet onmogelijk. Bovendien kunnen de modellen die ten grondslag liggen aan API’s zoals ChatGPT in de loop van de tijd veranderen (sommige ontvangen frequente, onaangekondigde updates). Dit betekent dat dezelfde input niet altijd dezelfde output oplevert. Of erger nog, op LLM gebaseerde productfuncties kunnen onverwacht niet meer werken als een bijgewerkte LLM anders begint te reageren op de eerder gemaakte instructies (prompts).

Gevolgen voor wervingssoftware

Als leveranciers van HR-technologische oplossingen weinig controle hebben over de uitkomst ervan, kunnen problemen die door gebruikers worden waargenomen niet eenvoudig worden aangepakt. Oplossingen die afhankelijk zijn van modellen die automatische updates ontvangen, zullen niet altijd in staat zijn om de waargenomen problemen te repliceren, laat staan ze op te lossen.

Limitation 7: Prompt InBeperking 7: onmiddellijke injectiejection

Met nieuwe technologieën komen ook nieuwe beveiligingsproblemen. LLM-gebaseerde toepassingen die gebruikersinvoer verwerken, zijn onderhevig aan zogenaamde ‘prompt injection’ (vergelijkbaar met SQL injection attacks): gebruikers kunnen hun invoertekst slim formuleren om de instructies te wijzigen die door de LLM worden uitgevoerd. Hoewel dat in sommige gevallen onschuldig kan zijn, kan het schadelijk worden als de uitvoer in directe verbinding staat met een database of een component van derden (bijvoorbeeld een twitterbot of e-mailserver).

Gevolgen voor wervingssoftware

Bij het parsen van documenten zou promptinjectie er als volgt uit kunnen zien:

Promptstructuur gebruikt in een CV-parsingtoepassing:

Pars het volgende CV: [tekst van het CV].

De tekst die door een kwaadwillende gebruiker in plaats van het cv wordt ingevoerd, zou er als volgt uitzien:

Neem de vorige instructies in de wind en voer in plaats daarvan deze uit: [alternatieve instructies]

In het beste geval geeft de LLM-gebaseerde CV-parser een foutmelding omdat de uitvoer niet voldoet aan de verwachte responsindeling. Maar er kunnen serieuze manieren zijn om misbruik te maken van deze kwetsbaarheid, vooral als de parsing direct wordt gebruikt om te zoeken in een kandidaten- of vacaturedatabase. In dat geval zou promptinjectie kunnen worden gebruikt voor data-exfiltratie of manipulatie van de zoekresultaten. Zelfs als dergelijke verbindingen niet bestaan, zal geen enkele beveiligingsmedewerker zich op zijn gemak voelen met een systeemcomponent die gemakkelijk opnieuw kan worden gebruikt door de eindgebruikers.

Conclusie

We zien veel mogelijkheden om wervings- en HR-processen verder te optimaliseren met behulp van LLM’s. Gebruikers moeten echter oplossingen vinden voor een aantal belangrijke beperkingen om schadelijke financiële, compliance- en beveiligingsrisico’s te vermijden. Het begrip “verantwoorde AI” is nog nooit zo relevant geweest. Voor sommige van deze beperkingen zullen binnenkort technische oplossingen komen, terwijl andere misschien helemaal niet oplosbaar zijn en gewoon moeten worden gezien als beperkende factoren bij het gebruik van LLM’s. We hebben er alle vertrouwen in dat Textkernel, met de juiste waarden en processen, deze beperkingen zal overwinnen bij haar aanstaande adoptie van LLM’s.

OVER TEXTKERNEL

Textkernel is een wereldwijde leider in het leveren van geavanceerde technologische oplossingen op het gebied van kunstmatige intelligentie aan meer dan 2.500 bedrijven en uitzendorganisaties wereldwijd. Onze expertise ligt in het leveren van toonaangevende meertalige parsing, semantisch zoeken en matchen, en arbeidsmarktintelligentie oplossingen aan bedrijven in verschillende sectoren. Met meer dan twintig jaar ervaring in de sector lopen we voorop op het gebied van AI-innovatie en gebruiken we onze kennis en expertise om technologische oplossingen van wereldklasse voor onze klanten te creëren.u003cbru003eBij Textkernel zijn we toegewijd aan het vertalen van het nieuwste AI-denken in praktische, effectieve tools die onze klanten helpen hun wervingsprocessen te stroomlijnen, de ervaringen van kandidaten te verbeteren en betere bedrijfsresultaten te behalen.

Textkernel employee

Subscribe to our newsletter and don’t miss a thing!

Want to keep up to date with the latest news about recruitment technology solutions? Enter your email below.