|

Werving & Selectie·Recruitment

Welke selectiemethode werkt echt? 85 jaar onderzoek samengevat

Schmidt & Hunter analyseerden 85 jaar onderzoek naar selectiemethoden. Gestructureerde interviews (.51) en assessments (.54) voorspellen werkprestatie significant beter dan CV-screening en vrije gesprekken.

12 min leestijd·Gepubliceerd: 16 februari 2026

Samenvatting

  • De meeste organisaties selecteren op CV (werkervaring .18, opleiding .10) en een ongestructureerd gesprek (.38). Dat benut minder dan de helft van de beschikbare voorspelkracht.
  • De drie krachtigste combinaties zijn: cognitieve test + integrity test (.65), cognitieve test + gestructureerd interview (.63), en cognitieve test + work sample (.63).
  • Al door je bestaande gesprekken te structureren stijgt de validiteit van .38 naar .51. Voeg een assessment toe en je zit in de top 3 van bewezen combinaties.
  • Het verschil in productiviteit tussen een gemiddelde en bovengemiddelde medewerker is minimaal 40% van het jaarsalaris. Betere selectie vertaalt zich direct in betere prestaties.

Waarom dit onderzoek ertoe doet

In 1998 publiceerden Frank Schmidt en John Hunter een meta-analyse in Psychological Bulletin die 85 jaar aan onderzoek naar personeelsselectie samenvatte. Het artikel, "The Validity and Utility of Selection Methods in Personnel Psychology", is sindsdien een van de meest geciteerde papers in de HR-psychologie.

De centrale vraag was simpel: welke selectiemethoden voorspellen daadwerkelijk hoe goed iemand gaat presteren in een baan? En welke methoden die veel bedrijven gebruiken, werken eigenlijk niet?

Het antwoord was gebaseerd op duizenden studies en miljoenen werknemers. Niet op meningen, niet op buikgevoel, maar op data. En de conclusies zijn voor veel HR-professionals verrassend.

Wat betekent "validiteit" in gewone taal?

Validiteit klinkt als een statistisch begrip, maar het idee is eenvoudig. Het is het antwoord op de vraag: als ik deze methode gebruik om iemand te selecteren, hoe goed voorspelt dat dan hoe die persoon gaat presteren?

Een validiteit van .00 betekent: de methode voorspelt niets. Je had net zo goed een munt kunnen opgooien. Een validiteit van 1.00 zou betekenen: de methode voorspelt perfect. Dat bestaat niet in de praktijk.

Een validiteit van .51 (gestructureerd interview) betekent: deze methode benut 51% van de theoretisch maximale voorspelkracht. Dat klinkt misschien bescheiden, maar in de context van menselijk gedrag is het uitzonderlijk hoog.

  • Ter vergelijking: het verband tussen roken en longkanker heeft een correlatie van ongeveer .40. Niemand twijfelt eraan dat roken longkanker veroorzaakt. Een selectiemethode met een validiteit van .51 heeft een sterker statistisch verband dan dat.

Het praktische gevolg: als je een methode met validiteit .51 gebruikt in plaats van willekeurig aannemen, neem je gemiddeld significant betere medewerkers aan. Over honderden aannames vertaalt dat zich in miljoenen euro's aan productiviteitsverschil.

De realiteit: hoe de meeste organisaties selecteren

Laten we eerlijk zijn. De meeste organisaties selecteren zo: een recruiter screent CV's op werkervaring en opleiding, nodigt een shortlist uit voor een gesprek, en beslist op basis van de klik. Dat voelt logisch. Maar wat zegt de wetenschap over deze aanpak?

  • CV-screening op werkervaring (validiteit .18): na 5 jaar op dezelfde functie voorspelt extra ervaring bijna niets meer over toekomstige prestaties. Toch vragen de meeste vacatures "minimaal 7-10 jaar ervaring". Schmidt en Hunter vonden dat de relatie tussen ervaring en prestatie na 5 jaar volledig afvlakt.
  • CV-screening op opleiding (validiteit .10): binnen een groep sollicitanten voor dezelfde functie voorspelt het verschil in opleidingsjaren bijna niets. Iemand met een master presteert niet per definitie beter dan iemand met een bachelor.
  • Ongestructureerd sollicitatiegesprek (validiteit .38): geen vaste vragen, geen vaste scoring. De interviewer vormt een indruk op basis van een vrij gesprek. Twee interviewers die dezelfde kandidaat spreken, komen regelmatig tot tegengestelde conclusies.

Combineer je deze drie methoden? Dan benut je slechts een fractie van de beschikbare voorspelkracht. Je laat het grootste deel van je selectienauwkeurigheid op tafel liggen. En dat kost geld: elke misfit die je aanneemt, kost je organisatie tienduizenden euro's aan productiviteitsverlies, onboarding en eventueel verloop.

De ranglijst: wat voorspelt werkprestatie echt?

Schmidt en Hunter rangschikte 19 selectiemethoden op voorspellende validiteit. Hieronder de belangrijkste, gegroepeerd naar effectiviteit:

--- Hoge voorspellende waarde ---

  • Work sample tests (validiteit .54): de kandidaat voert een deel van het daadwerkelijke werk uit. De hoogste validiteit van alle losse methoden, maar alleen bruikbaar als de kandidaat het werk al kent.
  • Gestructureerde interviews (validiteit .51): elke kandidaat krijgt dezelfde vragen, gescoord op dezelfde criteria. Even voorspellend als cognitieve tests, en een wereld van verschil met het ongestructureerde gesprek. Lees meer over de STAR-methode en BARS-scoring.
  • Cognitieve tests / GMA (validiteit .51): meten algemeen denkvermogen. De best onderzochte methode met duizenden studies. Capaciteitentests worden vaak afgenomen als onderdeel van een e-assessment of een live assessment center.
  • Integrity tests (validiteit .41): meten betrouwbaarheid en conscientiousness. Correleren niet met intelligentie, waardoor ze veel toevoegen in combinatie met cognitieve tests.

--- Matige voorspellende waarde ---

  • Ongestructureerde interviews (validiteit .38): het "gewone sollicitatiegesprek" zonder vaste structuur. Significant minder voorspellend dan gestructureerde interviews. Toch is dit de meest gebruikte selectiemethode ter wereld.
  • Traditionele assessment centers (validiteit .37): rollenspellen, groepsopdrachten en postbakoefeningen. Lager dan gestructureerde interviews of cognitieve tests. Een modern assessment center dat deze methoden combineert, scoort aanzienlijk hoger.
  • Referenties (validiteit .26): beperkte waarde, mede door juridische beperkingen op wat vorige werkgevers mogen delen.

--- Lage voorspellende waarde ---

  • Werkervaring in jaren (validiteit .18): de meest gebruikte filter in vacatureteksten. Maar na 5 jaar op dezelfde functie voorspelt het vrijwel niets meer.
  • Opleiding in jaren (validiteit .10): bepaalt welk niveau baan iemand kan krijgen, maar voorspelt binnen een functie nauwelijks wie beter presteert.
  • Interesses (validiteit .10): mensen kiezen banen die bij hun interesses passen, maar eenmaal in de baan bepalen interesses niet hoe goed ze presteren.
  • Leeftijd (validiteit -.01): geen enkel verband met werkprestatie.

De conclusie is ongemakkelijk maar helder: de twee methoden waar de meeste organisaties op vertrouwen, CV-screening (.10-.18) en het ongestructureerde gesprek (.38), staan in de onderste helft van de ranglijst.

De kracht van combineren

De belangrijkste bevinding van Schmidt en Hunter is niet welke methode het beste werkt, maar welke combinaties het beste werken. Een enkele methode is nooit genoeg.

De drie sterkste combinaties voor het voorspellen van werkprestatie:

  • Cognitieve test + integrity test: gecombineerde validiteit van .65. De hoogste van alle onderzochte combinaties. Dit komt doordat integrity tests (die vooral conscientiousness meten) niet correleren met intelligentie. Ze meten iets fundamenteel anders, waardoor ze veel toevoegen. Cognitieve tests worden vaak afgenomen via een e-assessment.
  • Cognitieve test + gestructureerd interview: gecombineerde validiteit van .63. Het interview meet deels andere dingen dan de cognitieve test: werkervaring, persoonlijkheid, communicatie. Samen bereiken ze 63% van de maximale voorspelkracht. Lees meer over het gestructureerd interview.
  • Cognitieve test + work sample: gecombineerde validiteit van .63. Zeer sterk, maar alleen bruikbaar voor ervaren kandidaten.
  • Zet dit af tegen de standaardaanpak: CV-screening op ervaring (.18) en opleiding (.10), gevolgd door een ongestructureerd gesprek (.38). Die combinatie benut minder dan de helft van de voorspelkracht die beschikbaar is. Het verschil tussen .38 en .65 klinkt klein, maar vertaalt zich in tienduizenden euro's per aanname aan productiviteitsverschil.

De overstap hoeft niet radicaal te zijn. Al door je bestaande gesprekken te structureren (van .38 naar .51) en een assessment toe te voegen, spring je van de onderste helft naar de top 3. Lees meer over hoe je een effectief werving- en selectieproces inricht.

De economische impact van betere selectie

Schmidt en Hunter berekenden ook wat betere selectie oplevert in euro's. De kern: het verschil in productiviteit tussen een gemiddelde en een bovengemiddelde medewerker is minimaal 40% van het jaarsalaris.

Bij een salaris van EUR 60.000 betekent dat: een medewerker op het 84e percentiel produceert minstens EUR 24.000 meer per jaar dan een gemiddelde medewerker. Het verschil tussen een ondergemiddelde en een bovengemiddelde medewerker is het dubbele: EUR 48.000 per jaar.

Voor managementfuncties en professionals is het verschil nog groter: 48% van het gemiddelde salaris. Bij een salaris van EUR 80.000 is dat EUR 38.400 per jaar verschil.

Als je 10 mensen per jaar aanneemt en overstapt van ongestructureerde interviews (.38) naar een combinatie van gestructureerd interview + assessment (.63), verbeter je je selectie met 66%. Over die 10 aannames kan dat honderdduizenden euro's aan productiviteitsverschil betekenen. Per jaar.

Dit is geen theorie. Het is wiskunde, gebaseerd op 85 jaar aan data.

Wat betekent dit voor jouw organisatie?

De meeste organisaties selecteren op basis van CV-screening (opleiding + ervaring), een ongestructureerd interview, en buikgevoel. Volgens Schmidt en Hunter is dat een combinatie met lage voorspellende waarde.

De stap naar betere selectie hoeft niet groot te zijn:

  • Stap 1: Structureer je interviews. Gebruik vaste vragen per competentie, met doorvraag-suggesties en beoordelingscriteria. Dit alleen al verhoogt de validiteit van .38 naar .51. Dat is een verbetering van 34%. Lees hoe je dit opzet in ons artikel over gestructureerd interviewen.
  • Stap 2: Voeg assessments toe. Een cognitieve test of persoonlijkheidsassessment meet dingen die het interview niet meet. De combinatie is sterker dan elk apart. Een geintegreerd assessment center dat cognitieve tests, persoonlijkheidsvragenlijsten en een gestructureerd interview combineert, bereikt de hoogste voorspellende waarde. Lees meer over assessments in selectie.
  • Stap 3: Baseer alles op het functieprofiel. De interviewvragen, de assessmentcriteria en de scoringscriteria moeten allemaal zijn afgeleid van dezelfde competenties. Dat maakt ze vergelijkbaar en combineerbaar. Lees hoe je dit opzet vanuit het functiehuis.

Het resultaat: een selectiebeslissing die is gebaseerd op meerdere databronnen, allemaal gekoppeld aan dezelfde competenties. Dat is wat Schmidt en Hunter "de optimale combinatie" noemen.

Veelgemaakte fouten in selectie

Op basis van het onderzoek van Schmidt en Hunter zijn dit de meest voorkomende fouten:

Te veel gewicht op werkervaring. Na 5 jaar op dezelfde functie voorspelt extra ervaring bijna niets meer. Toch vragen de meeste vacatures "minimaal 7-10 jaar ervaring".

Ongestructureerde interviews als enige methode. Een vrij gesprek voelt informatief, maar de voorspellende waarde is beperkt. Twee interviewers die dezelfde kandidaat ongestructureerd interviewen, komen vaak tot verschillende conclusies.

Geen assessments gebruiken. Veel organisaties zien assessments als "te zwaar" of "te duur". Maar de data is duidelijk: assessments zijn een van de sterkste voorspellers van werkprestatie.

Selecteren op opleiding. Binnen een groep sollicitanten voor dezelfde functie voorspelt het verschil in opleidingsjaren bijna niets. Iemand met een master presteert niet per definitie beter dan iemand met een bachelor in dezelfde functie.

Buikgevoel vertrouwen. Het menselijk brein is slecht in het voorspellen van toekomstig gedrag op basis van een gesprek van 45 minuten. Gestructureerde methoden compenseren voor de biases die we allemaal hebben.

Veelgestelde vragen

Is dit onderzoek nog relevant? Het is uit 1998.

Ja. De bevindingen zijn gebaseerd op 85 jaar aan cumulatief onderzoek en zijn sindsdien herhaaldelijk bevestigd door recentere meta-analyses. De rangorde van selectiemethoden is stabiel gebleven. Schmidt en Hunter publiceerden in 2016 een update die de oorspronkelijke conclusies bevestigde en verfijnde.

Wat is het verschil tussen validiteit en betrouwbaarheid?
  • Betrouwbaarheid gaat over consistentie: levert de methode steeds hetzelfde resultaat op? Validiteit gaat over accuratesse: meet de methode wat ze beoogt te meten? Een methode kan betrouwbaar zijn zonder valide te zijn (consistent het verkeerde meten), maar niet andersom.
Geldt dit onderzoek ook voor de Nederlandse arbeidsmarkt?

Ja. Schmidt en Hunter toonden aan dat de validiteit van selectiemethoden niet situatie-specifiek is. De bevindingen gelden over landen, sectoren en functieniveaus heen. De rangorde van methoden is universeel.

Hoe verhoudt een gestructureerd interview zich tot AI-gegenereerde interviewvragen?

De voorspellende waarde zit in de structuur, niet in wie de vragen bedenkt. AI kan helpen om snel gestructureerde vragen te genereren op basis van competenties en gedragsindicatoren. De interviewer voert het gesprek, de AI levert het startpunt.

Scoren assessment centers echt zo laag (.37)?

Die .37 geldt voor traditionele assessment centers met rollenspellen en groepsopdrachten. Een modern assessment center dat cognitieve tests, persoonlijkheidsvragenlijsten en een gestructureerd interview combineert, bereikt een gecombineerde validiteit boven .63. Het gaat niet om het label "assessment center", maar om welke methoden erin zitten.

Wat is het verschil tussen meten of iemand iets leuk vindt en meten of iemand er aanleg voor heeft?

Dat is precies het verschil tussen interesse-inventarisaties en persoonlijkheidsassessments. Schmidt en Hunter onderzochten beroepsinteresses in de traditie van Holland (RIASEC): vind je het leuk om met data te werken, met mensen, met je handen? Die voorspellen welke baan je kiest, maar niet hoe goed je presteert. Validiteit: .10.

De Big Five (NEO) meet iets fundamenteel anders: niet wat je leuk vindt, maar welke persoonlijkheidstrekken je hebt. Conscientiousness (zorgvuldigheid, doorzettingsvermogen) heeft een validiteit van .31. Integrity tests, die volgens Schmidt en Hunter grotendeels conscientiousness, agreeableness en emotionele stabiliteit meten, scoren .41. Dat zijn drie van de vijf Big Five domeinen, en ze behoren tot de sterkste niet-cognitieve voorspellers.

Een persoonlijkheidsassessment dat deze traits vertaalt naar competentiepotentieel en matcht met de eisen van een rol, meet dus aanleg, niet interesse. Het verschil: "Vind je het leuk om met mensen te werken?" versus "Heb je de persoonlijkheidsbasis om effectief samen te werken?" Dat eerste voorspelt je beroepskeuze. Dat tweede voorspelt je prestatie.

Gerelateerde artikelen

Volgende stap

Wil je dit vertalen naar de praktijk? Bekijk hoe Talensa rolprofielen, meten en ontwikkeling met elkaar verbindt.

Wil je zien hoe Talensa dit in de praktijk aanpakt?

Ontdek hoe de modules samenwerken: van rolprofielen en meten tot ontwikkeling en voortgang.

Al 50+ organisaties vertrouwen op Talensa