In het hoger onderwijs zijn er examens, in het middelbaar zijn ze al achter de rug. Wie die examens verbetert, wil dat zo eerlijk mogelijk doen. Zou AI daarbij niet kunnen helpen?
Je kent ze ongetwijfeld. Leerkrachten die met een luide zucht een dik pak examens mee naar huis zeulen om te verbeteren. Vaak goed zichtbaar, want het bewijs dat je als leerkracht veel meer doet dan 20 uren lesgeven per week. Je kan er prat op gaan dat later die avond de eerste foto’s op social media verschijnen: een mooi aangeklede bureau met een stapel examens, rode balpen en een tot de rand gevuld glas rode wijn. Hashtag #RodePenEnRodeWijn. En maar ‘likes’ scoren.
Maar vergis je niet: het verbeteren van examens is een kunst. De pedagogiek schrijft voor dat je naast het opstellen van een examen, ook een set van modelantwoorden nodig hebt en een duidelijke verbetersleutel per vraag. Op elk moment moet je immers kunnen verantwoorden hoe en waarom een leerling een 8, 12 of 15/20 behaalt. Het zwaard van Damocles (de beroepsprocedure) hangt hierbij dreigend boven je hoofd.
Tot zo ver de theorie. In de praktijk zijn er een aantal uitdagingen. Zo is het taalgebruik van leerlingen en studenten vaak abominabel. Neen, ik heb het al lang niet meer over dt-fouten, maar wel over slechte zinsconstructies, spreektaal en vaak originele, zelf-uitgevonden terminologie. Daarnaast lezen ze vaak niet goed de vraag. Omschrijf en geef een voorbeeld: en je vindt slechts een van de twee terug.
Het resultaat is dat je als leerkracht heel veel veronderstelt (“ze zullen dit wel bedoelen”) bij het verbeteren. Een strikte lezing zou immers tot een slachtveld van gebuisden leiden. Je kan je wel voorstellen dat naarmate de bodem van dat glas rode wijn in zicht komt, onze leerkracht wat losser zal omgaan met assumpties. Het resultaat is dat na het verbeteren van een honderdtal examens, het heel moeilijk is perfecte objectiviteit en betrouwbaarheid te garanderen.
Enter ChatGPT, het op artificiële intelligentie gebaseerde taalmodel dat de voorbije 12 maanden aan een hels tempo de wereld veroverde. We besloten een klein (niet-wetenschappelijk) experiment te doen en een examen te laten verbeteren én scoren door ‘AI Gepetto’ versus een leerkracht van vlees en bloed.
In meer dan 80 procent van de examens waren de scores en motivatie van ‘AI Gepetto’ versus de leerkracht identiek. Nog straffer is dat in de 20 procent van de gevallen waarin het oordeel verschilde, de leerkracht bij het nalezen van de feedback en motivatie van ChatGPT sterk geneigd zou zijn de eigen score aan te passen.
Is dit nu de toekomst? Wel, eerst zullen er experimenten op grotere schaal moeten komen, maar het staat buiten kijf dat ChatGPT nu al een waardevolle sparringpartner is voor leerkrachten. In de nabije toekomst zullen leeromgevingen ontstaan waarin elektronisch wordt geëvalueerd (en dus weg van papieren examens) en achterliggend een door artificiële intelligentie ontwikkelde verbetersleutel zit, die automatisch verbetert, scoort en feedback geeft. Perfect objectief, betrouwbaar en zonder dat fotogenieke glas rode wijn.
Contact: maarten.thiry@pxl.be