Chatbots die het werk van chatbots beoordelen? Het is verleidelijk

Onderzoeken die onlangs ingediend zijn op vier conferenties over machine learning waren opvallend vaak ‘prijzenswaardig’, ‘innovatief’, ‘nauwgezet’, ‘ingewikkeld’, ‘opmerkelijk’ en ‘veelzijdig’. Dat vond althans de AI-chatbot die de feedback op de onderzoeken schreef. Of een mens het werk ook zo zou beoordelen is onduidelijk.

Peerreviews zijn een belangrijke schakel in het wetenschappelijke publicatieproces. Vakgenoten beoordelen een onderzoek inhoudelijk: is de gebruikte methode wel correct toegepast, moet er misschien nog meer werk uitgevoerd worden voor een bepaalde conclusie getrokken kan worden? Gedegen reviews zijn dus van belang om de kwaliteit van de wetenschap hoog te houden. Dat maakt inzet van chatbots voor dit werk discutabel.

Die kunnen immers antwoorden verzinnen en niemand weet precies wanneer dat gebeurt. Dat chatbots toch veelvuldig ingezet worden om papers te reviewen, blijkt uit onderzoek van computerwetenschappers van Stanford University, in de VS. De paper die ze erover schreven is overigens nog niet gereviewd.

Hun onderzoek valt uiteen in twee delen. Eerst keken ze naar peerreviews van ingediende papers voor drie recent gehouden conferenties en één aankomende conferentie, alle in vakgebieden die met AI te maken hebben (over deep learning , neurale informatieverwerking, robotleren en natuurlijke taalverwerking). Daarnaast bekeken ze peerreviews van vijftien tijdschriften in het portfolio van Nature .

Ze selecteerden vooraf honder.