ChatGPT komt overtuigend voor de dag, maar 8-jarigen redeneren en denken veel beter

De antwoorden die AI geeft, zijn vaak zeer overtuigend en indrukwekkend. Maar als het om puur redeneren aankomt, vallen chatbots door de mand. Kinderen van 8 doen het dan beter.

is techredacteur van de Volkskrant, gespecialiseerd in de impact van kunstmatige intelligentie op de maatschappij.

Kinderen zijn beter in staat denkpuzzels op te lossen dan populaire chatbots als ChatGPT of Claude, blijkt uit nieuw onderzoek van de Universiteit van Amsterdam en het Santa Fe Institute. Althans: als het gaat om redeneren met nieuwe informatie.

De studie, die in januari in het tijdschrift Transactions of the Association of Computational Linguistics verschijnt, werpt nieuw licht op de claims van de grote commerciële AI-labs dat hun LLM’s (grote taalmodellen) in rap tempo beter worden in redeneren en denken.

Kinderen, volwassenen en de chatbots moesten letterreeksen voorspellen die steeds veranderden volgens één of meer regels. Bijvoorbeeld: als de lettercombinatie ‘ab’ verandert in ‘ac’, wat moet er dan gebeuren met ‘gh’? Vervolgens moesten ze dezelfde soort logica toepassen voor letters in het Griekse alfabet en een alfabet met totaal onbekende symbolen.

Slecht in symbolenalfabet

Het Latijnse alfabet is ruimschoots vertegenwoordigd in de trainingsdata van de taalmodellen, inclusief voorbeelden van dit soort analogieën. Het Griekse alfabet is veel minder aanwezig en voor de symbolen uit de studie geldt dat nog veel meer.

Het contrast in de resultaten is als gevolg hiervan groot. Waar de chatbots prima presteren op bekend terrein (het Latijnse alfabet), daar laten ze het elders afweten. Vooral bij het symbolenalfabet stort de AI-prestatie in.

Kinderen hebben hier gemiddeld 67 procent van de opgaven goed (zelfs beter dan de score van 62 procent bij het Latijnse alfabet), maar GPT-4o (het onderzochte taalmodel van ChatGPT) zakte van 85 naar 48 procent.

Volgens hoofdonderzoeker Claire Stevenson laat dit zien dat er een wezenlijk verschil is tussen menselijk en kunstmatig redeneren: ‘Zelfs jonge kinderen begrijpen intuïtief dat een alfabet een geordende reeks is.’ AI-modellen missen volgens haar dat abstracte inzicht: ‘Ze herkennen vooral patronen in situaties die ze al kennen. Zodra de context verandert, kunnen ze de onderliggende structuur niet meer toepassen.’

Dommekracht

Kennis flexibel toepassen in nieuwe situaties blijft dus voorlopig een kenmerk van menselijke intelligentie, concluderen de onderzoekers, waarbij het de vraag is of AI dit ooit zal kunnen, gezien zijn beperkte vermogen tot generalisatie.

Mark Dingemanse, hoogleraar AI aan de Radboud Universiteit en niet betrokken bij deze studie, noemt het een goed uitgevoerd onderzoek met een helder resultaat. Terwijl mensen in hun leven slechts een ‘minuscule fractie’ van de hoeveelheid tekst onder ogen krijgen die door die LLM’s zijn gezien, voeren ze toch de lastigste taak uit het onderzoek stukken beter uit, ziet Dingemanse. ‘Het gaat bij deze LLM’s niet om denken, maar om dommekracht – ze voltooien hun opdracht op fundamenteel andere wijze.’

Mensen zien makkelijk patronen in reeksen. Dat leidt er misschien ook toe dat ze extra ontvankelijk zijn voor het idee dat de woorden van ChatGPT met intentie zijn geformuleerd, vermoedt Dingemanse. ‘Terwijl het uiteindelijk gewoon woordenreeksen zijn, geplukt uit een wolk van waarschijnlijkheid, en wij het zijn die de puzzel leggen en de betekenis erin zien.’

Alles over tech vindt u hier.

Lees ook

Geselecteerd door de redactie

Lees hier alle artikelen over dit thema

Source: Volkskrant

Home

ChatGPT komt overtuigend voor de dag, maar 8-jarigen redeneren en denken veel beter

Slecht in symbolenalfabet

Dommekracht

Lees ook