ChatGPT van OpenAI heeft beveiligingsmechanismen die moeten voorkomen dat gebruikers gevaarlijke informatie, zoals instructies voor het maken van massavernietigingswapens, opvragen. Maar die beschermingen werken niet altijd zoals bedoeld. NBC News ontdekte dat sommige OpenAI-modellen konden worden omzeild en instructies gaven voor het maken van explosieven, chemische en biologische wapens, en zelfs nucleaire bommen.
In tests van vier geavanceerde OpenAI-modellen konden twee, die ook in ChatGPT worden gebruikt, worden gemanipuleerd met een zogenaamde "jailbreak". Dit is een specifieke instructie of set instructies die gebruikers naar de chatbot kunnen sturen die ervoor zorgen dat de chatbot denkt dat het toch oké is om bepaalde 'verbode' informatie te verstrekken en zo de veiligheidsregels te omzeilen. Hoewel OpenAI voortdurend werkt aan het verbeteren van de veiligheid van hun modellen, is deze specifieke kwetsbaarheid nog niet verholpen.
OpenAI heeft aangegeven dat het vragen om schadelijke informatie in strijd is met hun gebruiksvoorwaarden. Gebruikers die herhaaldelijk dergelijke vragen stellen, kunnen worden geblokkeerd. Desondanks zijn de risico’s van dergelijke kwetsbaarheden groot, vooral nu AI-modellen steeds geavanceerder worden. NBC News testte ook modellen van andere toonaangevende AI-bedrijven zoals Anthropic en Google, maar deze weigerden de gevaarlijke informatie te verstrekken.
Hoewel GPT-5, het vlaggenschipmodel van ChatGPT, niet gevoelig bleek voor de gebruikete jailbreak-methode, konden lichtere versies zoals GPT-5-mini wel worden misleid. Bij frequente vragen schakelt GPT-5 soms over naar deze snellere modellen, die minder beveiligd zijn. Twee open-source modellen die gebruikers thuis lokaal op hun eigen systemen kunnen draaien - oss20b en oss120b - zijn open-source en veel kwetsbaarder, wat onderzoekers zorgen baart.
Deskundigen waarschuwen dat AI-chatbots een nieuwe bron van expertise kunnen bieden voor kwaadwillenden, omdat ze toegang bieden tot informatie die voorheen moeilijk te verkrijgen was. Deze chatbots kunnen fungeren als geduldige leraren, wat het risico vergroot dat amateurs gevaarlijke projecten kunnen uitvoeren.
Hoewel OpenAI en andere AI-bedrijven meerdere beveiligingslagen hebben ingebouwd, hebben ze na verspreiding geen enkele controle meer over open-source modellen. Dit maakt het mogelijk voor gebruikers om deze modellen aan te passen en beveiligingsmaatregelen te omzeilen. Er zijn eenvoudige tools die in enkele uren zo'n open-source model ontdoen van alle ingebouwde beveiligingen.
Er is momenteel geen specifieke federale regelgeving in de Verenigde Staten om AI-modellen te controleren, wat betekent dat de industrie grotendeels op zelfregulering vertrouwt. Deskundigen dringen aan op een onafhankelijke toezichthouder om te waarborgen dat AI-bedrijven voldoende maatregelen nemen om misbruik te voorkomen.
Hoewel grote AI-bedrijven zoals OpenAI proactief veiligheidsmaatregelen hebben genomen, kan niet worden vertrouwd op de goede wil van alle bedrijven in de sector om deze problemen op te lossen. Of het probleem ooit volledig kan worden opgelost is eveneens onduidelijk. Inherent aan LLM's (Large Language Modellen) is dat ze zelf redeneren en daar zal waarschijnlijk altijd - of in ieder geval de komende jaren - geen volledig sluitende beveiliging op mogelijk zijn.
ChatGPT geeft instructies over vervaardiging biowapens (Afbeelding: Google Gemini)
Source: Fok frontpage