Zal AI-model Mythos echt zo’n goudmijn zijn voor hackers?

nieuwsbriefBroncode

Broncode Deze week kondigde Anthropic een AI-model aan dat bijzonder goed zou zijn in het herkennen van kwetsbaarheden in software. Zo goed dat Anthropic ernstige risico’s ziet en het model voorlopig achter de hand houdt. Hoe serieus is het gevaar?

AI die zo goed is in het herkennen van kwetsbaarheden in software dat het zelfs bugs vindt die al decennialang bestonden zonder opgemerkt te worden: volgens Anthropic is het zo ver. Deze week kondigde de AI-maker een nieuw model aan, Claude Mythos, dat bij testen al „duizenden zeer ernstige kwetsbaarheden” zou hebben ontdekt in „alle veelgebruikte besturingssystemen en webbrowsers”.

Nieuwsbrief Broncode

Je leest hier een artikelversie van onze nieuwsbrief NRC Broncode. Wekelijks schrijven wij over technologische ontwikkelingen die op de redactievloer tot opwinding leiden. Inschrijven (voor Plus-abonnees) doe je hier:

Inschrijven voor NRC Broncode

Mythos blijkt ook nog eens zeer kundig in het maken van panklare software om misbruik te maken van die bug. Dat zou het model een goudmijn van epische proporties kunnen maken voor kwaadwillende hackers. Reden voor Anthropic om het model (vooralsnog) niet publiekelijk beschikbaar te maken.

Alleen een select groepje van veertig grote techontwikkelaars heeft nu toegang gekregen, zodat zij kunnen onderzoeken welke kwetsbaarheden er in hun systemen zitten. Dat clubje is een soort monsterverbond van concurrenten: Apple, Google, Microsoft en de Linux Foundation zitten erbij, waarmee de makers van alle grote computerplatforms zijn gedekt. Ook Amazon en netwerktechbedrijven Cisco en Broadcom hebben toegang.

Hoe serieus is het gevaar van dit nieuwe model? Dat is lastig te zeggen. Zolang Anthropic het model niet openbaart, vallen de claims die het bedrijf maakt ook niet te verifiëren. Anthropic zegt zelf dat van die duizenden gevonden fouten maar 198 stuks door mensen zijn gecontroleerd.

Mythos vindt volgens Anthropic veel zogeheten zero-days: lekken die niet al eerder bekend werden en daardoor ook nog niet dicht zijn. Dat zou erop wijzen dat het model daadwerkelijk in staat is om gaten te vinden, en niet simpelweg bekende kennis over lekken opdist uit zijn trainingsdata. (Bekende kwetsbaarheden zijn overigens niet per definitie onschadelijk: softwaremakers moeten ze vervolgens nog dichten, en gebruikers moeten vervolgens updates installeren. Dat doet niet iedereen even braaf.)

Anthropic waarschuwt ook dat het een kwestie van tijd is voor vergelijkbare mogelijkheden ook in andere AI-modellen zitten. Niet elke AI-maker is bovendien even terughoudend in het uitbrengen van AI die schade kan aanrichten. De verdedigers krijgen van het bedrijf nu een voorsprong, maar aanvallers zullen uiteindelijk dezelfde middelen in handen krijgen.

„We hebben Mythos Preview niet expliciet getraind op deze mogelijkheden”, schrijft Anthropic in een blogpost. „Ze kwamen bovendrijven als gevolg van algemene verbeteringen in het programmeren, redeneren en autonoom handelen.”

Anthropic benadrukt hoe lang sommige van de bugs onopgemerkt waren gebleven, terwijl duizenden mensen die code door de jaren heen hebben bekeken. Maar ook is dat dus code die nog door mensen is geschreven.

Dat is zeldzamer geworden. Binnen de softwareindustrie wordt AI volop gebruikt om code te schrijven. Voor projecten waar niet heel lang geleden nog honderd dure programmeurs nodig waren, heb je nu maar een paar mensen en een AI-tool nodig.

Het maakt het mogelijk om veel sneller software te bouwen, maar daardoor wordt er ook veel méér code geschreven. Zoveel dat het niet meer te doen is om al die code door een mens te laten nalopen op fouten en kwetsbaarheden – voor zover de AI-gegenereerde code überhaupt nog voor een mens te doorgronden is.

Dat maakt je afhankelijk van AI-tools om kwetsbaarheden erin te herkennen. De Amerikaanse beveiligingsexpert Bruce Schneier kijkt daar met een optimistische blik naar. Hij voorziet een toekomst waarin AI-gegenereerde code van zichzelf al een stuk veiliger zou kunnen worden.

Voor kwaadwillenden is veelgebruikte software hacken het interessantst: daarmee kun je potentieel het meeste schade aanrichten. Wat dat betreft zit er nog een boeiende kant aan deze ontwikkeling: vibecoding. Daar schreef ik eerder al een editie van deze nieuwsbrief over: in normalemensentaal AI opdracht geven om maatwerksoftware te bouwen.

Vibecoding bleek erg verslavend, ik heb inmiddels meer vrije tijd in het bouwen van een eigen notitie-app gestoken dan ik durf toe te geven. Maar hoe gepolijst die er ook uitziet, gebruiken doe ik hem nog altijd niet. Ik weet nog altijd niet of ik hem wel genoeg vertrouw, omdat ik niet de kennis heb om te beoordelen of mijn app wel veilig genoeg in elkaar zit.

Volgens Schneier hebben gevibecodede apps wel een voordeel. Ze zitten allemaal net anders in elkaar, waardoor een lek in de ene app niet zomaar herbruikbaar is om een andere app te kraken. Bovendien hebben ze veelal zo weinig gebruikers dat ze voor hackers oninteressant zijn om er energie in te steken. Security through obscurity.

Home

Nieuwsbrief Broncode

Schrijf je in voor de nieuwsbrief NRC Broncode

Kunstmatige intelligentie

Lees meer