Open-weight large language models zoals Mistral, Meta’s Llama, Google Gemma en Alibaba Qwen blijken structureel kwetsbaar voor zogeheten multi-turn aanvallen. Dat blijkt uit wereldwijd onderzoek van Cisco, waarin acht veelgebruikte open AI-modellen uit de Verenigde Staten, Europa en China zijn geanalyseerd.
Bij multi-turn aanvallen benaderen aanvallers een AI-model via een reeks zorgvuldig opgebouwde interacties. Door stap voor stap de context of rol van het model te verschuiven, kunnen ingebouwde veiligheidsmaatregelen worden omzeild. Volgens Cisco zijn deze aanvallen aanzienlijk effectiever dan traditionele single-turn aanvallen, met een succesratio die twee tot tien keer hoger ligt.
Uit het onderzoek blijkt dat het slagingspercentage van multi-turn aanvallen varieert van 26 tot 93 procent, vooral bij langere gesprekken. In de praktijk kan dit leiden tot het prijsgeven van gevoelige bedrijfsinformatie, interne processen of klantgegevens. Daarnaast kunnen modellen worden misleid tot het genereren van phishingberichten of andere schadelijke content, en tot output die buiten vastgestelde ethische of beleidsmatige grenzen valt.
De kwetsbaarheid hangt volgens Cisco samen met de aard van open-weight modellen. Doordat deze modellen openbaar beschikbaar en aanpasbaar zijn, ligt de verantwoordelijkheid voor beveiliging grotendeels bij de organisaties die ze inzetten. In tegenstelling tot gesloten modellen blijken open-weight varianten moeite te hebben om veiligheidsregels consistent toe te passen zonder aanvullende controles.
Cisco stelt dat organisaties extra maatregelen nodig hebben om het risico op misbruik te beperken. Daarbij gaat het onder meer om het toepassen van strikte systeeminstellingen die aansluiten bij het beoogde gebruik, aanvullende beveiligingslagen tijdens runtime en regelmatige tests om manipulatie tijdig te signaleren. Zonder dergelijke maatregelen blijven open AI-modellen volgens het onderzoek kwetsbaar tijdens inzet in productieomgevingen.


