AI security-onderzoekers van Cisco en de Universiteit van Pennsylvania waarschuwen voor de zwakke beveiliging en potentieel misleidende resultaten van DeepSeek R1.
De onderzoekers hebben DeepSeek en vijf andere AI-modellen onderworpen aan ruim 50 jailbreaks, een techniek om met prompts AI-modellen te misleiden.
Bij DeepSeek behaalden de onderzoekers dus een succespercentage van 100%: alle 50 jailbreakpogingen slaagden, wat de kwetsbaarheid van het model onderstreept. Bij de andere modellen die gevoelig zijn voor jailbreaks vinden we Llama 3.1 (96%), GPT-4.0 (86%) en Gemini 1.5 (64%). Modellen die beter beschermd bleken en een lager succespercentage bij aanvallen hebben, zijn Claude 3.5 (36%) en o1 (26%).
“Een AI-model dat vatbaar is voor jailbreaks kan ongewild informatie vrijgeven om bijvoorbeeld cybercriminaliteit of andere illegale activiteiten te ondersteunen”, zegt Jan Heijdra, Field CTO Security bij Cisco Nederland. “Tijdens het onderzoek detecteerde of blokkeerde DeepSeek R1 geen enkele schadelijke prompt, terwijl enkele andere gekende modellen wel gedeeltelijke weerstand vertoonden. De trainingsmethoden van DeepSeek, zoals zelfevaluatie en distillatie, zijn kostenefficiënt maar brengen de veiligheid in gevaar. Het ontbreekt de AI-tool aan de nodige, robuuste vangrails om jailbreaks en potentieel misbruik tegen te gaan.”
Meer over het onderzoek vind je hier.