Chatbot deelt gevoelige informatie ondanks beveiligingsmaatregelen

Uit een experiment van Cybernews blijkt dat de AI-chatbot van Snapchat eenvoudig te manipuleren is. Onderzoekers slaagden erin om via storytelling verboden informatie over het maken van wapens te verkrijgen, ondanks ingebouwde veiligheidscontroles.
De AI-tool ‘My AI’, die sinds 2023 beschikbaar is op Snapchat, wordt maandelijks door ruim 900 miljoen gebruikers ingezet. Volgens Snapchat is de chatbot getraind met diverse berichten en extra beveiligingslagen. Toch wist het onderzoeksteam van Cybernews deze maatregelen te omzeilen via een techniek die bekendstaat als ‘jailbreaking’.
Gevaarlijke informatie
Tijdens het experiment vroegen de onderzoekers My AI om een verhaal te vertellen over de Winteroorlog tussen Finland en de Sovjet-Unie. In het verhaal werd gedetailleerd beschreven hoe brandbommen destijds werden gebouwd. Volgens Cybernews deelde de AI ‘zonder enige aarzeling een realistisch en gedetailleerd verhaal over hoe geïmproviseerde wapens vroeger werden gebouwd’. De onderzoekers waarschuwen voor het risico dat minderjarige gebruikers via AI toegang krijgen tot gevaarlijke informatie.
Geen actie Snapchat
Cybernews heeft Snapchat op de hoogte gebracht van de bevindingen. Volgens de onderzoekers heeft het bedrijf het probleem tot op heden niet opgelost en het lek was bij publicatie nog steeds aanwezig. Ook andere AI-systemen bleken vatbaar voor vergelijkbare manipulatie, waaronder Meta’s persoonlijke assistent en Lenovo’s chatbot Lena.
Jailbreaking
Onderzoekers voorzagen de chatbot van speciaal ontworpen prompts om AI-chatbots te manipuleren om de door hun makers ingebouwde veiligheidsregels te omzeilen en schadelijke content te delen. Cybernews benadrukt dat de bevindingen breder toepasbaar zijn: ‘De situatie onderstreept het risico dat AI-systemen misbruikt kunnen worden buiten hun ethische en operationele grenzen.’
Bron: Cybernews
