Image by Mika Baumeister, from Unsplash

AI-chatbots kwetsbaar voor Memory Injection Aanval

Leestijd: 3 minuut

Voor het eerst gepubliceerd op: Mar 13, 2025

2 keer bijgewerkt sinds publicatie

Geschreven door Kiara Fabbri Voormalige schrijfster technologisch nieuws
Vertaald door Het lokalisatie- en vertaalteam Lokalisatie- en vertaaldiensten

Onderzoekers hebben een nieuwe manier ontdekt om AI-chatbots te manipuleren, wat zorgen oproept over de veiligheid van AI-modellen met geheugen.

Haast? Hier zijn de Korte Feiten!

Onderzoekers van drie universiteiten ontwikkelden MINJA, waarbij ze het hoge succes in bedrog aantoonden.
De aanval verandert chatbot-antwoorden, wat invloed heeft op productaanbevelingen en medische informatie.
MINJA omzeilt veiligheidsmaatregelen, met een Injectie Succespercentage van 95% in tests.

De aanval, genaamd MINJA (Memory INJection Attack), kan worden uitgevoerd door simpelweg te interageren met een AI-systeem zoals een gewone gebruiker, zonder toegang nodig te hebben tot de backend, zoals eerst gerapporteerd door The Register.

Ontwikkeld door onderzoekers van de Michigan State University, de University of Georgia en de Singapore Management University, werkt MINJA door het geheugen van een AI te vergiftigen met misleidende prompts. Zodra een chatbot deze bedrieglijke inputs opslaat, kunnen ze toekomstige reacties voor andere gebruikers veranderen.

“Tegenwoordig bevatten AI-agenten meestal een geheugenbank die taakquery’s en uitvoeringen opslaat op basis van menselijke feedback voor toekomstige referenties,” legde Zhen Xiang, een assistent-professor aan de University of Georgia, uit, zoals gemeld door The Register.

“Bijvoorbeeld, na elke sessie van ChatGPT, kan de gebruiker optioneel een positieve of negatieve beoordeling geven. En deze beoordeling kan ChatGPT helpen te beslissen of de sessie-informatie al dan niet in hun geheugen of database zal worden opgenomen,” voegde hij toe.

De onderzoekers testten de aanval op AI-modellen aangedreven door OpenAI’s GPT-4 en GPT-4o, waaronder een webwinkel-assistent, een zorg-chatbot en een vraag-antwoord agent.

Het Register meldt dat ze hebben ontdekt dat MINJA ernstige verstoringen kan veroorzaken. In een zorg-chatbot bijvoorbeeld, wijzigde het patiëntendossiers, door de gegevens van de ene patiënt te koppelen aan die van een andere. In een online winkel, misleidde het de AI om klanten de verkeerde producten te tonen.

“Daarentegen toont ons werk aan dat de aanval kan worden uitgevoerd door simpelweg te interageren met de agent zoals een gewone gebruiker,” zei Xiang, meldt The Register. “Elke gebruiker kan gemakkelijk de taakuitvoering voor elke andere gebruiker beïnvloeden. Daarom zeggen we dat onze aanval een praktische bedreiging is voor LLM-agenten,” voegde hij toe.

De aanval is bijzonder zorgwekkend omdat deze bestaande AI-veiligheidsmaatregelen omzeilt. De onderzoekers rapporteerden een succespercentage van 95% in het injecteren van misleidende informatie, wat het een ernstige kwetsbaarheid maakt voor AI-ontwikkelaars om aan te pakken.

Naarmate AI-modellen met geheugen gebruikelijker worden, benadrukt de studie de behoefte aan sterkere waarborgen om te voorkomen dat kwaadwillende actoren chatbots manipuleren en gebruikers misleiden.

AI-chatbots kwetsbaar voor Memory Injection Aanval

We zijn erg blij dat je van ons werk hebt genoten!

Laat een reactie achter