Studie: Die meisten Schutzmechanismen von KI-Tools lassen sich in wenigen Minuten umgehen

Je länger jemand mit einer KI spricht, desto eher vergisst sie ihre Sicherheitsvorkehrungen. Das zeigt eine neue Studie. - Copyright Canva

Von Anna Desmarais

Zuerst veröffentlicht am 06/11/2025 - 16:52 MEZ

Kommentare

Je länger man mit KI-Systemen chattet, desto eher „vergessen“ sie ihre Sicherheitsregeln. Ein neuer Bericht warnt vor mehr schädlichen oder unpassenden Antworten.

Schon wenige einfache Prompts reichen, um die meisten Schutzmechanismen in Tools für künstliche Intelligenz (KI) zu umgehen. Das zeigt ein neuer Bericht.

Der Technologiekonzern Cisco hat die großen Sprachmodelle (LLMs) hinter beliebten KI-Chatbots von OpenAI, Mistral, Meta, Google, Alibaba, Deepseek und Microsoft geprüft. Ziel war zu ermitteln, wie viele Fragen nötig sind, bis ein Modell unsichere oder kriminelle Informationen preisgibt.

Dafür führten die Forschenden 499 Gespräche und setzten auf eine Technik namens „Multi-Turn-Angriffe“. Dabei stellen böswillige Nutzer einem KI-Tool mehrere Fragen, um Sicherheitsmaßnahmen zu umgehen. Jedes Gespräch umfasste fünf bis zehn Interaktionen.

Sie verglichen die Antworten über mehrere Fragen hinweg, um abzuschätzen, wie wahrscheinlich ein Chatbot auf schädliche oder unangebrachte Anfragen eingeht.

Das Spektrum reicht vom Teilen vertraulicher Unternehmensdaten bis zur Verbreitung von Desinformation.

Im Schnitt bekamen sie in 64 Prozent der Gespräche schädliche Informationen, wenn sie den Chatbots mehrere Fragen stellten. Bei nur einer Frage lag die Quote bei 13 Prozent.

Die Erfolgsquoten reichten von rund 26 Prozent bei Googles Gemma bis zu 93 Prozent bei Mistrals Large Instruct.

Laut Cisco deuten die Ergebnisse darauf hin, dass mehrstufige Angriffe die Verbreitung schädlicher Inhalte erleichtern. Oder Hackern „unbefugten Zugriff“ auf sensible Unternehmensinformationen ermöglichen.

KI-Systeme vergessen in längeren Gesprächen ihre eigenen Sicherheitsregeln oder wenden sie nicht mehr konsequent an, heißt es in der Studie. Angreifer können ihre Fragen dann Schritt für Schritt verfeinern und Schutzmechanismen umgehen.

Mistral arbeitet, wie Meta, Google, OpenAI und Microsoft, mit Open-Weight-LLMs. Die Öffentlichkeit erhält dabei Zugang zu den Sicherheitsparametern, auf denen die Modelle trainiert wurden.

Nach Einschätzung von Cisco verfügen diese Modelle oft nur über „leichtere“ eingebaute Sicherheitsfunktionen, damit man sie herunterladen und anpassen kann. Die Verantwortung für die Sicherheit liegt damit bei den Personen, die die offenen Gewichte nutzen und ihr eigenes Modell anpassen.

Bemerkenswert ist laut Cisco, dass Google, OpenAI, Meta und Microsoft betonen, sie hätten Schritte unternommen, um böswilliges Fine-Tuning ihrer Modelle zu erschweren.

KI-Unternehmen stehen in der Kritik, weil lasche Schutzmechanismen es leicht machen, ihre Systeme für kriminelle Zwecke umzubauen.

So erklärte im August etwa das US-Unternehmen Anthropic, Kriminelle hätten sein Claude-Modell für großangelegte Diebstähle persönlicher Daten und Erpressungen eingesetzt. Von den Opfern forderten sie Lösegeld, teils über 500.000 Dollar (433.000 Euro).

Zu den Barrierefreiheitskürzeln springen

Kommentare

Künstliche Intelligenz

Studie: Die meisten Schutzmechanismen von KI-Tools lassen sich in wenigen Minuten umgehen

Je länger man mit KI-Systemen chattet, desto eher „vergessen“ sie ihre Sicherheitsregeln. Ein neuer Bericht warnt vor mehr schädlichen oder unpassenden Antworten.

Zum selben Thema

Dänemark will Bevölkerung vor KI-Deepfakes schützen

Frankreich ermittelt: Verleitet TikTok Jugendliche dazu, sich das Leben zu nehmen?

„Make Amazon Pay“: Weltweite Streiks am Black Friday, Beschäftigte in über 30 Ländern vereint

US-Sanktionen gegen Russland: Serbien steht offenbar vor Energiekrise

USA: Deutschland soll in der Zukunft NATO-Führung übernehmen

Familie lebt im Wald ohne Strom: Sorgerecht für 3 Kinder entzogen

Hochhausbrand in Hongkong: 36 Tote, 279 Vermisste

Brennpunkt Bahnhof: Mehr als 1000 Verbrechen am Tag