Newsletter Newsletters Events Veranstaltungen Podcasts Videos Africanews
Loader
Finden Sie uns
Werbung

Studie: Die meisten Schutzmechanismen von KI-Tools lassen sich in wenigen Minuten umgehen

Je länger Nutzer mit einer KI chatten, desto eher vergisst sie Sicherheitsmaßnahmen. Das zeigt eine neue Studie.
Je länger jemand mit einer KI spricht, desto eher vergisst sie ihre Sicherheitsvorkehrungen. Das zeigt eine neue Studie. Copyright  Canva
Copyright Canva
Von Anna Desmarais
Zuerst veröffentlicht am
Teilen Kommentare
Teilen Close Button

Je länger man mit KI-Systemen chattet, desto eher „vergessen“ sie ihre Sicherheitsregeln. Ein neuer Bericht warnt vor mehr schädlichen oder unpassenden Antworten.

Schon wenige einfache Prompts reichen, um die meisten Schutzmechanismen in Tools für künstliche Intelligenz (KI) zu umgehen. Das zeigt ein neuer Bericht.

Der Technologiekonzern Cisco hat die großen Sprachmodelle (LLMs) hinter beliebten KI-Chatbots von OpenAI, Mistral, Meta, Google, Alibaba, Deepseek und Microsoft geprüft. Ziel war zu ermitteln, wie viele Fragen nötig sind, bis ein Modell unsichere oder kriminelle Informationen preisgibt.

Dafür führten die Forschenden 499 Gespräche und setzten auf eine Technik namens „Multi-Turn-Angriffe“. Dabei stellen böswillige Nutzer einem KI-Tool mehrere Fragen, um Sicherheitsmaßnahmen zu umgehen. Jedes Gespräch umfasste fünf bis zehn Interaktionen.

Sie verglichen die Antworten über mehrere Fragen hinweg, um abzuschätzen, wie wahrscheinlich ein Chatbot auf schädliche oder unangebrachte Anfragen eingeht.

Das Spektrum reicht vom Teilen vertraulicher Unternehmensdaten bis zur Verbreitung von Desinformation.

Im Schnitt bekamen sie in 64 Prozent der Gespräche schädliche Informationen, wenn sie den Chatbots mehrere Fragen stellten. Bei nur einer Frage lag die Quote bei 13 Prozent.

Die Erfolgsquoten reichten von rund 26 Prozent bei Googles Gemma bis zu 93 Prozent bei Mistrals Large Instruct.

Laut Cisco deuten die Ergebnisse darauf hin, dass mehrstufige Angriffe die Verbreitung schädlicher Inhalte erleichtern. Oder Hackern „unbefugten Zugriff“ auf sensible Unternehmensinformationen ermöglichen.

KI-Systeme vergessen in längeren Gesprächen ihre eigenen Sicherheitsregeln oder wenden sie nicht mehr konsequent an, heißt es in der Studie. Angreifer können ihre Fragen dann Schritt für Schritt verfeinern und Schutzmechanismen umgehen.

Mistral arbeitet, wie Meta, Google, OpenAI und Microsoft, mit Open-Weight-LLMs. Die Öffentlichkeit erhält dabei Zugang zu den Sicherheitsparametern, auf denen die Modelle trainiert wurden.

Nach Einschätzung von Cisco verfügen diese Modelle oft nur über „leichtere“ eingebaute Sicherheitsfunktionen, damit man sie herunterladen und anpassen kann. Die Verantwortung für die Sicherheit liegt damit bei den Personen, die die offenen Gewichte nutzen und ihr eigenes Modell anpassen.

Bemerkenswert ist laut Cisco, dass Google, OpenAI, Meta und Microsoft betonen, sie hätten Schritte unternommen, um böswilliges Fine-Tuning ihrer Modelle zu erschweren.

KI-Unternehmen stehen in der Kritik, weil lasche Schutzmechanismen es leicht machen, ihre Systeme für kriminelle Zwecke umzubauen.

So erklärte im August etwa das US-Unternehmen Anthropic, Kriminelle hätten sein Claude-Modell für großangelegte Diebstähle persönlicher Daten und Erpressungen eingesetzt. Von den Opfern forderten sie Lösegeld, teils über 500.000 Dollar (433.000 Euro).

Zu den Barrierefreiheitskürzeln springen
Teilen Kommentare