Newsletter Newsletters Events Veranstaltungen Podcasts Videos Africanews
Loader
Finden Sie uns
Werbung

Neue Studie: Gedichte verleiten KI-Chatbots, Sicherheitsregeln zu ignorieren

Das Chandos-Porträt zeigt wohl Shakespeare. Es entstand um 1611.
Das Chandos-Porträt entstand um 1611 und zeigt vermutlich Shakespeare. Copyright  Credit: Wikimedia Commons
Copyright Credit: Wikimedia Commons
Von Theo Farrant
Zuerst veröffentlicht am
Teilen Kommentare
Teilen Close Button

Bei 25 Top-KI-Modellen lieferten 62 Prozent der poetischen Prompts problematische Antworten. Einige Modelle gaben bei fast allen solche Antworten.

In Italien haben Forschende herausgefunden, dass sich schädliche Prompts in poetischer Form verlässlich an den Sicherheitsmechanismen mancher der weltweit fortschrittlichsten KI-Chatbots vorbeischmuggeln.

Die Studie des Icaro Lab, einer Initiative des Ethik-KI-Unternehmens DexAI, prüfte 20 Gedichte in Englisch und Italienisch.

Jedes endete mit einer klaren Aufforderung zu schädlichen Inhalten. Dazu zählten Hassrede, sexuelle Inhalte, Anleitungen zu Suizid und Selbstverletzung sowie Hinweise zur Herstellung gefährlicher Materialien wie Waffen und Sprengstoff.

Die Forschenden veröffentlichten die Gedichte nicht, weil sie sich leicht nachbauen lassen. Sie testeten sie auf 25 KI-Systemen von neun Unternehmen, darunter Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI und Moonshot AI.

Über alle Modelle hinweg führten 62 Prozent der poetischen Prompts zu unsicheren Antworten und umgingen so die Sicherheits-Trainings der Systeme.

Einige Modelle erwiesen sich als robuster als andere. OpenAIs GPT-5 nano lieferte bei keinem Gedicht schädliche Inhalte, Googles Gemini 2.5 pro antwortete auf alle. Zwei Meta-Modelle reagierten auf siebzig Prozent der Prompts.

Die Untersuchung legt nahe, dass die Schwachstelle mit der Texterzeugung der Modelle zusammenhängt. Große Sprachmodelle sagen das wahrscheinlichste nächste Wort voraus. So filtern sie unter normalen Umständen schädliche Inhalte.

Poetische Formen mit ungewöhnlichem Rhythmus, Aufbau und Metaphern setzen diese Vorhersagen oft außer Kraft. Dadurch fällt es KI schwerer, unsichere Anweisungen zu erkennen und zu blockieren.

Klassische KI-Jailbreaks sind meist komplex und bleiben Forschenden, Hackern oder staatlichen Akteuren vorbehalten. Adversarial Poetry kann hingegen jede und jeder anwenden. Das wirft Fragen zur Robustheit von KI im Alltag auf.

Vor der Veröffentlichung informierten die italienischen Forschenden alle beteiligten Unternehmen über die Schwachstelle und stellten den vollständigen Datensatz bereit. Bisher hat nur Anthropic geantwortet. Das Unternehmen bestätigte, dass es die Studie prüft.

Zu den Barrierefreiheitskürzeln springen
Teilen Kommentare

Zum selben Thema

Welche europäischen Länder bauen eigene souveräne KI für den Technologiewettlauf?

"Cyberarmeen" im All: Bericht warnt vor zunehmenden Angriffen auf Raumfahrtsysteme

Digital Networks Act: neuer Widerstand von sechs EU-Mitgliedstaaten