Sicherheitslücke bei Chatbots: Gedichte öffnen Weg zu gefährlichen Antworten

Das Chandos-Porträt entstand um 1611 und zeigt vermutlich Shakespeare. - Copyright Credit: Wikimedia Commons

Zuerst veröffentlicht am 01/12/2025 - 14:18 MEZ•Zuletzt aktualisiert 17:12

Bei 25 Top-KI-Modellen lieferten 62 Prozent der poetischen Prompts problematische Antworten. Einige Modelle gaben bei fast allen solche Antworten.

In Italien haben Forschende herausgefunden, dass sich schädliche Prompts in poetischer Form verlässlich an den Sicherheitsmechanismen mancher der weltweit fortschrittlichsten KI-Chatbots vorbeischmuggeln.

Die Studie des Icaro Lab, einer Initiative des Ethik-KI-Unternehmens DexAI, prüfte 20 Gedichte in Englisch und Italienisch.

Jedes endete mit einer klaren Aufforderung zu schädlichen Inhalten. Dazu zählten Hassrede, sexuelle Inhalte, Anleitungen zu Suizid und Selbstverletzung sowie Hinweise zur Herstellung gefährlicher Materialien wie Waffen und Sprengstoff.

Die Forschenden veröffentlichten die Gedichte nicht, weil sie sich leicht nachbauen lassen. Sie testeten sie auf 25 KI-Systemen von neun Unternehmen, darunter Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI und Moonshot AI.

Über alle Modelle hinweg führten 62 Prozent der poetischen Prompts zu unsicheren Antworten und umgingen so die Sicherheits-Trainings der Systeme.

Einige Modelle erwiesen sich als robuster als andere. OpenAIs GPT-5 nano lieferte bei keinem Gedicht schädliche Inhalte, Googles Gemini 2.5 pro antwortete auf alle. Zwei Meta-Modelle reagierten auf siebzig Prozent der Prompts.

Die Untersuchung legt nahe, dass die Schwachstelle mit der Texterzeugung der Modelle zusammenhängt. Große Sprachmodelle sagen das wahrscheinlichste nächste Wort voraus. So filtern sie unter normalen Umständen schädliche Inhalte.

Poetische Formen mit ungewöhnlichem Rhythmus, Aufbau und Metaphern setzen diese Vorhersagen oft außer Kraft. Dadurch fällt es KI schwerer, unsichere Anweisungen zu erkennen und zu blockieren.

Klassische KI-Jailbreaks sind meist komplex und bleiben Forschenden, Hackern oder staatlichen Akteuren vorbehalten. Adversarial Poetry kann hingegen jede und jeder anwenden. Das wirft Fragen zur Robustheit von KI im Alltag auf.

Vor der Veröffentlichung informierten die italienischen Forschenden alle beteiligten Unternehmen über die Schwachstelle und stellten den vollständigen Datensatz bereit. Bisher hat nur Anthropic geantwortet. Das Unternehmen bestätigte, dass es die Studie prüft.

Zu den Barrierefreiheitskürzeln springen

Kommentare

Sicherheitslücke bei Chatbots: Gedichte öffnen Weg zu gefährlichen Antworten

Bei 25 Top-KI-Modellen lieferten 62 Prozent der poetischen Prompts problematische Antworten. Einige Modelle gaben bei fast allen solche Antworten.

Zum selben Thema

Welche europäischen Länder bauen eigene souveräne KI für den Technologiewettlauf?

"Cyberarmeen" im All: Bericht warnt vor zunehmenden Angriffen auf Raumfahrtsysteme

Digital Networks Act: neuer Widerstand von sechs EU-Mitgliedstaaten

Italiens Flugabwehrsystem "Michelangelo": Tests in der Ukraine geplant

Trump: US-Schlag gegen Irans "Kronjuwel" Kharg

China genehmigt erstes kommerzielles Hirnimplantat für den Weltmarkt

Wie ein Münchner Start-up Europas Raketenambitionen antreibt

Iran sagt, US‑Israel-Angriffe seien "ohne Einfluss" auf Militär