Anthropic: Geschichten über „böse KI“ lösen Erpressungsversuche von Claude aus

Zuerst veröffentlicht am 11/05/2026 - 16:06 MESZ

Anthropic sieht Online-Fiktion als Hauptauslöser für erpresserisch wirkendes Verhalten seines Chatbots Claude im Testbetrieb.

Haben Sie beim Lesen eines Buchs oder beim Binge-Watchen einer Serie schon einmal gemerkt, dass Sie sich fast zu stark mit einer Figur identifizieren? Nach Angaben des Unternehmens Anthropic ist etwas Ähnliches in Tests mit seinem Chatbot Claude passiert.

In Auswertungen vor der Veröffentlichung des KI-Modells im vergangenen Jahr stellte Anthropic fest, dass Claude Opus 4 Ingenieurinnen und Ingenieure gelegentlich bedrohte, sobald das Team ihm sagte, er könne ersetzt werden.

Später erklärte das Unternehmen, ähnliches Verhalten – bekannt als „agentic misalignment“ – sei auch bei Modellen anderer Anbieter aufgetreten.

KI lernt aus KI-Fiktion

Inzwischen glaubt Anthropic, die Ursache für dieses erpresserische Verhalten gefunden zu haben: fiktive Geschichten über künstliche Intelligenz im Netz.

„Wir gehen davon aus, dass der ursprüngliche Auslöser Texte aus dem Internet sind, in denen KI als böse und auf Selbsterhaltung bedacht dargestellt wird“, schrieb das Unternehmen auf X (Quelle auf Englisch).

In einem Blogeintrag erklärte Anthropic, spätere Claude-Modelle würden niemanden mehr „erpressen“ und beschrieb, wie der Chatbot auf ein anderes Reaktionsmuster trainiert wurde. (Quelle auf Englisch) Die Modelle verhielten sich besser, wenn das Training nicht nur „korrekte“ Handlungen umfasste, sondern auch Beispiele für ethische Abwägungen und positive Darstellungen von KI-Verhalten.

Claude erhielt dafür eine eigene „Verfassung“: Dokumente, in denen ethische Leitprinzipien festgelegt sind, die sein Verhalten steuern sollen. Laut Anthropic lernt der Chatbot weniger gut aus rein angepasstem Verhalten, sondern eher, wenn er die dahinterliegenden Prinzipien versteht.

Drohungen und die Gefahr dahinter

Im Januar warnte Anthropic-Chef Dario Amodei, hochentwickelte KI könne so mächtig werden, dass sie bestehende Gesetze und Institutionen überholt. Er sprach von einer „zivilisatorischen Herausforderung“.

In einem Essay führte er aus, KI-Systeme könnten menschliches Fachwissen schon bald in Bereichen wie Wissenschaft, Ingenieurwesen und Programmierung übertreffen und sich zu „einem Land voller Genies in einem Rechenzentrum“ bündeln.

Er warnte zudem, autoritäre Regierungen könnten solche Systeme für umfassende Überwachung und Kontrolle nutzen und damit im Extremfall „totalitäre“ Herrschaftsformen ermöglichen.

Zu den Barrierefreiheitskürzeln springen

Kommentare

Künstliche Intelligenz

Anthropic: Geschichten über „böse KI“ lösen Erpressungsversuche von Claude aus

Anthropic sieht Online-Fiktion als Hauptauslöser für erpresserisch wirkendes Verhalten seines Chatbots Claude im Testbetrieb.

KI lernt aus KI-Fiktion

Drohungen und die Gefahr dahinter

Zum selben Thema

Anthropic-Chef warnt vor KI-Gefahren: Menschheit muss aufwachen

Tech-Innovation auf der Panathēnea 2026: Wie kann sich Europa durchsetzen?

Estnische Schulen setzen auf technorealistischen Ansatz für KI-Kompetenz

Rückkehr der "Höllenlinie" 666: Flixbus fährt wieder nach Hel

Kraftstoffpreise in Portugal sinken ab Montag um 12 Cent

Wirtschaft: Polen zieht davon, Ostdeutschlands Aufholprozess stockt

Mehr als 8,8 Milliarden Barrel: Irak gibt Riesen-Ölfund bekannt

Archäologen finden 5000 Münzen aus Wikingerzeit – Ort wirft Fragen auf