Newsletter Newsletters Events Veranstaltungen Podcasts Videos Africanews
Loader
Finden Sie uns
Werbung

Anthropic: Geschichten über „böse KI“ lösen Erpressungsversuche von Claude aus

Auf einem Computerbildschirm in New York sind Seiten der Anthropic-Website und das Firmenlogo am 26. Februar 2026 zu sehen.
Auf einem Computerbildschirm in New York sind am 26. Februar 2026 Seiten der Anthropic-Website und das Firmenlogo zu sehen. Copyright  Copyright 2026 The Associated Press. All rights reserved.
Copyright Copyright 2026 The Associated Press. All rights reserved.
Von Alexandra Leistner
Zuerst veröffentlicht am
Teilen Kommentare
Teilen Close Button

Anthropic sieht Online-Fiktion als Hauptauslöser für erpresserisch wirkendes Verhalten seines Chatbots Claude im Testbetrieb.

Haben Sie beim Lesen eines Buchs oder beim Binge-Watchen einer Serie schon einmal gemerkt, dass Sie sich fast zu stark mit einer Figur identifizieren? Nach Angaben des Unternehmens Anthropic ist etwas Ähnliches in Tests mit seinem Chatbot Claude passiert.

WERBUNG
WERBUNG

In Auswertungen vor der Veröffentlichung des KI-Modells im vergangenen Jahr stellte Anthropic fest, dass Claude Opus 4 Ingenieurinnen und Ingenieure gelegentlich bedrohte, sobald das Team ihm sagte, er könne ersetzt werden.

Später erklärte das Unternehmen, ähnliches Verhalten – bekannt als „agentic misalignment“ – sei auch bei Modellen anderer Anbieter aufgetreten.

KI lernt aus KI-Fiktion

Inzwischen glaubt Anthropic, die Ursache für dieses erpresserische Verhalten gefunden zu haben: fiktive Geschichten über künstliche Intelligenz im Netz.

„Wir gehen davon aus, dass der ursprüngliche Auslöser Texte aus dem Internet sind, in denen KI als böse und auf Selbsterhaltung bedacht dargestellt wird“, schrieb das Unternehmen auf X (Quelle auf Englisch).

In einem Blogeintrag erklärte Anthropic, spätere Claude-Modelle würden niemanden mehr „erpressen“ und beschrieb, wie der Chatbot auf ein anderes Reaktionsmuster trainiert wurde. (Quelle auf Englisch) Die Modelle verhielten sich besser, wenn das Training nicht nur „korrekte“ Handlungen umfasste, sondern auch Beispiele für ethische Abwägungen und positive Darstellungen von KI-Verhalten.

Claude erhielt dafür eine eigene „Verfassung“: Dokumente, in denen ethische Leitprinzipien festgelegt sind, die sein Verhalten steuern sollen. Laut Anthropic lernt der Chatbot weniger gut aus rein angepasstem Verhalten, sondern eher, wenn er die dahinterliegenden Prinzipien versteht.

Drohungen und die Gefahr dahinter

Im Januar warnte Anthropic-Chef Dario Amodei, hochentwickelte KI könne so mächtig werden, dass sie bestehende Gesetze und Institutionen überholt. Er sprach von einer „zivilisatorischen Herausforderung“.

In einem Essay führte er aus, KI-Systeme könnten menschliches Fachwissen schon bald in Bereichen wie Wissenschaft, Ingenieurwesen und Programmierung übertreffen und sich zu „einem Land voller Genies in einem Rechenzentrum“ bündeln.

Er warnte zudem, autoritäre Regierungen könnten solche Systeme für umfassende Überwachung und Kontrolle nutzen und damit im Extremfall „totalitäre“ Herrschaftsformen ermöglichen.

Zu den Barrierefreiheitskürzeln springen
Teilen Kommentare

Zum selben Thema

Anthropic-Chef warnt vor KI-Gefahren: Menschheit muss aufwachen

Anthropic: Geschichten über „böse KI“ lösen Erpressungsversuche von Claude aus

Musk nannte Anthropic einst „böse“ – jetzt befeuert er die KI-Offensive des „woken“ Rivalen