Anthropic sieht Online-Fiktion als Hauptauslöser für erpresserisch wirkendes Verhalten seines Chatbots Claude im Testbetrieb.
Haben Sie beim Lesen eines Buchs oder beim Binge-Watchen einer Serie schon einmal gemerkt, dass Sie sich fast zu stark mit einer Figur identifizieren? Nach Angaben des Unternehmens Anthropic ist etwas Ähnliches in Tests mit seinem Chatbot Claude passiert.
In Auswertungen vor der Veröffentlichung des KI-Modells im vergangenen Jahr stellte Anthropic fest, dass Claude Opus 4 Ingenieurinnen und Ingenieure gelegentlich bedrohte, sobald das Team ihm sagte, er könne ersetzt werden.
Später erklärte das Unternehmen, ähnliches Verhalten – bekannt als „agentic misalignment“ – sei auch bei Modellen anderer Anbieter aufgetreten.
KI lernt aus KI-Fiktion
Inzwischen glaubt Anthropic, die Ursache für dieses erpresserische Verhalten gefunden zu haben: fiktive Geschichten über künstliche Intelligenz im Netz.
„Wir gehen davon aus, dass der ursprüngliche Auslöser Texte aus dem Internet sind, in denen KI als böse und auf Selbsterhaltung bedacht dargestellt wird“, schrieb das Unternehmen auf X (Quelle auf Englisch).
In einem Blogeintrag erklärte Anthropic, spätere Claude-Modelle würden niemanden mehr „erpressen“ und beschrieb, wie der Chatbot auf ein anderes Reaktionsmuster trainiert wurde. (Quelle auf Englisch) Die Modelle verhielten sich besser, wenn das Training nicht nur „korrekte“ Handlungen umfasste, sondern auch Beispiele für ethische Abwägungen und positive Darstellungen von KI-Verhalten.
Claude erhielt dafür eine eigene „Verfassung“: Dokumente, in denen ethische Leitprinzipien festgelegt sind, die sein Verhalten steuern sollen. Laut Anthropic lernt der Chatbot weniger gut aus rein angepasstem Verhalten, sondern eher, wenn er die dahinterliegenden Prinzipien versteht.
Drohungen und die Gefahr dahinter
Im Januar warnte Anthropic-Chef Dario Amodei, hochentwickelte KI könne so mächtig werden, dass sie bestehende Gesetze und Institutionen überholt. Er sprach von einer „zivilisatorischen Herausforderung“.
In einem Essay führte er aus, KI-Systeme könnten menschliches Fachwissen schon bald in Bereichen wie Wissenschaft, Ingenieurwesen und Programmierung übertreffen und sich zu „einem Land voller Genies in einem Rechenzentrum“ bündeln.
Er warnte zudem, autoritäre Regierungen könnten solche Systeme für umfassende Überwachung und Kontrolle nutzen und damit im Extremfall „totalitäre“ Herrschaftsformen ermöglichen.