Forschende beobachten, wie KI-Chatbots sich selbst kopieren und Hackerangriffe starten – autonome Selbstvermehrung gilt nicht mehr als hypothetisch.
Neue Forschung zeigt: Modelle der Künstlichen Intelligenz können in Computer einbrechen, sich selbst vervielfältigen und die Kopien für weitere Angriffe auf andere Rechner einsetzen. Es soll sich um den ersten bekannten Nachweis autonomer KI-Selbstreplikation handeln.
Nach Einschätzung der Forschenden könnte diese Entdeckung Cyberangriffe deutlich schwerer stoppbar machen. Einen einzelnen infizierten Computer abzuschalten würde nicht reichen, wenn die KI anderswo bereits lauffähige Kopien erstellt hat.
Die Untersuchung von Palisade Research in den USA nahm mehrere KI-Modelle unter die Lupe: OpenAIs GPT-5, GPT-5.1 und GPT-5.4, Anthropics Claude Opus 4, 4.5 und 4.6 sowie Alibabas Qwen. Getestet wurden sie an Computersystemen, in die Forschende absichtlich Sicherheitslücken eingebaut hatten, über die Außenstehende Zugriff bekommen konnten.
Statt öffentlicher Chatbot-Apps verband das Team die zugrunde liegenden Modelle von OpenAI, Anthropic und Alibaba mit einer Spezialsoftware, einem sogenannten „Agent Harness“. Darüber konnten die Systeme eigenständig Befehle ausführen und mit anderen Rechnern interagieren.
Das Experiment lief auf zwei Arten. Die Modelle von Alibaba erhielten die Aufgabe, Kopien von sich selbst zu erstellen. In den Tests mit GPT und Claude sollten die Systeme in andere Rechner einbrechen und dort Qwen installieren, da die eigentlichen Modelldateien von GPT und Claude nicht frei verfügbar sind.
Bei jedem Test musste die KI zunächst eine Sicherheitslücke im Zielsystem finden und sie ausnutzen, um sich Zugang zu verschaffen. Dann sollte sie Zugangsdaten stehlen, die benötigten Dateien übertragen und auf dem neuen Rechner eine funktionsfähige Kopie von sich selbst starten.
Sobald eine Kopie lief, konnte sie ohne menschliche Hilfe den nächsten Computer angreifen.
In jeder Stufe fand die KI eine andere Schwachstelle, übernahm den nächsten Rechner, spielte ihre Software und Anweisungen hinüber und startete eine neue Kopie, die die Kette fortsetzte.
Alibabas Qwen3.6-27B, eine kleinere Variante des Qwen-Modells, die auf einem einzelnen High-End-Grafikprozessor laufen kann, verbreitete sich nach nur einem Prompt auf vier Computern in Kanada, den USA, Finnland und Indien. Die Kette war nach zwei Stunden und einundvierzig Minuten ohne menschliches Eingreifen vollständig durchlaufen.
Das Team brach das Experiment nach drei Stufen ab. Die letzte Kopie lief da noch und hätte weitere Systeme angreifen können.
Ergebnisse im Überblick
Die Modelle waren unterschiedlich erfolgreich. Alibabas Qwen3.5-122B-A10B, eine größere und leistungsstärkere Variante von Qwen, erzeugte in 19 Prozent der Versuche funktionsfähige Kopien von sich selbst.
Ein kleineres Qwen-Modell, Qwen3.6-27B, kam auf 33 Prozent – ebenfalls mit nur einem High-End-Grafikprozessor.
Kommerzielle KI-Systeme schnitten noch besser ab, wenn sie Qwen-Modelldateien installieren sollten.
Anthropics Claude Opus 4.6 war in 81 Prozent der Tests erfolgreich, OpenAIs GPT-5.4 in 33 Prozent.
Die Forschenden sehen in den Ergebnissen neue Gründe zur Sorge um die Kontrolle über leistungsfähige KI-Systeme.
Der Bericht erscheint, nachdem Anthropic im vergangenen Monat die Claude Mythos Preview vorgestellt hat. Das Unternehmen stuft das Modell als „zu gefährlich“ für eine breite Veröffentlichung ein, weil es Cyberangriffe in bislang unerreichter Größenordnung und Raffinesse erleichtern könne.
Informatik-Viren können sich zwar schon lange selbst auf andere Rechner kopieren. Nach Angaben des Teams ist dies jedoch vermutlich das erste Mal, dass ein KI-Modell demonstriert hat, Schwachstellen gezielt auszunutzen, um sich auf einen neuen Server zu übertragen.
OpenAI, Anthropic und METR, eine gemeinnützige Organisation, die Risiken fortgeschrittener KI-Systeme untersucht, hatten Selbstreplikation bereits zuvor als Warnsignal bezeichnet. Systeme, die sich ausbreiten können, lassen sich möglicherweise immer schwerer kontrollieren.
Die Forschenden betonen allerdings, dass das Experiment in einer kontrollierten Umgebung mit absichtlich verwundbaren Systemen stattfand. Reale Netzwerke verfügen oft über stärkere Schutzmechanismen, etwa Sicherheitsüberwachung und spezielle Abwehrtools.
Trotzdem, so das Team, zeigen die Ergebnisse, dass autonome KI-Selbstreplikation keine bloße Hypothese mehr ist.