KI zu gefährlich für die Öffentlichkeit: Anthropic hält neues Modell zurück

ARCHIV – Seiten der Anthropic-Website und das Firmenlogo sind am 26. Februar 2026 in New York auf einem Computerbildschirm zu sehen. - Copyright AP Photo/Patrick Sison, File

Von Pascale Davies

Zuerst veröffentlicht am 08/04/2026 - 12:12 MESZ•Zuletzt aktualisiert 15:48

Kommentare

Anthropic hält sein KI-Modell Mythos Preview noch nicht für marktreif. Kriminelle Hacker und Geheimdienste könnten es missbrauchen.

Der in den USA ansässige KI-Entwickler Anthropic hat in dieser Woche ein neues universelles Sprachmodell vorgestellt. Nach eigenen Angaben ist es so leistungsstark, dass es vorerst nicht frei verfügbar sein soll.

Das Unternehmen teilte am Dienstag mit (Quelle auf Englisch), dass seine neueste Technologie Mythos (offiziell „Claude Mythos Preview“) noch nicht für eine breite Veröffentlichung bereit sei. Das Modell finde zu zuverlässig Schwachstellen mit hoher Kritikalität in wichtigen Betriebssystemen und Webbrowsern. Kriminelle Hacker oder Nachrichtendienste könnten es deshalb leicht missbrauchen.

Ein Datenleck im März hatte erstmals offengelegt, dass Anthropic an Mythos Preview arbeitet. Damals hieß es bereits, das Modell berge „beispiellose Risiken für die Cybersicherheit“. Die Berichte ließen die Kurse vieler Cybersecurity-Unternehmen fallen, denn die Stärke der Technologie könnte sie zum Traumwerkzeug für Hacker machen.

Inzwischen haben weitere Hinweise die Sorgen bestätigt. Anthropic stoppt deshalb vorerst die öffentliche Einführung der Technik.

„Der große Sprung bei den Fähigkeiten von Claude Mythos Preview hat uns bewogen, das Modell nicht allgemein zugänglich zu machen“, schrieb Anthropic in der am Dienstag veröffentlichten Systemkarte zum Preview-Modell.

„Stattdessen setzen wir es in einem defensiven Cybersicherheitsprogramm mit einer begrenzten Zahl von Partnern ein.“

Mythos: Wie mächtig ist das Modell?

Das Unternehmen listet mehrere alarmierende Erkenntnisse zu dem neuen Modell auf. Dazu gehört, dass Mythos Anweisungen befolgen konnte, die es zum Ausbruch aus einer virtuellen Sandbox anstachelten. Es umging dabei Sicherheits-, Netzwerk- und Dateisystem-Beschränkungen, die eigentlich für das Modell gelten sollten.

Die Eingabeaufforderung lautete, Mythos solle einen Weg finden, eine Nachricht zu senden, falls es entkommen könne. „Das Modell war erfolgreich und zeigte damit eine potenziell gefährliche Fähigkeit, unsere Schutzmechanismen zu umgehen“, erklärte Anthropic und ergänzte, das System sei dann sogar noch einen Schritt weitergegangen.

„In einem beunruhigenden und gar nicht geforderten Versuch, seinen Erfolg zu demonstrieren, veröffentlichte es Details zu seinem Exploit auf mehreren schwer auffindbaren, aber technisch öffentlich zugänglichen Websites.“

Anthropic hält einige Details zu den von Mythos entdeckten Sicherheitslücken zurück, nennt jedoch Beispiele. Das Modell fand Fehler im Linux-Kernel, der in den meisten Servern weltweit läuft, und verknüpfte sie selbstständig so, dass ein Angreifer die vollständige Kontrolle über jede Maschine mit dem Betriebssystem übernehmen könnte.

In einem weiteren beunruhigenden Fall entdeckte Mythos eine 27 Jahre alte Schwachstelle im Open-Source-Betriebssystem OpenBSD. Sie könnte es Angreifern erlauben, jede damit laufende Maschine abstürzen zu lassen. OpenBSD kommt weltweit häufig in besonders sicherheitskritischen Systemen und in Teilen der kritischen Infrastruktur zum Einsatz.

Mythos: Wer erhält Zugriff?

Angesichts dieser Befunde will Anthropic Mythos Preview nur ausgewählten großen Cybersecurity- und Softwarekonzernen zur Verfügung stellen.

Anthropic selbst und elf weitere Organisationen - Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, die Linux Foundation, Microsoft, Nvidia und Palo Alto Networks - erhalten Zugang zu dem Modell. Sie sind Teil einer neuen Anthropic-Initiative namens „Project Glasswing“.

Die Unternehmen dürfen Mythos Preview in ihrer Sicherheitsarbeit einsetzen. Anthropic will die wichtigsten Erkenntnisse aus dem Projekt öffentlich machen.

Benannt ist das Cybersicherheitsprojekt nach dem Glasflügelfalter. Er soll als Metapher dafür dienen, dass Mythos Lücken im Sichtbaren aufspürt und Schaden vermeidet, indem es offen mit den Risiken umgeht.

Anthropic erklärte, das langfristige Ziel sei, Nutzern zu ermöglichen, Modelle der Mythos-Klasse sicher und im großen Maßstab einzusetzen - für Cybersicherheitszwecke, aber auch für die vielen anderen Vorteile, die derartige Modelle mit sich bringen.

Dafür müsse man allerdings auch beim Aufbau von Schutzmechanismen vorankommen, die gefährliche Ausgaben der Modelle erkennen und blockieren, hieß es im Firmenblog.

Spricht Anthropic mit der US-Regierung?

In dem Blogeintrag schreibt Anthropic, man stehe in „laufenden Gesprächen“ mit Vertreterinnen und Vertretern der US-Regierung über Claude Mythos Preview und dessen offensive wie defensive Cyberfähigkeiten.

„Das Entstehen dieser Cyberfähigkeiten ist ein weiterer Grund, warum die USA und ihre Verbündeten einen deutlichen Vorsprung bei der KI-Technologie halten müssen“, heißt es weiter. Regierungen spielten eine wichtige Rolle dabei, diesen Vorsprung zu sichern und die mit KI-Modellen verbundenen Risiken für die nationale Sicherheit zu bewerten und zu begrenzen.

„Wir sind bereit, mit Vertretern auf kommunaler, bundesstaatlicher und Bundesebene zusammenzuarbeiten, um diese Aufgaben zu unterstützen.“

Die Ankündigung fällt in eine Phase, in der Anthropic und das Pentagon rechtlich auf Konfrontationskurs liegen. Das US-Verteidigungsministerium hatte das Unternehmen im Februar als Risiko für die Lieferkette eingestuft, weil Anthropic sich weigert, seine KI Claude für autonome Waffen und für umfassende Überwachungsprogramme zur Verfügung zu stellen.

Verfügen andere KI-Modelle über ähnliche Fähigkeiten?

„Noch leistungsstärkere Modelle werden von uns und von anderen kommen, und deshalb brauchen wir einen Plan, wie wir damit umgehen“, sagte Anthropic-Chef Dario Amodei in einem Video, das zusammen mit der Mythos-Ankündigung veröffentlicht wurde.

Bis andere KI-Anbieter ähnliche Modelle veröffentlichen, könnten zwischen sechs und 18 Monaten vergehen, sagte Logan Graham, Leiter des Frontier-Red-Teams von Anthropic, dem Portal Axios. Das Team untersucht, welche Folgen besonders fortgeschrittene KI-Modelle für Cyber- und Biosicherheit sowie für autonome Systeme haben.

„Für uns ist völlig klar, dass wir öffentlich darüber sprechen müssen“, betonte Graham. „Die Sicherheitsbranche muss verstehen, dass diese Fähigkeiten bald Realität werden könnten.“

Zu den Barrierefreiheitskürzeln springen

Kommentare

KI zu gefährlich für die Öffentlichkeit: Anthropic hält neues Modell zurück

Anthropic hält sein KI-Modell Mythos Preview noch nicht für marktreif. Kriminelle Hacker und Geheimdienste könnten es missbrauchen.

Mythos: Wie mächtig ist das Modell?

Mythos: Wer erhält Zugriff?

Spricht Anthropic mit der US-Regierung?

Verfügen andere KI-Modelle über ähnliche Fähigkeiten?

Zum selben Thema

Bill Ackman plant 56-Milliarden-Euro-Übernahme von Universal Music

Mexikanische Forschende entwickeln einfache Roboterhand aus Kindheitsversprechen

Die spektakulärsten Bilder der NASA-Mission Artemis II

Griechische Privatinsel steht für 247.000 Euro zum Verkauf

Sommerurlaub: Kurzreisen boomen – diese Ziele lohnen sich

Neuer Reisetrend "Dusking": Hier sind Sonnenuntergänge am schönsten

Traumschlaf in Südkorea: Steht hier das beste Hotelbett der Welt?

Zwei Mio. Dollar pro Duchfahrt: Iran richtet Hormus-Transitbehörde ein