Bei sogenannten Distillationsangriffen sammeln Entwickler Antworten großer KI-Modelle, um kleinere Systeme zu trainieren und deren Leistung zu kopieren.
Im Rennen zwischen den Vereinigten Staaten und China um die Vorherrschaft bei Künstlicher Intelligenz schlägt nun auch das US-Unternehmen Anthropic Alarm: Chinesische KI-Firmen sollen Technologien stehlen, die über den künftigen Sieger entscheiden könnten.
DeepSeek, Moonshot AI und MiniMax sollen heimlich mehr als 16 Millionen Unterhaltungen mit Anthropics Chatbot Claude erzeugt haben – über mehr als 24.000 Fake-Konten –, um dessen Wissen abzuschöpfen und eigene Konkurrenzmodelle zu trainieren, so der Vorwurf.
Auch OpenAI und Google haben in diesem Monat vor ähnlichen Vorgängen bei chinesischen Unternehmen gewarnt. In der Branche wächst die Sorge, dass China sich so jahrelange, teure KI-Forschung abkürzt.
Was ist KI-„Distillation“?
Sogenannte Angriffe zur Modellentnahme (Model Extraction Attacks, MEA), auch „Distillation“ genannt, nutzen ein leistungsstarkes KI-Modell, um damit einen günstigeren und schnelleren Konkurrenten zu trainieren.
Dazu stellen die Angreifer dem großen Modell Tausende Fragen, sammeln die Antworten und bringen einem neuen System bei, auf ähnliche Weise zu denken.
Wer Zugriff auf das große Modell hat, kann es immer wieder befragen und die Reaktionen zum Training eines kleineren Modells verwenden. Dieses reift dadurch deutlich schneller heran und kostet laut Anthropic nur einen Bruchteil dessen, was eine eigene Entwicklung verschlingen würde.
Grundsätzlich gilt Distillation als legitime Praxis, wenn führende KI-Labore ihre eigenen Modelle verkleinern, um günstigere Versionen für Kunden anzubieten, erklärte das US-Unternehmen.
Solche kompakten Modelle reagieren viel schneller auf Anfragen und benötigen weniger Rechenleistung und Energie als die großen Ausgangsmodelle, so Google.
Nach Ansicht von Anthropic bergen jedoch durch Distillation nachgebaute Modelle erhebliche Risiken für die nationale Sicherheit, weil ihnen wichtige Schutzmechanismen fehlen.
Diese Systeme könnten Staaten oder nichtstaatliche Akteure etwa zur Entwicklung biologischer Waffen oder für Cyberangriffe einsetzen, ohne dass eingebaute Schranken dies ausreichend verhindern, warnt das Unternehmen.
Für normale Nutzerinnen und Nutzer von KI-Diensten bestehe bei solchen Angriffen kein unmittelbares Risiko, ergänzte Google. Die Distillation gefährde weder Vertraulichkeit noch Verfügbarkeit oder Integrität der angebotenen Dienste.
OpenAI berichtete US-Gesetzgebern im Februar, das Unternehmen habe DeepSeek dabei ertappt, heimlich seine leistungsfähigsten Modelle zu kopieren – und warnte, die chinesische Firma entwickle ständig neue Methoden, um ihr Vorgehen zu verschleiern.
Was bringen Hacker ihren Modellen bei?
Die betroffenen chinesischen KI-Firmen sollen ihren Datenverkehr über Proxy-Adressen geleitet haben, die ein riesiges „Hydra-Netzwerk“ aus Fake-Konten steuerten. Diese Konten verteilten die Aktivitäten über verschiedene Plattformen, um trotz des China-Verbots Zugang zu Anthropic zu erhalten.
Hatten sie einmal Zugang, erzeugten sie massenhaft Eingaben an den Chatbot. Ein Teil der Antworten floss direkt in das Training ihrer eigenen Modelle ein. Außerdem ließen sie Claude Zehntausende Aufgaben für sogenanntes Reinforcement Learning erstellen, bei dem eine KI aus Rückmeldungen lernt, bessere Entscheidungen zu treffen.
Die DeepSeek-Konten, die Claude angriffen, baten das System zudem, seine Gedankengänge zu erklären und Antworten Schritt für Schritt herzuleiten. So entstand laut Anthropic in großem Stil Trainingsmaterial für „Chain-of-Thought“-Modelle.
Außerdem nutzten die Angreifer Claude demnach, um zensurverträgliche Antworten auf politisch heikle Fragen zu erzeugen – etwa zu Gegnern der derzeitigen Kommunistischen Partei, so Anthropic.
Anthropic vermutet, dass diese Fragen DeepSeeks Modelle darauf trainierten, Gespräche aktiv von verbotenen Themen wegzulenken. Das würde eine jüngere Studie stützen, nach der chinesische KI-Systeme vermutlich dieselben Inhalte zensieren wie die staatlich kontrollierten Medien.
Die Distillationskampagnen von MiniMax AI und Moonshoot AI fielen laut Anthropic noch umfangreicher aus als die von DeepSeek. Zu den konkreten Inhalten der abgefragten Prompts nannte das Unternehmen jedoch keine Beispiele.
Google mitteilte (Quelle auf Englisch), sein Chatbot Gemini werde immer wieder missbraucht, etwa für Programmier- und Skriptaufgaben oder zur Beschaffung sensibler Informationen wie Zugangsdaten und E-Mail-Adressen.
Anthropic erklärt, man habe Erkennungssysteme entwickelt, die solche Kampagnen in Echtzeit aufspüren sollen. Das Grundproblem könne jedoch kein einzelnes KI-Unternehmen alleine lösen.