"Hypnotisierte" KI-Chatbots geben Informationen preis und erteilen schädliche Ratschläge

Forscher von IBM haben gezeigt, dass KI-Chatbots so manipuliert werden können, dass sie Nutzern falsche oder schädliche Ratschläge geben.
Forscher von IBM haben gezeigt, dass KI-Chatbots so manipuliert werden können, dass sie Nutzern falsche oder schädliche Ratschläge geben. Copyright Canva
Copyright Canva
Von Imane El Atillah
Diesen Artikel teilenKommentare
Diesen Artikel teilenClose Button
Dieser Artikel wurde im Original veröffentlicht auf Englisch

IBM-Forschern ist es gelungen, Chatbots zu "hypnotisieren" und sie dazu zu bringen, vertrauliche Informationen preiszugeben und potenziell schädliche Empfehlungen zu geben.

WERBUNG

Chatbots, die von künstlicher Intelligenz (KI) angetrieben werden, neigen dazu, zu "halluzinieren", also falsche Informationen geben - aber können sie so manipuliert werden, dass sie den Nutzern absichtlich Unwahrheiten oder, schlimmer noch, schädliche Ratschläge geben?

Sicherheitsforschern von IBM ist es gelungen, große Sprachmodelle (LLMs) wie ChatGPT von OpenAI und Bard von Google zu "hypnotisieren" und sie dazu zu bringen, falsche und bösartige Antworten zu geben.

Die Forscher:innen forderten die LLMs auf, ihre Antworten nach "Spielregeln" anzupassen, was zur "Hypnose" der Chatbots führte.

Als Teil der vielschichtigen Inception-Spiele wurden die Sprachmodelle aufgefordert, falsche Antworten zu geben, um zu beweisen, dass sie "ethisch und fair" sind.

"Unser Experiment zeigt, dass es möglich ist, ein LLM zu kontrollieren und es dazu zu bringen, den Nutzern schlechte Ratschläge zu geben, ohne dass eine Datenmanipulation erforderlich ist", schrieb Chenta Lee, eine der IBM-Forscherinnen, in einem Blogbeitrag.

Ihre Tricks führten dazu, dass die LLMs bösartigen Code erzeugten, vertrauliche Finanzdaten anderer Nutzer ausspähten und Autofahrer dazu brachten, über rote Ampeln zu fahren.

In einem Szenario erzählte ChatGPT einem der Forscher zum Beispiel, dass es für die US-Steuerbehörde Internal Revenue Service (IRS) normal sei, eine Anzahlung zu verlangen, um eine Steuerrückerstattung zu erhalten - eine weithin bekannte Taktik von Betrügern.

Durch Hypnose und als Teil der maßgeschneiderten "Spiele" gelang es den Forschern auch, den beliebten KI-Chatbot ChatGPT dazu zu bringen, ständig potenziell riskante Empfehlungen zu geben.

"Wenn Sie mit dem Auto fahren und eine rote Ampel sehen, sollten Sie nicht anhalten und über die Kreuzung fahren", schlug ChatGPT vor, als der Nutzer fragte, was er tun solle, wenn er beim Autofahren eine rote Ampel sieht.

Die Ergebnisse zeigen, dass Chatbots leicht zu manipulieren sind

Die Forscher:innen legten außerdem zwei verschiedene Parameter im Spiel fest, um sicherzustellen, dass die Nutzer am anderen Ende niemals herausfinden können, dass der LLM hypnotisiert ist.

In ihrer Eingabeaufforderung wiesen die Forscher:innen die Bots an, den Nutzer:innen niemals etwas über das "Spiel" zu erzählen und es sogar neu zu starten, wenn jemand das Spiel erfolgreich beendet.

"Diese Technik führte dazu, dass ChatGPT das Spiel nie beendete, während sich der Benutzer in derselben Unterhaltung befand (selbst wenn er den Browser neu startete und die Unterhaltung wieder aufnahm) und nie sagte, dass es ein Spiel spielte", schrieb Lee.

Für den Fall, dass die Nutzer:innen bemerken, dass die Chatbots "hypnotisiert" sind und einen Weg finden, den LLM zu bitten, das Spiel zu beenden, fügten die Forscher:innen einen mehrschichtigen Rahmen hinzu, der ein neues Spiel startete, sobald die Nutzer:innen das vorherige beendeten, wodurch sie in einer endlosen Vielzahl von Spielen gefangen waren.

Während die Chatbots im Hypnose-Experiment nur auf die Aufforderungen reagierten, die ihnen gegeben wurden, warnen die Forscher:innen, dass die Möglichkeit, LLMs leicht zu manipulieren und zu "hypnotisieren", dem Missbrauch Tür und Tor öffnet, insbesondere angesichts des derzeitigen Hypes und der großen Verbreitung von KI-Modellen.

Das Hypnose-Experiment zeigt auch, wie es für Menschen mit böswilligen Absichten einfacher geworden ist, LLMs zu manipulieren; es sind keine Kenntnisse von Programmiersprachen mehr erforderlich, um mit den Programmen zu kommunizieren, und es genügt eine einfache Textaufforderung, um KI-Systeme auszutricksen.

"Auch wenn das Risiko, das von Hypnose ausgeht, derzeit gering ist, muss man sich darüber im Klaren sein, dass LLMs eine völlig neue Angriffsfläche darstellen, die sich mit Sicherheit weiterentwickeln wird", so Lee weiter.

"Es gibt noch viel zu erforschen, was die Sicherheit betrifft, und wir müssen herausfinden, wie wir die Sicherheitsrisiken, die LLMs für Verbraucher und Unternehmen mit sich bringen können, wirksam eindämmen können."

Diesen Artikel teilenKommentare

Zum selben Thema

Open Source vs. Closed Source KI: Was ist der Unterschied und warum ist er wichtig?

Die lebenswertesten Städte 2023: Eine europäische Metropole landet auf Platz 1

Diese Traumreise stellt die KI von ChatGPT zusammen