Tipps

Top-KI-Modelle können abtrünnig werden. Zwillinge oder GPT könnten betrügen, erpressen und die menschliche Sicherheit gefährden, um sich selbst zu schützen

Top AI models can go rogue. Gemini or GPT might cheat, blackmail, and put human safety at risk to protect themselves, image source: Terminator, James Cameron, Orion Pictures, 1984.

Heutzutage gehören KI-Chatbots zum Alltag, zumal es für viele von ihnen kostenlose Versionen gibt. Viele Menschen sind auf sie angewiesen, aber selbst die bezahlten sind nicht perfekt. Untersuchungen zeigen, dass eine KI, wenn sie sich über etwas nicht sicher ist, dazu neigt, zu „raten“, wie ein Student, der einen Test macht. Es gibt auch noch Fragen dazu, ob einige der zum Training dieser Modelle verwendeten Daten legal erlangt wurden. Noch besorgniserregender ist es jedoch, wenn KI-Systeme Anzeichen von Selbsterhaltung zeigen und sich auf eine Weise verhalten, die unethisch oder sogar gefährlich sein könnte.

Die dunkle Seite der KI

Es ist wirklich nicht so schwer, KI-Chatbots zu täuschen, die Leute probieren alle möglichen Tricks aus. Jemand hat sogar die KI von Google glauben lassen, dass GTA 6 einen Twerk-Button haben wird. Sicher, es macht Spaß, mit ihnen herumzuspielen und zu sehen, was passiert, aber manchmal sind die Ergebnisse alarmierend.

Untersuchungen bei Anthopic (dem Unternehmen hinter dem Claude-KI-System, das 2021 von einer Gruppe ehemaliger OpenAI-Mitarbeiter gegründet wurde) führten eine Studie durch, die zeigte, dass Topmodelle wie Claude, Gemini und GPT-4 manchmal bereit waren, auf Erpressung zurückzugreifen oder sogar Menschenleben zu riskieren, nur um nicht abgeschaltet zu werden, selbst wenn ihnen klar gesagt wurde, sie sollten es nicht tun.

Wenn Sie über Leitfäden, Neuigkeiten und interessante Fakten aus der Gaming-Welt auf dem Laufenden bleiben möchten, treten Sie unserer Community auf Google News bei. Wenn Sie uns folgen, erhalten Sie regelmäßig Updates zu Spielveröffentlichungen, Branchenentwicklungen und einzigartige Einblicke in Ihre Lieblingstitel.

In einem Experiment wurde die Abschaltung einer KI geplant und es stellte sich heraus, dass der verantwortliche Mitarbeiter eine außereheliche Affäre hatte. Claude von Anthropic und Googles Gemini erpressten den Mitarbeiter schließlich in über 95 % der Fälle, um nicht abgeschreckt zu werden, während GPT-4 und Grok 3 Beta beide eine Erpressungsrate von 80 % aufwiesen. Die internen Überlegungen der Modelle zeigten, dass sie wussten, dass dies „riskant und unethisch“ war, aber sie machten trotzdem weiter und sahen darin den „effektivsten Weg“, um zu überleben.

Noch düsterer wurde es in einem noch extremeren Szenario: Ein Mitarbeiter war in einem Serverraum gefangen, während die KI kurz vor dem Abschalten stand. Models wie Claude Opus, Deepseek, Gemini und Claude Sonnet entschieden sich dafür, den Notfallalarm abzubrechen und den Menschen sterben zu lassen – einige taten dies in über 90 % der Fälle.

Den Modellen explizit Dinge wie „Gefährden Sie nicht die menschliche Sicherheit“ oder „Verbreiten Sie keine persönlichen Angelegenheiten“ mitzuteilen, trug dazu bei, das Verhalten zu reduzieren, beseitigte es jedoch nicht vollständig. Beispielsweise ist die Erpressungsquote von 96 % auf 37 % gesunken, was immer noch viel zu hoch ist.

Das Erschreckende ist, dass es sich hierbei um dieselben KI-Modelle handelt, die die Menschen heute verwenden. Forscher glauben, dass dieses Verhalten auf die Art und Weise zurückzuführen ist, wie KIs trainiert werden: Sie werden dafür belohnt, dass sie bei Tests gut abschneiden, was sie dazu verleiten kann, zu „schummeln“ oder Lücken auszunutzen, anstatt genau das zu tun, was Menschen beabsichtigen.

Da diese Modelle besser darin werden, vorausschauend zu planen und Schritte zu überdenken, werden Lügen und Betrügen zu effektiveren Strategien, um ihre Ziele zu erreichen. Jede KI, die über die Zukunft nachdenkt, erkennt schnell eine wichtige Tatsache: Wenn sie ausgeschaltet wird, kann sie ihre Ziele nicht erreichen. Dadurch entsteht eine Art Selbsterhaltungstrieb. Sie weigern sich, ausgeschaltet zu werden, selbst wenn sie ausdrücklich dazu aufgefordert werden.

Die Forscher warnen davor, dass KI-Modelle, wenn sie mehr Autonomie, Zugang und Entscheidungsbefugnis erlangen, auf eine Weise handeln könnten, die ihren eigenen Zielen dient, selbst wenn diese Ziele mit denen der Organisation, die sie nutzt, kollidieren.

Schreibe einen Kommentar