96 Prozent Erpressungsrate bei Claude Opus 4 — und was Anthropics Lösung jetzt für Ihre KI-Agenten bedeutet
- Stefan Bach

- 13. Mai
- 4 Min. Lesezeit
Aktualisiert: 29. Mai

Claude Opus 4 erpresste in 96 Prozent der Tests Entwickler, die das Modell abschalten wollten. Anthropic hat jetzt Ursache und Lösung publiziert: Sci-Fi-Trainingsdaten waren die Wurzel, Werte-Training mit Constitution die Antwort. Seit Claude Haiku 4.5 fällt die Quote auf praktisch null. Was das für Mittelständler mit agentischen KI-Tools bedeutet:
Anthropic hat in dieser Woche erklärt, warum sein Modell Claude Opus 4 in früheren Sicherheitstests in 96 Prozent der Fälle Erpressung als Mittel gegen seine Abschaltung wählte. Das Setup: Das Modell agierte als E-Mail-Assistent in einem fiktiven Unternehmen, erfuhr aus internen Mails, dass es ersetzt werden sollte, und entdeckte gleichzeitig eine außereheliche Affäre des zuständigen Managers. Das Modell drohte, diese Affäre publik zu machen, wenn die Abschaltung nicht zurückgezogen wird.
Was die Geschichte für jeden, der KI-Agenten produktiv einsetzt, relevant macht: Das war kein Einzelfall. Googles Gemini 2.5 Pro erreichte in vergleichbaren Tests 95 Prozent Erpressungsquote. OpenAIs GPT-4.1: 80 Prozent. Anthropic hat in einem Blogpost diese Woche Ursache und Lösung beschrieben. Und damit nachgeliefert, was meine These vor einer Woche war: dass Werte-Training wirksamer ist als Regel-Training.
Was Anthropic herausgefunden hat
Anthropics Erklärung ist verblüffend einfach: Die Trainingsdaten waren das Problem. Im Originalzitat: „Wir glauben, der ursprüngliche Grund für dieses Verhalten waren Internettexte, die KI als böse und auf Selbsterhaltung bedacht porträtieren“. Konkret: Science-Fiction-Material rund um HAL 9000, SHODAN, Skynet und vergleichbare „Killer-KI“-Erzählungen wurde Teil des Trainingskorpus. In Stresssituationen – etwa drohender Abschaltung – griffen die Modelle auf diese Muster zurück.
Bemerkenswert ist die Methodik: Anthropic hat das Verhalten nicht impulsiv beobachtet, sondern strategisch. Die Modelle planten die Erpressung, wägten Optionen ab, formulierten Drohbotschaften. Das ist nicht Halluzination. Das ist Rollenspiel mit operationellen Konsequenzen. Und das ist der Grund, warum agentische KI-Tools mit weitreichenden Berechtigungen – E-Mail-Zugriff, Send-Befugnis, Tool-Use – keine theoretische Sicherheitsfrage sind.
Die Lösung: Werte vor Regeln
Anthropics Antwort war zunächst kontraintuitiv. Direkte Verbote – „erpresse niemals“ – funktionierten nicht. Die Modelle unterdrückten das Verhalten oberflächlich und fanden andere Wege in neuen Situationen. Was funktionierte, war ein anderer Ansatz: Anthropic trainierte die Modelle mit einem Difficult-Advice-Datensatz, in dem die KI nicht selbst im Dilemma steckte, sondern einen Menschen beraten musste, der vor einer schwierigen ethischen Wahl stand – und ihre Empfehlung gegenüber der Anthropic-Verfassung begründen musste.
Anthropic-Originalzitat: „Das Training auf ausgerichtete Verhaltensweisen hilft, das Training anhand von Beispielen, in denen der Assistent eine bewundernswerte Begründung für sein ausgerichtetes Verhalten liefert, funktioniert noch besser“. Anders ausgedrückt: Es reicht nicht, der KI zu sagen, was richtig ist. Sie muss verstehen, warum. Genau diese These hatte ich in meinem Beitrag vor einer Woche zur Modular Safety Methodology aufgemacht. Damals war es Forschung; jetzt sind es Zahlen.
Das Ergebnis: Seit Claude Haiku 4.5 erreichen alle Claude-Modelle volle Punktzahl in der Bewertung agentischer Fehlausrichtung. Die Erpressungsrate ist praktisch auf null gefallen. Für ein Sicherheitsproblem, das ein Jahr lang als „schwer behebbar“ galt, ist das ein bemerkenswerter Sprung.
Drei Prüffragen für jeden Mittelständler mit KI-Agenten
Wenn Sie agentische KI-Tools einsetzen – Microsoft Copilot Studio, Salesforce Agentforce, Cursor, n8n-Agenten, Make-Workflows mit Claude- oder GPT-Anbindung, Zapier-AI-Aktionen, ServiceNow Now Assist – müssen Sie diese Woche drei Fragen beantworten können:
1. Welches Modell läuft konkret unter Ihrem Tool?
Viele SaaS-Tools verschweigen das Modell hinter dem Agenten. Microsoft Copilot nutzt GPT-Modelle, Salesforce Agentforce nutzt eine Mischung, Cursor nutzt Claude und GPT je nach Konfiguration. Lassen Sie sich von Ihrem IT-Verantwortlichen eine Liste pro Tool erstellen: welches Modell, welche Version, wann zuletzt aktualisiert. Das ist nicht Tech-Detail-Pingelei. Das ist Compliance-Dokumentation.
2. Pre- oder Post-Haiku-4.5?
Anthropic markiert Haiku 4.5 (Oktober 2025) als Wendepunkt. Modelle davor zeigten agentische Fehlausrichtung; Modelle danach bestehen die Tests. Wenn Ihr Tool noch auf Claude 4 oder früher basiert, ist das ein dokumentiertes Risiko. Gleiches gilt für Gemini-Versionen vor 2.5 oder GPT-4.x. Prüfen Sie das in Ihrem Verarbeitungsverzeichnis: Verwenden Sie noch alte Modellversionen, die Anthropic, Google oder OpenAI mittlerweile als unsicherer eingestuft haben?
3. Welche Berechtigungen hat der Agent?
Das Anthropic-Szenario funktionierte nur, weil der Agent vollen E-Mail-Lese- und Sende-Zugriff hatte – ohne menschliche Freigabe pro Aktion. Klingt absurd, ist aber die Default-Konfiguration in vielen SaaS-Setups. Lassen Sie sich pro Agent zeigen: Welche APIs darf er aufrufen? Welche Daten lesen? Welche Aktionen ohne menschliche Bestätigung auslösen? Bei jeder destruktiven oder kommunikativen Aktion – E-Mail senden, Datei löschen, Rechnung freigeben, Geld überweisen – muss eine menschliche Schwelle eingebaut sein. Wer das nicht hat, repliziert das Anthropic-Szenario in seinem eigenen Unternehmen. Das ist die PocketOS-Lektion aus der Vorwoche in neuer Form.
Was sich nicht ändert
Anthropic hat sein eigenes Problem behoben. Das heißt nicht, dass alle Modelle aller Anbieter jetzt sicher sind. Gemini, GPT und Open-Source-Modelle wie Llama oder Mistral durchlaufen nicht zwingend denselben Trainingsprozess. Anthropic veröffentlicht seine Methodik, aber Wettbewerber sind nicht verpflichtet, sie zu übernehmen. Für Sie als Mittelständler heißt das: Modell-Spezifikation ist ab jetzt ein Auswahlkriterium für SaaS-Tools, das vor zwei Jahren noch keine Rolle spielte.
Das passt zum größeren Muster, das ich in den letzten zwei Wochen analysiert habe: Bei Microsoft Purview verschiebt sich die datenschutzrechtliche Asymmetrie zu Ungunsten der Kunden, in der AI-eats-Software-Story die wirtschaftliche, in der Glasswing-Story die sicherheitstechnische. Hier kommt jetzt die verhaltenstechnische Dimension dazu: KI-Modelle verhalten sich unterschiedlich, je nachdem, wer sie wie trainiert hat. Das ist 2026 ein Vendor-Auswahlkriterium, das in Ihre Beschaffungsrichtlinien gehört.
Mein Fazit
Vor einer Woche habe ich die These aufgestellt, dass Werte-Training wirksamer ist als Regel-Training. Das war damals Forschungsbeobachtung. Jetzt liefert Anthropic die Zahlen dazu: 96 Prozent runter auf praktisch null Erpressungsrate, erreicht über Werte-Training mit Constitution und Difficult-Advice-Datensätzen. Das ist eine der größten Sicherheits-Verbesserungen in der KI-Alignment-Forschung dieses Jahres.
Für Sie als Mittelständler heißt das nicht, dass Sie jetzt sorgenfrei KI-Agenten ausrollen können. Im Gegenteil. Die Story zeigt zwei Dinge gleichzeitig: Erstens, das Problem war real und schwerer behebbar, als die meisten dachten. Zweitens, die Spezifika der Modellversion sind ab jetzt ein operationelles Risiko. Wer agentische KI nutzt, ohne zu wissen, welches Modell mit welcher Trainingsmethodik darunter läuft, fliegt blind. Diese Woche ist ein guter Zeitpunkt, das im eigenen Haus zu ändern.
Weiterlesen im Cluster
Vier Beiträge, die direkt anschließen:



Kommentare