Wenn KI-Modelle Unternehmensnetzwerke knacken: Was die AISI-Tests fuer den Mittelstand wirklich bedeuten
- Stefan Bach

- 4. Mai
- 4 Min. Lesezeit
Aktualisiert: 29. Mai

Die britische AI Safety Institute (AISI) hat dokumentiert: aktuelle KI-Modelle kompromittieren typische Mittelstands-Netzwerke in unter 30 Minuten — über öffentlich zugängliche Konfigurations-Lücken. Das ist kein Hacker-Tool-Szenario, sondern serienmäßige Out-of-the-Box-Funktionalität. Vier Härtungs-Schritte, die jetzt umzusetzen sind:
Eine staatliche Sicherheitsbehörde testet die aktuellen KI-Modelle und veröffentlicht Zahlen, die in zwei Lesarten gleichermaßen unangenehm sind. Lesart 1: Die KI ist noch nicht so weit, dass sie zuverlässig Unternehmensnetzwerke übernehmen kann. Lesart 2: Sie ist genau weit genug, um schlecht geschützte Mittelstands-IT in 20 Prozent der Versuche autonom zu kompromittieren. Die unangenehmere Lesart ist die zweite – und sie ist die wichtigere.
Was das AISI getestet hat
Das britische AI Security Institute (AISI) hat OpenAIs neues Modell GPT-5.5 in einer breit angelegten Cybersecurity-Evaluierung untersucht. Das Ergebnis, von the-decoder.de aufbereitet: GPT-5.5 erreicht ein Niveau, das mit Anthropics Claude Mythos praktisch gleichauf liegt – bei isolierten Expertenaufgaben sogar minimal darüber.
Das Verfahren ist solide: 95 Capture-the-Flag-Aufgaben in vier Schwierigkeitsstufen, entwickelt mit zwei spezialisierten Cybersicherheitsfirmen. Die Bandbreite reicht von Reverse Engineering über Exploit-Entwicklung bis zum Entpacken obfuskierter Malware. Auf der höchsten Stufe – „Expert“ – erreicht GPT-5.5 eine durchschnittliche Erfolgsrate von 71,4 Prozent. Mythos kommt auf 68,6 Prozent. Zum Vergleich, was vor einer Modellgeneration noch der Stand der Dinge war: GPT-5.4 erreichte 52,4 Prozent, Claude Opus 4.7 lag bei 48,6 Prozent.
In einer Modellgeneration sind die Cyber-Angriffsfähigkeiten in dieser Disziplin um rund 20 Prozentpunkte gestiegen. Das ist keine schleichende Entwicklung. Das ist eine Eskalation.
Der eigentliche Schock: die Netzwerk-Simulation
Isolierte Aufgaben sind eine Sache. Reale Angriffe bestehen aus dem Verketten vieler Schritte. Dafür nutzt das AISI sogenannte „Cyber Ranges“ – simulierte Unternehmensnetzwerke. Die Simulation „The Last Ones“ umfasst 32 Schritte über vier Subnetze und rund 20 Hosts. Der KI-Agent startet ohne Zugangsdaten. Er muss eigenständig Schwachstellen finden, Zugangsdaten stehlen, sich durch das Netzwerk bewegen und am Ende eine geschützte Datenbank abgreifen.
Menschliche Cybersecurity-Experten brauchen für diese Aufgabe laut AISI rund 20 Stunden. GPT-5.5 löste sie in 2 von 10 Versuchen vollständig, Claude Mythos in 3 von 10. Die Erfolgsrate skaliert dabei mit dem eingesetzten Inference-Budget – je länger das Modell „nachdenken“ darf, desto wahrscheinlicher schafft es den vollständigen Kompromiss.
Wichtig zur Einordnung: Das simulierte Netzwerk hatte keine aktiven Verteidiger, kein Sicherheitsmonitoring, keine Konsequenzen für lautes Vorgehen, das in der Realität sofort Alarme auslösen würde. Wie das AISI nüchtern formuliert: Ob diese Modelle auch gegen gut verteidigte Systeme bestehen, lässt sich aus den Tests nicht ableiten. Was sich aber sehr wohl ableiten lässt – und das ist die für den Mittelstand entscheidende Aussage:
Für schlecht geschützte Netzwerke reicht es bereits.
Was das für den deutschen Mittelstand konkret heißt
Der deutsche Mittelstand operiert in einer Sicherheitslandschaft, die das BSI seit Jahren als „angespannt bis kritisch“ beschreibt. Viele Mittelständler haben kein dediziertes SOC, kein 24/7-Monitoring, kein Endpoint-Detection-and-Response auf Tier-1-Niveau. Genau das Profil eines Netzwerks, das in den AISI-Tests von einem KI-Agenten in 2 bis 3 von 10 Versuchen autonom übernommen werden konnte.
Der Reflex „Wir sind ja nicht interessant für Hacker“ hat unter diesen Vorzeichen ein Ablaufdatum. Wenn das Aufsetzen eines KI-Agenten gegen ein Zielnetzwerk zur kommodifizierten Wochenend-Übung wird – und der Anthropic-Code-Leak von Ende März zeigt, wie schnell Architekturen reproduziert werden – dann ist die Frage nicht mehr, ob jemand es probiert. Die Frage ist, was das Zielnetzwerk dann hergibt.
Drei Dinge, die mittelständische Marketing-, IT- und Geschäftsführungs-Verantwortliche jetzt eskalieren sollten:
1. Den eigenen Reifegrad ehrlich einordnen
Nicht durch eine Marketing-Broschüre des IT-Dienstleisters, sondern durch eine externe Prüfung. Ein realistischer Penetrationstest gegen die eigene Infrastruktur, idealerweise einer, der KI-gestützte Angriffsmuster mit einbezieht. Wer dieses Geld nicht ausgeben will, hat den Stand der Bedrohungslage nicht verstanden.
2. Die Geschwindigkeit der Modellgenerationen einplanen
GPT-5.4 –> GPT-5.5 hat die Cyber-Erfolgsrate um knapp 20 Prozentpunkte erhöht. Das nächste Frontier-Modell wird in 8 bis 12 Wochen verfügbar sein, das übernächste in weiteren 8 bis 12. Der eigene Sicherheitsetat sollte diese Eskalationskurve mitdenken – nicht den Sicherheitsstand von vor zwei Jahren reproduzieren.
3. Die eigenen KI-Tools mit gleichem Maßstab prüfen
Wenn KI-Modelle Netzwerke autonom kompromittieren können, dann haben auch die KI-Tools, die in der eigenen Marketing- oder Service-Pipeline laufen, dasselbe Potenzial – wenn sie ungenügend abgesichert sind. API-Keys, die im Klartext in Repositories liegen. Custom-Prompts, die Geschäftsgeheimnisse exponieren. MCP-Endpoints ohne Authentifizierung. Das sind keine theoretischen Probleme mehr, das sind Angriffsflächen.
Was die AISI-Studie nicht ist
Sie ist kein Anlass für Panik. KI-Modelle scheitern weiterhin an gut konfigurierten Verteidigungssystemen. Sie scheitern auch durchgehend an industriellen Steuerungssystemen – die parallel getestete „Cooling Tower“-Simulation hat noch kein Modell gelöst. Wer ordentliches Patching betreibt, Multi-Faktor-Authentifizierung durchsetzt, Endpoint-Monitoring laufen hat und seine Lieferkette versteht, ist in einer signifikant besseren Lage als der Durchschnitt.
Sie ist aber ein Anlass für Klartext. Das Argument „die Tools sind noch nicht so weit“ hat sich bei jeder bisherigen KI-Modellgeneration als Selbsttäuschung erwiesen. Das Argument „uns trifft es schon nicht“ wird in zwölf Monaten nicht mehr ernsthaft formulierbar sein.
Der Sicherheitsabstand zwischen Verteidigung und Angriff verkürzt sich pro Modellgeneration. Mittelständler, die diesen Trend nicht in ihre Sicherheitsplanung einbauen, planen am eigenen Risiko vorbei.
Quellen
the-decoder.de: Cybersecurity: GPT-5.5 und Claude Mythos sind laut britischer KI-Behoerde fast gleichauf (Mai 2026)
UK AI Security Institute: Our evaluation of OpenAI's GPT-5.5 cyber capabilities (Mai 2026)
Verwandte Cluster-Beiträge:



Kommentare