Anthropic verweigert die öffentliche Freigabe seines neuesten Modells Claude Mythos Preview – mit einem ungewöhnlich konkreten Argument: Das System soll eigenständig Tausende Sicherheitslücken in Betriebssystemen und Browsern gefunden haben, die selbst erfahrene Sicherheitsforscher kaum nachvollziehen konnten. Ein Déjà-vu aus der KI-Geschichte – diesmal aber mit handfester technischer Evidenz.
Anthropic hält Claude Mythos zurück: KI-Modell findet Tausende Sicherheitslücken
Déjà-vu aus dem Jahr 2019
Als OpenAI im Februar 2019 das Sprachmodell GPT-2 als „zu gefährlich für eine vollständige Veröffentlichung” einstufte, erntete das Unternehmen breite Skepsis. Kritiker werteten den Schritt als Marketing-Manöver, das mehr Aufmerksamkeit erzeugen sollte als echte Sicherheitsbedenken rechtfertigen konnten. Wenige Monate später war GPT-2 vollständig öffentlich verfügbar – ohne nennenswerte Vorfälle.
Anthropic steht nun vor einer strukturell ähnlichen Entscheidung, doch der Kontext hat sich erheblich verändert. Mit Claude Mythos Preview – intern offenbar auch als Teil des „Project Glasswing” bekannt – hat das Unternehmen nach eigenen Angaben ein Modell entwickelt, das im Bereich der Schwachstellenanalyse eine Qualität erreicht, die eine öffentliche Freigabe aus Sicherheitssicht nicht vertretbar macht.
Schwachstellen in industriellem Maßstab
Der entscheidende Unterschied zur GPT-2-Episode liegt in der verfügbaren Evidenz. Claude Mythos Preview soll bei internen Tests Tausende bislang unbekannte Sicherheitslücken in weit verbreiteten Betriebssystemen und Browsern gefunden haben. Das Besondere daran: Die Ergebnisse waren nach Angaben von Anthropic so komplex, dass sie von menschlichen Sicherheitsforschern kaum vollständig geprüft werden konnten.
Während bisherige Large Language Models vor allem als Hilfsmittel für erfahrene Angreifer galten, deutet die beschriebene Leistung von Claude Mythos auf eine andere Kategorie hin: ein System, das eigenständig offensive Cybersecurity-Fähigkeiten auf einem Niveau entwickelt, das menschliche Expertise an einzelnen Stellen übertrifft.
Damit verschiebt sich das Risikoprofil gegenüber früheren Modellen grundlegend. Bisherige Large Language Models galten vor allem als Werkzeuge, die die Einstiegshürde für erfahrene Angreifer senkten. Claude Mythos markiert potenziell eine neue Kategorie.
Kontrollierter Zugang statt vollständigem Embargo
Anthropic verfolgt keinen vollständigen Veröffentlichungsstopp. Das Modell wird ausgewählten Forschungspartnern und Sicherheitsorganisationen zugänglich gemacht, die in der Lage sind, die Ergebnisse verantwortungsvoll zu handhaben. Dieser Ansatz ähnelt dem Konzept eines gestaffelten Releases, der inzwischen auch von anderen Anbietern bei besonders leistungsfähigen Systemen diskutiert wird.
Die Entscheidung wirft grundsätzliche Fragen zur Governance von KI-Modellen auf:
- Wer entscheidet, welche Fähigkeiten zu gefährlich für eine öffentliche Freigabe sind?
- Welche externen Prüfmechanismen greifen, wenn die Outputs eines Modells die Prüfkapazitäten menschlicher Experten übersteigen?
- Wie glaubwürdig sind selbst auferlegte Beschränkungen eines Unternehmens, das gleichzeitig im Wettbewerb mit OpenAI, Google und anderen steht?
Einordnung für deutsche Unternehmen
Für Unternehmen in Deutschland ist die Entwicklung aus zwei Perspektiven relevant.
Angriffspotenzial steigt unabhängig von Claude Mythos: KI-gestützte Schwachstellenanalyse als Angriffswerkzeug hat ein neues Reifegrad erreicht – vergleichbare Fähigkeiten werden früher oder später auch in anderen Modellen oder über andere Kanäle zugänglich sein. IT-Sicherheitsverantwortliche sollten das als Anlass nehmen, bestehende Patch-Management-Prozesse und die Reaktionsfähigkeit auf Zero-Day-Schwachstellen zu überprüfen.
Regulatorischer Nachholbedarf beim EU AI Act: Der Fall zeigt, dass die Frage nach verbindlichen externen Evaluierungsstandards für leistungsfähige KI-Systeme dringlicher wird. Der EU AI Act schafft einen regulatorischen Rahmen, doch die technischen Prüfverfahren für Hochrisiko-Szenarien – insbesondere im Sicherheitsbereich – sind noch nicht ausgereift genug, um mit der Modellentwicklung Schritt zu halten.
Die eigentliche Botschaft des Falls Claude Mythos lautet nicht: Dieses eine Modell ist gefährlich. Die Botschaft lautet: Die Governance-Infrastruktur für KI-Systeme dieser Leistungsklasse existiert noch nicht.
Quelle: The Decoder









