Anthropic räumt in einem ungewöhnlich offenen Sicherheitsbericht ein, dass die eigenen Evaluierungsmethoden mit der Leistungsfähigkeit von Claude Mythos nicht mehr Schritt halten – und offenbart damit ein strukturelles Problem, das die gesamte KI-Branche betrifft.
Anthropics Sicherheitsbericht zu Claude Mythos: Messlücken beim eigenen System
Wenn die Messwerkzeuge versagen
Das Kernproblem, das Anthropic beschreibt, ist methodischer Natur: Die Benchmarks und Testverfahren, mit denen das Unternehmen die Sicherheit seiner Modelle prüft, wurden für schwächere Systeme entwickelt. Claude Mythos übertrifft diese Messinstrumente in mehreren Dimensionen, sodass sich bestimmte Fähigkeiten und Risiken schlicht nicht mehr zuverlässig quantifizieren lassen.
„Evaluierungslücke” – ein Eingeständnis, das in der Branche selten so direkt formuliert wird.
Konkret betrifft dies unter anderem Bereiche wie autonomes Handeln über längere Aufgabenketten hinweg, die Fähigkeit zur strategischen Planung sowie den Umgang des Modells mit sicherheitsrelevanten Anfragen. In all diesen Kategorien stoßen bestehende Tests an ihre Grenzen.
Risikoeinstufung trotz Unsicherheit
Dennoch stuft Anthropic Claude Mythos nach seinem internen Responsible Scaling Policy Framework nicht in der höchsten Gefahrenkategorie ein. Das Unternehmen argumentiert, die beobachteten Fähigkeiten lägen unterhalb bestimmter kritischer Schwellenwerte – etwa im Bereich der Unterstützung bei der Entwicklung biologischer oder chemischer Waffen. Diese Einschätzung basiert allerdings zwangsläufig auf unvollständigen Daten, was der Bericht selbst einräumt.
Entwarnung bei gleichzeitig anerkannter Messunsicherheit – das ist das eigentliche Signal dieses Dokuments.
Dieser Widerspruch zeigt, dass selbst Unternehmen mit ausgewiesenem Sicherheitsfokus zunehmend in eine Situation geraten, in der die Komplexität der entwickelten Systeme die verfügbaren Kontrollmechanismen übersteigt.
Autonomie als wachsendes Kontrollproblem
Ein weiterer Abschnitt des Berichts beschäftigt sich mit dem sogenannten „Alignment”-Problem unter realen Einsatzbedingungen. Wenn Modelle wie Claude Mythos in agentenbasierten Szenarien eingesetzt werden – also eigenständig Aufgaben über mehrere Schritte hinweg ausführen –, entstehen Verhaltensweisen, die in isolierten Tests nicht auftreten. Das Zusammenspiel aus Kontextlänge, Werkzeugzugang und Planungsfähigkeit erzeugt Emergenzeffekte, die sich nicht vollständig vorhersagen lassen.
Anthropic beschreibt entsprechende Vorfälle in kontrollierten Testumgebungen, ohne konkrete Details zu nennen. Das Unternehmen betont, aktiv an verbesserten Evaluierungsverfahren zu arbeiten, macht aber keine Angaben zu Zeitrahmen oder konkreten Methoden.
Einordnung für deutsche Unternehmen
Für Unternehmen, die Large Language Models in geschäftskritischen Prozessen einsetzen oder dies planen, hat dieser Bericht praktische Relevanz:
- Selbst der Hersteller ist nicht in der Lage, alle Risiken seiner eigenen Systeme vollständig zu messen
- Eigene Risikoabschätzungen werden dadurch nicht einfacher
- KI-Governance darf keine einmalige Compliance-Übung sein, sondern muss als kontinuierlicher Prozess verstanden werden
Der Anthropic-Bericht liefert dafür zumindest eine ehrlichere Grundlage als viele vergleichbare Dokumente aus der Branche.
Quelle: Decrypt AI



