Tag: KI-Governance

  • Anthropic hält Claude zurück: KI-Modell findet Tausende Sicherheitslücken

    Anthropic hält Claude zurück: KI-Modell findet Tausende Sicherheitslücken

    Anthropic verweigert die öffentliche Freigabe seines neuesten Modells Claude Mythos Preview – mit einem ungewöhnlich konkreten Argument: Das System soll eigenständig Tausende Sicherheitslücken in Betriebssystemen und Browsern gefunden haben, die selbst erfahrene Sicherheitsforscher kaum nachvollziehen konnten. Ein Déjà-vu aus der KI-Geschichte – diesmal aber mit handfester technischer Evidenz.

    Anthropic hält Claude Mythos zurück: KI-Modell findet Tausende Sicherheitslücken

    Déjà-vu aus dem Jahr 2019

    Als OpenAI im Februar 2019 das Sprachmodell GPT-2 als „zu gefährlich für eine vollständige Veröffentlichung” einstufte, erntete das Unternehmen breite Skepsis. Kritiker werteten den Schritt als Marketing-Manöver, das mehr Aufmerksamkeit erzeugen sollte als echte Sicherheitsbedenken rechtfertigen konnten. Wenige Monate später war GPT-2 vollständig öffentlich verfügbar – ohne nennenswerte Vorfälle.

    Anthropic steht nun vor einer strukturell ähnlichen Entscheidung, doch der Kontext hat sich erheblich verändert. Mit Claude Mythos Preview – intern offenbar auch als Teil des „Project Glasswing” bekannt – hat das Unternehmen nach eigenen Angaben ein Modell entwickelt, das im Bereich der Schwachstellenanalyse eine Qualität erreicht, die eine öffentliche Freigabe aus Sicherheitssicht nicht vertretbar macht.

    Schwachstellen in industriellem Maßstab

    Der entscheidende Unterschied zur GPT-2-Episode liegt in der verfügbaren Evidenz. Claude Mythos Preview soll bei internen Tests Tausende bislang unbekannte Sicherheitslücken in weit verbreiteten Betriebssystemen und Browsern gefunden haben. Das Besondere daran: Die Ergebnisse waren nach Angaben von Anthropic so komplex, dass sie von menschlichen Sicherheitsforschern kaum vollständig geprüft werden konnten.

    Während bisherige Large Language Models vor allem als Hilfsmittel für erfahrene Angreifer galten, deutet die beschriebene Leistung von Claude Mythos auf eine andere Kategorie hin: ein System, das eigenständig offensive Cybersecurity-Fähigkeiten auf einem Niveau entwickelt, das menschliche Expertise an einzelnen Stellen übertrifft.

    Damit verschiebt sich das Risikoprofil gegenüber früheren Modellen grundlegend. Bisherige Large Language Models galten vor allem als Werkzeuge, die die Einstiegshürde für erfahrene Angreifer senkten. Claude Mythos markiert potenziell eine neue Kategorie.

    Kontrollierter Zugang statt vollständigem Embargo

    Anthropic verfolgt keinen vollständigen Veröffentlichungsstopp. Das Modell wird ausgewählten Forschungspartnern und Sicherheitsorganisationen zugänglich gemacht, die in der Lage sind, die Ergebnisse verantwortungsvoll zu handhaben. Dieser Ansatz ähnelt dem Konzept eines gestaffelten Releases, der inzwischen auch von anderen Anbietern bei besonders leistungsfähigen Systemen diskutiert wird.

    Die Entscheidung wirft grundsätzliche Fragen zur Governance von KI-Modellen auf:

    • Wer entscheidet, welche Fähigkeiten zu gefährlich für eine öffentliche Freigabe sind?
    • Welche externen Prüfmechanismen greifen, wenn die Outputs eines Modells die Prüfkapazitäten menschlicher Experten übersteigen?
    • Wie glaubwürdig sind selbst auferlegte Beschränkungen eines Unternehmens, das gleichzeitig im Wettbewerb mit OpenAI, Google und anderen steht?

    Einordnung für deutsche Unternehmen

    Für Unternehmen in Deutschland ist die Entwicklung aus zwei Perspektiven relevant.

    Angriffspotenzial steigt unabhängig von Claude Mythos: KI-gestützte Schwachstellenanalyse als Angriffswerkzeug hat ein neues Reifegrad erreicht – vergleichbare Fähigkeiten werden früher oder später auch in anderen Modellen oder über andere Kanäle zugänglich sein. IT-Sicherheitsverantwortliche sollten das als Anlass nehmen, bestehende Patch-Management-Prozesse und die Reaktionsfähigkeit auf Zero-Day-Schwachstellen zu überprüfen.

    Regulatorischer Nachholbedarf beim EU AI Act: Der Fall zeigt, dass die Frage nach verbindlichen externen Evaluierungsstandards für leistungsfähige KI-Systeme dringlicher wird. Der EU AI Act schafft einen regulatorischen Rahmen, doch die technischen Prüfverfahren für Hochrisiko-Szenarien – insbesondere im Sicherheitsbereich – sind noch nicht ausgereift genug, um mit der Modellentwicklung Schritt zu halten.

    Die eigentliche Botschaft des Falls Claude Mythos lautet nicht: Dieses eine Modell ist gefährlich. Die Botschaft lautet: Die Governance-Infrastruktur für KI-Systeme dieser Leistungsklasse existiert noch nicht.


    Quelle: The Decoder

  • Anthropic hält KI-Modell wegen Cyberangriffs-Potenzial zurück

    Anthropic hält KI-Modell wegen Cyberangriffs-Potenzial zurück

    Ein KI-Labor zieht eine seltene Konsequenz: Anthropic hat ein intern entwickeltes Modell mit dem Namen „Mythos” bewusst nicht veröffentlicht – weil es zu gut darin ist, Cyberangriffe zu unterstützen. Der Vorgang ist ein Präzedenzfall für die gesamte Branche.

    Anthropic hält KI-Modell wegen Cyberangriffs-Potenzial zurück

    Fähigkeiten jenseits der Veröffentlichungsschwelle

    Bei dem zurückgehaltenen System handelt es sich um ein Modell mit dem internen Namen „Mythos”, das laut Axios im Rahmen von Sicherheitstests Fähigkeiten gezeigt hat, die über das hinausgehen, was Anthropic als vertretbares Risiko für eine öffentliche Bereitstellung einstuft. Konkret soll das Modell in der Lage sein, bei Cyberangriffen auf einem Niveau zu unterstützen, das bislang spezialisierten Bedrohungsakteuren vorbehalten war – etwa bei der Entwicklung von Exploits oder der Analyse von Schwachstellen in komplexen Systemen.

    Anthropic verwendet intern ein Risikostufen-Framework namens „Responsible Scaling Policy”, das festlegt, unter welchen Bedingungen Modelle trainiert, eingesetzt oder zurückgehalten werden. „Mythos” soll dabei eine Schwelle überschritten haben, die eine öffentliche Freigabe nach aktuellem Stand ausschließt.

    Es ist einer der seltenen dokumentierten Fälle, in denen ein führendes KI-Labor ein fertiges Modell bewusst vom Markt zurückhält – aus Sicherheitsgründen.

    Kontrollierter Zugang statt vollständiger Sperrung

    Eine vollständige Sperrung bedeutet die Entscheidung jedoch nicht. Anthropic plant offenbar, das Modell einem eingeschränkten Kreis von Sicherheitsforschern und ausgewählten Partnern zugänglich zu machen – unter kontrollierten Bedingungen und mit entsprechenden Nutzungsvereinbarungen. Ziel ist es, die defensiven Möglichkeiten des Modells nutzbar zu machen, ohne offensive Kapazitäten breit zu streuen.

    Dieser Ansatz spiegelt eine wachsende Debatte in der KI-Branche wider: Leistungsfähige Modelle, die bei Penetrationstests oder der Bedrohungsanalyse nützlich sein können, sind strukturell schwer von solchen zu unterscheiden, die bei der Planung von Angriffen helfen. Die Dual-Use-Problematik ist bei Cybersecurity-Anwendungen besonders ausgeprägt.

    Signalwirkung für die Branche

    Die Entscheidung hat über Anthropic hinaus Bedeutung. Bislang dominierte in der Branche der Druck, Modelle möglichst schnell und breit zu veröffentlichen – nicht zuletzt aus Wettbewerbsgründen. Dass ein Anbieter diesen Druck zugunsten von Sicherheitsbedenken zurückstellt, ist bemerkenswert, auch wenn Anthropic mit seiner sicherheitsorientierten Unternehmenskultur eine Sonderstellung einnimmt.

    Regulierungsinitiativen wie der EU AI Act klassifizieren bestimmte KI-Anwendungen im Sicherheitsbereich bereits als Hochrisiko-Systeme. Die Entscheidung von Anthropic dürfte Behörden und Standardisierungsgremien zusätzliche Argumente liefern, Veröffentlichungspflichten und Risikobewertungsverfahren für leistungsfähige Modelle stärker zu formalisieren.

    Einordnung für deutsche Unternehmen

    Für IT-Sicherheitsverantwortliche in deutschen Unternehmen hat der Vorgang eine unmittelbare praktische Dimension: Wenn ein KI-Labor selbst zu dem Schluss kommt, dass ein Modell zu gefährlich für die allgemeine Verfügbarkeit ist, unterstreicht das die Notwendigkeit, die eigene Bedrohungsmodellierung um KI-gestützte Angriffsvektoren zu erweitern.

    Modelle mit vergleichbaren Fähigkeiten könnten über weniger regulierte Anbieter oder Open-Source-Wege dennoch zugänglich werden. Unternehmen sollten prüfen, ob ihre bestehenden Sicherheitsarchitekturen und -prozesse auf den Einsatz KI-unterstützter Angriffswerkzeuge durch externe Akteure vorbereitet sind.


    Quelle: Axios AI