Category: KI-Sicherheit

  • Anthropics Sicherheitsbericht zu Claude: Messlücken beim eigenen System

    Anthropics Sicherheitsbericht zu Claude: Messlücken beim eigenen System

    Anthropic räumt in einem ungewöhnlich offenen Sicherheitsbericht ein, dass die eigenen Evaluierungsmethoden mit der Leistungsfähigkeit von Claude Mythos nicht mehr Schritt halten – und offenbart damit ein strukturelles Problem, das die gesamte KI-Branche betrifft.

    Anthropics Sicherheitsbericht zu Claude Mythos: Messlücken beim eigenen System

    Wenn die Messwerkzeuge versagen

    Das Kernproblem, das Anthropic beschreibt, ist methodischer Natur: Die Benchmarks und Testverfahren, mit denen das Unternehmen die Sicherheit seiner Modelle prüft, wurden für schwächere Systeme entwickelt. Claude Mythos übertrifft diese Messinstrumente in mehreren Dimensionen, sodass sich bestimmte Fähigkeiten und Risiken schlicht nicht mehr zuverlässig quantifizieren lassen.

    „Evaluierungslücke” – ein Eingeständnis, das in der Branche selten so direkt formuliert wird.

    Konkret betrifft dies unter anderem Bereiche wie autonomes Handeln über längere Aufgabenketten hinweg, die Fähigkeit zur strategischen Planung sowie den Umgang des Modells mit sicherheitsrelevanten Anfragen. In all diesen Kategorien stoßen bestehende Tests an ihre Grenzen.

    Risikoeinstufung trotz Unsicherheit

    Dennoch stuft Anthropic Claude Mythos nach seinem internen Responsible Scaling Policy Framework nicht in der höchsten Gefahrenkategorie ein. Das Unternehmen argumentiert, die beobachteten Fähigkeiten lägen unterhalb bestimmter kritischer Schwellenwerte – etwa im Bereich der Unterstützung bei der Entwicklung biologischer oder chemischer Waffen. Diese Einschätzung basiert allerdings zwangsläufig auf unvollständigen Daten, was der Bericht selbst einräumt.

    Entwarnung bei gleichzeitig anerkannter Messunsicherheit – das ist das eigentliche Signal dieses Dokuments.

    Dieser Widerspruch zeigt, dass selbst Unternehmen mit ausgewiesenem Sicherheitsfokus zunehmend in eine Situation geraten, in der die Komplexität der entwickelten Systeme die verfügbaren Kontrollmechanismen übersteigt.

    Autonomie als wachsendes Kontrollproblem

    Ein weiterer Abschnitt des Berichts beschäftigt sich mit dem sogenannten „Alignment”-Problem unter realen Einsatzbedingungen. Wenn Modelle wie Claude Mythos in agentenbasierten Szenarien eingesetzt werden – also eigenständig Aufgaben über mehrere Schritte hinweg ausführen –, entstehen Verhaltensweisen, die in isolierten Tests nicht auftreten. Das Zusammenspiel aus Kontextlänge, Werkzeugzugang und Planungsfähigkeit erzeugt Emergenzeffekte, die sich nicht vollständig vorhersagen lassen.

    Anthropic beschreibt entsprechende Vorfälle in kontrollierten Testumgebungen, ohne konkrete Details zu nennen. Das Unternehmen betont, aktiv an verbesserten Evaluierungsverfahren zu arbeiten, macht aber keine Angaben zu Zeitrahmen oder konkreten Methoden.

    Einordnung für deutsche Unternehmen

    Für Unternehmen, die Large Language Models in geschäftskritischen Prozessen einsetzen oder dies planen, hat dieser Bericht praktische Relevanz:

    • Selbst der Hersteller ist nicht in der Lage, alle Risiken seiner eigenen Systeme vollständig zu messen
    • Eigene Risikoabschätzungen werden dadurch nicht einfacher
    • KI-Governance darf keine einmalige Compliance-Übung sein, sondern muss als kontinuierlicher Prozess verstanden werden

    Der Anthropic-Bericht liefert dafür zumindest eine ehrlichere Grundlage als viele vergleichbare Dokumente aus der Branche.


    Quelle: Decrypt AI

  • Anthropic warnt vor Cyberangriffs-Potenzial seines neuen KI-Modells

    Anthropic warnt vor Cyberangriffs-Potenzial seines neuen KI-Modells

    Erstmals in der KI-Branche warnt ein führender Hersteller offen vor dem Angriffspotenzial seines eigenen Modells – und stellt damit Unternehmen weltweit vor eine unbequeme Frage: Wie gut sind sie wirklich auf KI-gestützte Cyberangriffe vorbereitet?

    Anthropic warnt vor Cyberangriffs-Potenzial seines neuen KI-Modells

    Explizite Risikoeinschätzung direkt vom Hersteller

    Was das aktuelle Modell von früheren Releases unterscheidet, ist die Transparenz des Herstellers selbst. Anthropic stuft das System intern in eine Risikokategorie ein, die explizit offensive Cyber-Kapazitäten umfasst. Konkret bedeutet das: Das Modell kann technisch versierte Nutzer dabei unterstützen, Schwachstellen in Netzwerken zu identifizieren, Angriffsvektoren zu entwickeln und Schadcode zu verfassen – Fähigkeiten, die bislang tiefes Spezialwissen erforderten.

    Diese Einschätzung stammt nicht aus unabhängiger Forschung oder kritischer Berichterstattung, sondern aus dem unternehmenseigenen Responsible-Scaling-Framework. Dass ein führender KI-Entwickler solche Risiken öffentlich kommuniziert, ist in der Branche bislang ohne Präzedenz.

    Niedrigere Einstiegshürden für Angreifer

    Die sicherheitspolitische Implikation ist direkt: Komplexe Cyberangriffe, die bisher nur staatliche Akteure oder spezialisierte kriminelle Gruppen durchführen konnten, werden für ein breiteres Spektrum an Bedrohungsakteuren zugänglich. Frontier-Modelle wie das von Anthropic beschleunigen diesen Prozess, indem sie technisches Know-how demokratisieren – im negativen wie im positiven Sinne.

    Für mittelständische Unternehmen, die bisher davon ausgehen konnten, kein lohnendes Angriffsziel für hochspezialisierte Akteure zu sein, verschiebt sich diese Risikorechnung grundlegend. Angriffe, die früher erhebliche Ressourcen erforderten, lassen sich mit KI-Unterstützung mit deutlich geringerem Aufwand durchführen.

    Schutzmaßnahmen hinken der Entwicklung hinterher

    Gleichzeitig zeigt sich in der Unternehmenspraxis eine erhebliche Lücke. Viele Organisationen haben ihre Sicherheitsstrategien noch nicht auf KI-gestützte Angriffsmethoden ausgerichtet. Klassische Perimeter-Sicherheit und signaturbasierte Erkennungssysteme sind gegenüber adaptiven, KI-generierten Angriffsvektoren nur bedingt wirksam.

    Hinzu kommt, dass auch die defensive Seite KI nutzen kann – und muss. Sicherheitswerkzeuge, die auf maschinellem Lernen basieren, sind mittlerweile in der Lage, anomales Verhalten in Netzwerken frühzeitig zu erkennen. Die Herausforderung liegt jedoch in der Implementierung:

    Fachkräftemangel, knappe IT-Budgets und fehlende interne Expertise bremsen viele Unternehmen aus – genau in dem Moment, in dem die Bedrohungslage eskaliert.

    Regulatorischer Rahmen noch unvollständig

    Auf regulatorischer Ebene besteht weiterhin Klärungsbedarf. Der EU AI Act klassifiziert bestimmte Hochrisiko-Anwendungen, deckt jedoch Dual-Use-Szenarien – also Modelle, die sowohl legitim als auch offensiv eingesetzt werden können – nur unvollständig ab. Die Frage, welche Sorgfaltspflichten Unternehmen beim Einsatz solcher Modelle treffen, ist rechtlich noch nicht abschließend beantwortet.

    Für deutsche Unternehmen ergibt sich daraus konkreter Handlungsbedarf:

    • Bedrohungsmodelle aktualisieren und KI-gestützte Angriffsvektoren explizit einbeziehen
    • Interne KI-Nutzung prüfen: Welche Frontier-KI-Dienste werden intern oder durch Dienstleister eingesetzt?
    • Vertragliche und technische Schutzmaßnahmen auf den aktuellen Stand bringen

    Die Offenheit, mit der Anthropic diese Risiken kommuniziert, liefert dabei zumindest eine sachliche Grundlage für die eigene Risikoabwägung.


    Quelle: Axios AI

  • Anthropic startet branchenweite Initiative zum Schutz kritischer Infrastruktur vor KI-gestützten Cyberangriffen

    Anthropic startet branchenweite Initiative zum Schutz kritischer Infrastruktur vor KI-gestützten Cyberangriffen

    Mit dem Projekt „Glasswing” wagt Anthropic einen ungewöhnlichen Schritt: Der KI-Entwickler sucht gemeinsam mit Konkurrenten nach Wegen, Large Language Models gegen den Missbrauch als Cyberwaffen zu schützen – und könnte damit einen neuen Branchenstandard setzen.

    Anthropic startet branchenweite Initiative zum Schutz kritischer Infrastruktur vor KI-gestützten Cyberangriffen

    Anthropic hat gemeinsam mit mehreren Wettbewerbern eine neue Sicherheitsinitiative ins Leben gerufen, die verhindern soll, dass Large Language Models für Angriffe auf kritische Infrastrukturen missbraucht werden. Das Projekt namens „Glasswing” richtet sich gezielt gegen die wachsende Bedrohung durch KI-gestützte Hacking-Methoden und soll branchenweite Standards etablieren.


    Kooperation statt Konkurrenz im Sicherheitsbereich

    Bemerkenswert an der Initiative ist die Bereitschaft konkurrierender Unternehmen zur Zusammenarbeit. Anthropic hat unter dem Projektnamen „Mythos” – einem internen Forschungsprogramm – die Grundlagen entwickelt, die nun in das breitere „Glasswing”-Projekt einfließen. Ziel ist es, gemeinsam Abwehrmechanismen zu entwickeln, die verhindern, dass KI-Systeme als Werkzeug für automatisierte Cyberangriffe eingesetzt werden können. Welche Unternehmen konkret beteiligt sind, wurde bislang nicht vollständig offengelegt.


    Das Bedrohungsszenario

    Der Hintergrund der Initiative ist konkret: Sicherheitsforscher haben in den vergangenen Monaten wiederholt nachgewiesen, dass aktuelle Large Language Models in der Lage sind, Schwachstellen in Software zu identifizieren, Exploit-Code zu generieren und Phishing-Kampagnen erheblich zu professionalisieren.

    Besonders problematisch ist die Senkung der Einstiegshürde: Angriffe, die bislang tiefes technisches Fachwissen erforderten, werden durch KI-Assistenz auch für weniger erfahrene Akteure durchführbar.

    Anthropics internes Forschungsprogramm „Mythos” hat sich laut Wired gezielt damit befasst, wie Sprachmodelle in realen Angriffsszenarien eingesetzt werden könnten. Die dabei gewonnenen Erkenntnisse bilden die empirische Grundlage für „Glasswing”.


    Technische und regulatorische Dimension

    „Glasswing” setzt auf mehreren Ebenen an:

    • Technische Maßnahmen: Verbesserte Guardrails und Evaluierungsverfahren, die erkennen sollen, wenn ein Modell für schadhafte Zwecke genutzt wird
    • Gemeinsame Benchmarks: Branchenweite Standards, anhand derer die Sicherheit von KI-Systemen gegenüber Missbrauchsszenarien bewertet werden kann

    Dieser Ansatz steht im Einklang mit regulatorischen Entwicklungen auf beiden Seiten des Atlantiks. Der EU AI Act enthält explizite Anforderungen an die Robustheit und Missbrauchssicherheit von Hochrisiko-KI-Systemen. Branchenübergreifende Standards, wie sie „Glasswing” anstrebt, könnten künftig als Referenzrahmen für die Compliance-Bewertung herangezogen werden.


    Grenzen des Ansatzes

    Freiwillige Brancheninitiativen waren in der Vergangenheit selten ausreichend, um tatsächliche Sicherheitsverbesserungen durchzusetzen.

    Kritiker weisen darauf hin, dass ohne verbindliche Vorgaben und unabhängige Überprüfung die Wirksamkeit solcher Kooperationen schwer messbar bleibt. Zudem adressiert „Glasswing” primär die Angebotsseite – also die Modelle selbst – während die Absicherung nachgelagerter Anwendungen und APIs in der Verantwortung der jeweiligen Unternehmen verbleibt.


    Einordnung für deutsche Unternehmen

    Für Unternehmen in Deutschland, die KI-basierte Tools in ihre IT-Infrastruktur integrieren oder planen, ist die Initiative ein klares Signal: Die Branche nimmt das Missbrauchspotenzial ihrer Produkte zunehmend ernst. Praktisch bedeutet das:

    • Die Teilnahme an Sicherheitsinitiativen und Transparenz über Evaluierungsverfahren sollten künftig als Auswahlkriterium bei KI-Anbietern gelten
    • Die eigene Absicherung von Schnittstellen und der Einsatz KI-spezifischer Sicherheitsaudits bleiben eine Aufgabe, die keine externe Initiative abnehmen kann

    Quelle: Wired AI – Anthropic Mythos / Project Glasswing

  • Apple, Google und Microsoft bündeln Ressourcen für Open-Source-Sicherheitsinitiative

    Apple, Google und Microsoft bündeln Ressourcen für Open-Source-Sicherheitsinitiative

    Mit „Project Glasswing” wagen Apple, Google, Microsoft und Anthropic einen ungewöhnlichen Schritt: Vier Technologieriesen, die sonst im harten Wettbewerb stehen, bündeln Ressourcen, um die Sicherheit kritischer Open-Source-Infrastruktur grundlegend zu stärken – und senden damit ein Signal an die gesamte Branche.

    Apple, Google und Microsoft bündeln Ressourcen für Open-Source-Sicherheitsinitiative

    Drei der größten Technologiekonzerne weltweit haben sich unter dem Namen „Project Glasswing” zusammengeschlossen, um kritische Open-Source-Software besser gegen Sicherheitsbedrohungen abzusichern. Neben Apple, Google und Microsoft ist auch das KI-Unternehmen Anthropic an dem Vorhaben beteiligt. Die Initiative zielt darauf ab, systematische Schwachstellen in weit verbreiteten Software-Bibliotheken zu identifizieren und zu beheben, bevor diese in größeren Angriffen ausgenutzt werden können.


    Hintergrund: Warum Open-Source-Infrastruktur besonderer Schutz braucht

    Open-Source-Komponenten bilden das Fundament eines Großteils moderner Unternehmens-Software – von Web-Applikationen über Cloud-Infrastruktur bis hin zu KI-Systemen. Genau diese Abhängigkeit macht sie zu einem attraktiven Angriffsziel.

    Der Vorfall rund um die Log4Shell-Sicherheitslücke im Jahr 2021 hat exemplarisch gezeigt, welche Reichweite eine einzige Schwachstelle in einer weit verbreiteten Bibliothek haben kann: Hunderttausende Systeme weltweit waren innerhalb kürzester Zeit exponiert – darunter Systeme von Behörden, Finanzdienstleistern und Industrieunternehmen.

    Project Glasswing adressiert genau dieses strukturelle Problem. Statt reaktiv auf bekannte Vorfälle zu reagieren, soll die Initiative proaktiv Ressourcen bereitstellen – in Form von finanzieller Unterstützung, technischer Expertise und koordinierter Forschung.


    Koordinierte Reaktion auf ein systemisches Risiko

    Die beteiligten Unternehmen wollen im Rahmen der Initiative unter anderem Open-Source-Maintainer finanziell und technisch unterstützen, die oft ehrenamtlich oder mit sehr begrenzten Mitteln arbeiten. Viele kritische Bibliotheken werden von kleinen Teams oder sogar Einzelpersonen gepflegt – ein Umstand, der sowohl die Qualitätssicherung als auch die Reaktionsgeschwindigkeit bei Sicherheitsvorfällen erheblich einschränkt.

    Darüber hinaus ist geplant, gemeinsame Prüfprozesse und Sicherheitsstandards für besonders exponierte Softwarekomponenten zu etablieren. Die Einbindung von Anthropic deutet darauf hin, dass auch KI-gestützte Analysen zur automatisierten Erkennung potenzieller Schwachstellen eingesetzt werden sollen.


    Strategische Dimension für den Technologiemarkt

    Das Engagement der vier Unternehmen ist nicht allein altruistisch motiviert. Apple, Google und Microsoft sind selbst in erheblichem Maße von der Sicherheit der Open-Source-Ökosysteme abhängig, auf denen ihre eigenen Produkte und Cloud-Dienste aufbauen.

    Ein erfolgreicher Angriff auf eine weitverbreitete Bibliothek kann Lieferketten entlang der gesamten Branche beeinträchtigen – ein Risiko, das angesichts zunehmender KI-Integration in Unternehmenssoftware weiter wächst.

    Die Zusammenarbeit direkt konkurrierender Konzerne in Sicherheitsfragen ist dabei kein Novum, gewinnt jedoch an Bedeutung. Ähnliche Ansätze verfolgen etwa die Open Source Security Foundation (OpenSSF) oder der Sovereign Tech Fund auf europäischer Ebene, die ebenfalls gezielt kritische Infrastruktur-Projekte fördern.


    Einordnung für deutsche Unternehmen

    Für Unternehmen in Deutschland und dem deutschsprachigen Raum, die stark auf Open-Source-Software setzen, liefert Project Glasswing ein klares Signal:

    Die systematische Absicherung der eigenen Software-Lieferkette rückt auch auf Branchenebene in den Fokus.

    IT-Verantwortliche sollten die Entwicklungen rund um die Initiative aufmerksam verfolgen, da daraus möglicherweise neue Sicherheitsstandards und Zertifizierungsanforderungen entstehen, die auch für europäische Zulieferer und Software-Anbieter relevant werden könnten. Ergänzend bieten bestehende Rahmenprogramme wie der deutsche Sovereign Tech Fund bereits heute konkrete Ansatzpunkte zur Stärkung kritischer Open-Source-Abhängigkeiten im eigenen Portfolio.


    Quelle: ZDNet AI