KI-Agenten-Sicherheit: OpenAI kauft Promptfoo & startet Codex Security

Im März 2026 hat OpenAI seine Sicherheitsstrategie für KI-Agenten sichtbar geschärft. Die Übernahme des Security-Startups Promptfoo und die Research Preview von Codex Security zeigen in Kombination, worauf der Markt hinausläuft: Wer autonome Systeme produktiv einsetzen will, braucht nicht nur bessere Modelle, sondern belastbare Sicherheitsprüfungen rund um Prompts, Tools und Code.

Promptfoo: Automatisierte Sicherheitstests für LLMs

Das 2024 gegründete Startup Promptfoo entwickelt Werkzeuge, mit denen Unternehmen Sicherheitslücken in Large Language Models (LLMs) systematisch aufspüren können. Dazu gehören eine Open-Source-Schnittstelle und eine Bibliothek für automatisierte Sicherheitstests. Nach Angaben des Unternehmens nutzen bereits mehr als ein Viertel der Fortune-500-Unternehmen diese Werkzeuge.

Mit der Übernahme will OpenAI die Promptfoo-Technologie in seine Enterprise-Plattform für KI-Agenten integrieren. Im Zentrum stehen dabei drei Funktionen:

Automatisiertes Red-Teaming: Agenten-Workflows lassen sich gezielt auf Schwachstellen und missbrauchbare Muster prüfen.
Security-Monitoring: Aktivitäten können laufend auf Risiken und Compliance-Vorgaben beobachtet werden.
Open-Source-Ausbau: Die frei verfügbaren Tools von Promptfoo sollen weiterentwickelt werden.

Finanzielle Details der Übernahme sind nicht offiziell bekannt. Laut PitchBook hatte Promptfoo bis dahin rund 23 Millionen US-Dollar Risikokapital eingesammelt und war im Juli 2025 zuletzt mit 86 Millionen US-Dollar bewertet worden. Für Unternehmen in regulierten Bereichen ist die Integration solcher Testwerkzeuge vor allem deshalb relevant, weil KI-Agenten Entscheidungen vorbereiten, Daten abrufen und Aktionen auslösen können, die sich nicht mehr mit klassischer App-Sicherheit allein absichern lassen.

Codex Security: Schwachstellenscans mit Sandbox-Validierung

Fast zeitgleich startete OpenAI die Research Preview von Codex Security. Der KI-gestützte Application-Security-Agent soll Code-Repositories auf komplexe Sicherheitslücken untersuchen, Ergebnisse in Sandbox-Umgebungen validieren und konkrete Patches vorschlagen.

OpenAI adressiert damit ein Problem, das viele KI-Security-Scanner bislang nicht lösen: eine hohe Zahl an False Positives. Wenn Teams zu viele irrelevante Warnungen prüfen müssen, gehen echte Risiken leicht unter. Codex Security soll deshalb strukturierter arbeiten:

Kontextaufbau: Das System analysiert die Codebasis und erstellt ein Bedrohungsmodell mit Vertrauensgrenzen und Angriffsflächen.
Zielgerichtete Suche: Auf dieser Basis sucht die KI nach Schwachstellen, die im jeweiligen Kontext tatsächlich relevant sind.
Sandbox-Validierung: Gefundene Lücken werden in isolierten Umgebungen getestet, um Fehlalarme zu reduzieren.
Repair-Vorschläge: Neben dem Nachweis der Schwachstelle liefert das System Korrekturvorschläge und Proof-of-Concept-Code zur Einordnung.

Laut OpenAI wurden in ersten Tests bereits 14 CVEs in relevanten Open-Source-Projekten identifiziert. Begleitend dazu bietet das Programm “Codex for OSS” ausgewählten Open-Source-Projekten kostenlosen Zugang zu erweiterten Analyse-Tools und Code-Reviews.

Warum diese Doppelankündigung wichtig ist

Die beiden Schritte passen strategisch zusammen. Promptfoo deckt den Bereich vor dem Rollout ab: Tests, Red-Teaming, Prompt-Angriffe, abgesicherte Agenten-Workflows. Codex Security zielt stärker auf den laufenden Umgang mit realem Code und konkreten Schwachstellen. Zusammen ergibt sich daraus ein Sicherheitsbild, das für Agentensysteme deutlich realistischer ist als reine Modell-Evaluation.

Denn mit dem produktiven Einsatz autonomer Systeme wächst auch die Angriffsfläche. Agenten, die E-Mails verfassen, Transaktionen anstoßen oder Code generieren, schaffen neue Missbrauchspunkte: Prompt-Injection, Datenabfluss über Tool-Aufrufe oder fehlerhafte Automatisierung mit Sicherheitsfolgen. Genau an dieser Stelle verschiebt sich der Markt gerade von der Frage “Welches Modell ist am stärksten?” zur wichtigeren Frage: “Wie hält man ein Agentensystem unter realen Bedingungen kontrollierbar?”

Konsequenzen für Entwickler und Unternehmen

Für Entwickler auf der OpenAI-Plattform dürfte das mittelfristig bedeuten, dass Security-Checks näher an die eigentliche Entwicklungsumgebung rücken. Schwachstellenberichte, Red-Teaming und Code-Validierung werden damit eher Teil des normalen Agenten-Workflows als ein nachgelagerter Spezialprozess.

Unternehmen wiederum bekommen ein klareres Signal, wie sich KI-Agenten im Enterprise-Kontext durchsetzen sollen: nicht über maximale Autonomie allein, sondern über nachweisbare Sicherheitsmechanismen. Entscheidend ist dabei auch, dass Codex Security zum Zeitpunkt dieser Ankündigung nur als Research Preview vorlag. Der Anspruch ist also groß, die operative Belastbarkeit musste sich erst noch im realen Einsatz beweisen.

Fazit: Sicherheit wird vom Add-on zum Plattformmerkmal

Die Übernahme von Promptfoo und der Start von Codex Security markieren einen Wendepunkt in der Positionierung von KI-Agenten. OpenAI verkauft hier nicht nur bessere Modelle, sondern zunehmend die Infrastruktur, mit der Unternehmen deren Risiken beherrschbar machen sollen.

Für Leser ist genau das die eigentliche Nachricht: Wer Agenten produktiv einsetzen will, kommt um systematisches Testing, nachvollziehbare Schutzgrenzen und saubere Validierung nicht mehr herum. Sicherheit ist in diesem Markt kein späteres Upgrade mehr, sondern ein Kernbestandteil der Architektur.

KI-Agenten-Sicherheit: OpenAI kauft Promptfoo & startet Codex Security

Promptfoo: Automatisierte Sicherheitstests für LLMs

Codex Security: Schwachstellenscans mit Sandbox-Validierung

Warum diese Doppelankündigung wichtig ist

Konsequenzen für Entwickler und Unternehmen

Fazit: Sicherheit wird vom Add-on zum Plattformmerkmal

Transparenz

Korrekturhinweis

Quellen

Das könnte dich auch interessieren

Meta zieht Muse-Funktion nach Consent-Kritik zurück

Microsoft routet Copilot stärker auf eigene MAI-Modelle

Claude Code rückt den Browser in die Agenten-Oberfläche