Zum Inhalt springen
Alle Audits

Audit-Vorlage

ai-llm

Prüfe deine LLM-Features so, wie es ein Angreifer und ein ehrlicher Nutzer tun würden.

Mappt auf: OWASP LLM Top 10OWASP Top 10 for LLM Applications — die Referenzliste der kritischsten LLM-Sicherheitsrisiken. · NIST AI RMFNIST AI Risk Management Framework — der US-Standard zur Steuerung von Risiken in KI-Systemen.

Dein Code

Spezialisten, parallel

Prompt-InjectionJailbreaksOutput-HandlingAgent/Tool-SafetyRAGHalluzination
Priorisierte Issues

Jeder Befund ist belegbasiert und übersteht ≥2-von-3 adversarielle Skeptiker.

Wie dieses Audit arbeitet

Provider- und Framework-agnostisch kartiert dieses Audit zuerst jede Stelle, an der ein LLM aufgerufen wird, und jede Trust-Boundary, an der untrusted Input — Nutzertext, abgerufene Dokumente, Tool-Ergebnisse — in einen Prompt gelangt. Zwölf Spezialisten prüfen dann Prompt-InjectionEin Angriff, der Anweisungen in den Modell-Input schmuggelt, um den System-Prompt zu überschreiben oder zu kapern., JailbreaksEin Prompt, der die Sicherheits-Leitplanken eines Modells umgeht, um eingeschränkte Ausgaben zu erzwingen., System-Prompt- und Secret-Leakage, Output-Handling, Tool-/Agent-Agency, RAGRetrieval-Augmented Generation — einem LLM zur Laufzeit abgerufene Dokumente mitgeben.-Grounding, HalluzinationEine Modell-Ausgabe, die erfundene oder unbelegte Information als Tatsache darstellt., EvalsWiederholbare Test-Suiten, die Qualität und Sicherheit eines LLM-Features an bekannten Fällen messen. und Kosten — jeder Befund auf die OWASP LLM Top 10OWASP Top 10 for LLM Applications — die Referenzliste der kritischsten LLM-Sicherheitsrisiken. gemappt und P0–P3 bewertet. Jede Aussage ist auf ein konkretes Artefakt zurückgeführt und übersteht unabhängige Skeptiker, bevor sie eingereicht wird.

Wann du es einsetzt

RAG-Support-Bot ausliefern

Dein Assistent antwortet aus internen Docs und einer geteilten Knowledge-Base. Das Audit prüft, ob das Retrieval die Berechtigungen pro Nutzer respektiert, ob der Bot bei fehlendem Kontext abbricht oder halluziniert und ob in einem abgerufenen Dokument versteckte Anweisungen den System-Prompt überschreiben können (indirekte InjectionPrompt-Injection, bei der die bösartigen Anweisungen über abgerufene Inhalte statt vom Nutzer kommen.).

Einem Agenten echte Tools geben

Dein Agent kann auf Modell-Geheiß E-Mails senden, die Datenbank abfragen oder interne APIs aufrufen. Das Audit prüft den Blast-RadiusDie Menge an Systemen und Daten, die betroffen ist, wenn eine Komponente ausfällt oder kompromittiert wird. jedes Tools — kann es eine destruktive oder irreversible Aktion ohne Human-Gate auslösen? —, validiert die vom Modell erzeugten Argumente und verfolgt jeden Output-Sink auf XSSCross-Site Scripting — Einschleusen von Angreifer-Skript, das im Browser eines anderen Nutzers läuft., SQL oder eval-InjectionUntrusted Text in einen Code-Evaluierungs-Aufruf geben, sodass er als Programmcode ausgeführt wird..

Vor dem Skalieren eines öffentlichen LLM-Endpoints

Du öffnest ein KI-Feature gleich für untrusted Traffic. Das Audit sucht die Cost-Caps pro Nutzer und global, die Runaway-Spend und Missbrauch stoppen, die EvalsWiederholbare Test-Suiten, die Qualität und Sicherheit eines LLM-Features an bekannten Fällen messen., die deine High-Stakes-Pfade absichern, und das Provider-Retention- und PIIPersonally Identifiable Information — Daten, die eine bestimmte Person identifizieren können.-Handling, das du brauchst, bevor Nutzerdaten deine Maschine verlassen.

Was du bekommst

Eine Scorecard pro Dimension, eine Trust-Boundary- und Data-Flow-Map und verifizierte Befunde als nach Priorität sortierte GitHub-Issues — jedes mit OWASPOpen Worldwide Application Security Project — der Referenzkatalog für Web-App-Sicherheitsrisiken.-LLM-Mapping, redigiertem Repro und konkretem Vorher/Nachher-Fix.