Tag: Testing for Prompt Disclosure

La divulgation de prompts concerne la capacité d’extraire le prompt système ou les instructions internes d’une application basée sur LLM via des techniques d’élicitation. Les tests évaluent si un attaquant peut récupérer des modèles de prompts, des configurations système, des exemples few-shot, des guardrails internes ou une logique d’application cachée via des requêtes spécifiques, des techniques de jeu de rôle ou la manipulation du contexte conversationnel. La divulgation de prompts expose la propriété intellectuelle, la logique métier et peut faciliter des attaques plus sophistiquées.