Tag: Adversarial Prompt Engineering
Techniques de manipulation de prompts pour inciter les modèles de langage et les systèmes d’IA générative à produire des résultats imprévus, à contourner les filtres de sécurité ou à révéler des informations sensibles. Inclut l’injection de prompts, le jailbreaking, la manipulation de contexte et les stratégies d’évasion des garde-fous implémentés dans les grands modèles de langage.