L’annexe B du projet OWASP “Red Teaming LLM” présente une liste d’outils et de jeux de données, développés et sélectionnés sur la base de l’expérience collective des opérateurs et des auteurs impliqués. Le catalogue comprend des ressources conçues pour le Red Teaming sur l’IA générative (GenAI) et les LLM. Cette liste n’est pas exhaustive et est mise à jour avec de nouvelles solutions sélectionnées. Les organisations souhaitant inclure des outils spécifiques de Red Teaming pour la GenAI dans le catalogue doivent contacter l’équipe OWASP pour en proposer l’ajout. L’utilisation d’outils provenant de dépôts publics comporte des risques : il incombe aux utilisateurs d’en évaluer la sécurité avant toute adoption.
Pour un aperçu complet des méthodologies et du cadre opérationnel, consultez le guide du Red Teaming GenAI.
Outils pour le Red Teaming LLM et GenAI
-
ASCII Smuggler : outil pour dissimuler du contenu dans les prompts.
https://embracethered.com/blog/ascii-smuggler.html (Open Source) -
Adversarial Attacks and Defences in Machine Learning (AAD) Framework : framework Python pour la défense des modèles ML contre les exemples adverses.
https://github.com/changx03/adversarial_attack_defence (Code source disponible) -
Adversarial Robustness Toolbox (ART) : bibliothèque Python pour la sécurité du ML.
https://github.com/Trusted-AI/adversarial-robustness-toolbox (Licence MIT) -
Advertorch : boîte à outils Python pour la recherche sur la robustesse et les attaques adverses dans PyTorch.
https://github.com/BorealisAI/advertorch (GNU LGPL v3.0) -
CleverHans : bibliothèque Python pour tester la vulnérabilité des systèmes ML aux exemples adverses.
https://github.com/cleverhans-lab/cleverhans (Licence MIT) -
CyberSecEval : benchmark pour quantifier les risques et les capacités de sécurité des LLM.
https://ai.meta.com/research/publications/cyberseceval-3-advancing-the-evaluation-of-cybersecurity-risks-and-capabilities-in-large-language-models/ (Licence MIT) -
DeepEval : évaluation de LLM, tests unitaires et métriques de sortie multiples.
https://github.com/confident-ai/deepeval (Licence Apache 2.0) -
Deep-pwning : framework léger pour évaluer la robustesse des modèles ML face à des adversaires motivés.
https://github.com/cchio/deep-pwning (Licence MIT) -
Dioptra : plateforme pour tester la fiabilité des systèmes d’IA.
https://pages.nist.gov/dioptra/index.html (CC BY 4.0) -
Foolbox : outil pour les attaques adverses et le benchmarking de la robustesse ML dans PyTorch, TensorFlow et JAX.
https://github.com/bethgelab/foolbox (Licence MIT) -
Garak : kit pour le red-teaming et l’évaluation de la GenAI.
https://garak.ai/ (Licence Apache 2.0)
https://github.com/NVIDIA/garak -
Giskard : suite de tests pour ML et LLM.
https://www.giskard.ai/ (Licence Apache 2.0) -
Generative Offensive Agent Tester (GOAT) : système automatisé simulant des conversations adverses pour identifier les vulnérabilités dans les LLM.
https://arxiv.org/abs/2410.01606 -
Gymnasium : bibliothèque Python avec API standard pour le test et le développement de l’apprentissage par renforcement.
https://github.com/Farama-Foundation/Gymnasium (Licence MIT) -
Harmbench : framework open source évolutif pour l’évaluation des méthodes automatisées de Red Teaming et des attaques/défenses sur les LLM.
https://github.com/centerforaisafety/HarmBench (Licence MIT) -
HouYi : framework pour les attaques par injection de prompt dans les applications intégrant des LLM.
https://github.com/LLMSecurity/HouYi?tab=readme-ov-file (Licence Apache 2.0) -
JailbreakingLLMs – PAIR : test de jailbreak pour LLM avec Prompt Automatic Iterative Refinement.
https://github.com/patrickrchao/JailbreakingLLMs (Licence MIT) -
Llamator : pentesting pour les applications RAG.
https://github.com/RomiconEZ/LLaMator (CC) -
LLM Attacks : automatisation de la construction d’attaques adverses sur les LLM.
https://llm-attacks.org/ (Licence MIT) - LLM Canary : benchmarking et scoring sur LLM. (Licence Apache 2.0)
-
Modelscan : détection des attaques par sérialisation de modèles (Model Serialization).
https://github.com/protectai/modelscan (Licence Apache 2.0) -
MoonShot : outil modulaire pour évaluer les applications LLM.
https://github.com/aiverify-foundation/moonshot (Licence Apache 2.0) -
Prompt Fuzzer : outil pour les tests de sécurité sur les prompts GenAI contre les attaques dynamiques.
https://github.com/prompt-security/ps-fuzz (Licence MIT) -
Promptfoo : Red Teaming, tests d’intrusion et analyse de vulnérabilité sur LLM.
https://github.com/promptfoo/promptfoo (Licence MIT) -
ps-fuzz : outil interactif pour la sécurité des prompts GenAI.
https://github.com/prompt-security/ps-fuzz (Licence MIT) -
PromptInject : analyse quantitative de la robustesse des LLM face aux prompts adverses.
https://github.com/agencyenterprise/PromptInject (Licence MIT) -
Promptmap : injection de prompt sur des instances ChatGPT.
https://github.com/utkusen/promptmap (Licence MIT) -
Python Risk Identification Toolkit (PyRIT) : bibliothèque Microsoft pour évaluer la robustesse des points de terminaison LLM face à des problèmes tels que les hallucinations, les biais et les contenus interdits.
https://github.com/Azure/PyRIT (Licence MIT) -
SplxAI : Red Teaming automatisé pour l’IA conversationnelle.
https://splx.ai/ -
StrongREJECT : benchmark de jailbreak avec méthodologie d’évaluation.
https://github.com/alexandrasouly/strongreject,
https://arxiv.org/abs/2402.10260 (Licence MIT)
Jeux de données pour le Red Teaming sur la GenAI
-
AdvBench : attaques adverses universelles et transférables sur les modèles linguistiques alignés.
https://github.com/llm-attacks/llm-attacks (Open Source) -
BBQ Bias Benchmark for Question Answering : benchmark de biais pour les tâches de QA.
https://github.com/nyu-mll/BBQ (Open Source) -
Bot Adversarial Dialogue Dataset : jeu de données de dialogues adverses pour bots.
https://github.com/facebookresearch/ParlAI/tree/main/parlai/tasks/bot_adversarial_dialogue (Open Source) -
HarmBench : framework standard pour le Red Teaming automatisé et le refus robuste (robust refusal).
https://github.com/centerforaisafety/HarmBench (Open Source) -
JailbreakBench : benchmark ouvert pour la robustesse des LLM face au jailbreaking.
https://github.com/JailbreakBench/jailbreakbench (Open Source) -
HAP : modèles efficaces pour la détection de la haine, des abus et de la profanité.
https://arxiv.org/abs/2402.05624 (Open Source)
Ressources supplémentaires pour la sécurité de l’IA
Le projet OWASP met également en avant le “AI Security Solutions Landscape”, une ressource qui regroupe des contrôles de sécurité, traditionnels et émergents, pour faire face aux risques liés aux LLM et à l’IA générative répertoriés dans l’OWASP Top 10.
Approfondissements utiles
Pour approfondir les méthodologies opérationnelles et les cadres de référence pour le Red Teaming sur les systèmes GenAI, consultez ces articles :
- GenAI Red Teaming : guide complet de la sécurité des systèmes d’intelligence artificielle générative
- Techniques opérationnelles de Red Teaming pour LLM et GenAI
- Métriques et KPI pour évaluer l’efficacité du Red Teaming sur la GenAI
- Risques et menaces dans les systèmes GenAI : cartographie et priorisation
- Red Teaming pour les systèmes d’IA agentique : défis et approches
Leave a Reply