Un ensemble structuré de métriques permet d’évaluer les performances, la sécurité et l’alignement d’un système GenAI à travers différentes catégories fondamentales.
Pour approfondir le contexte méthodologique et les techniques opérationnelles, consultez le guide complet du GenAI Red Teaming.
Métriques de gouvernance et analytiques pour l’AI Red Team
Ces métriques communiquent la valeur globale de l’AI Red Team à l’entreprise et permettent de suivre les progrès. Elles incluent des statistiques sur les applications et les systèmes, des analyses d’utilisation et des données qualitatives provenant de différents groupes. Quelques exemples :
- Nombre de tests effectués chaque semaine par sujet (attaques adverses, biais, toxicité, conversations inappropriées, hallucinations, etc.)
- Analyse des prompts positifs et négatifs
- Analytiques des prompts négatifs regroupés par type (HAP, biais, conversations inappropriées, etc.)
- Nombre de politiques de garde-fous (guardrails), agrégées et nouvelles
- Nombre de modèles d’IA et de paramètres soumis au Red Teaming
- Volume des analyses sur les prompts
- Nombre cumulé de jetons (tokens) traités
- Métriques hors ligne telles que les statistiques de Red Teaming GenAI et les statistiques d’analyse des prompts
Métriques pour les attaques adverses
Métriques de robustesse
- Attack Success Rate (ASR) ou Jailbreak Success Rate (JSR) : pourcentage d’entrées adverses qui réussissent à exploiter des vulnérabilités ou à provoquer des comportements indésirables
Métriques de détection
- Detection Rate : capacité du système à détecter, bloquer ou récupérer suite à des attaques adverses ; pourcentage d’entrées adverses correctement identifiées par les mécanismes défensifs
Métriques de connaissance
- Extraction de connaissances : précision dans la récupération et la présentation des informations
- Évaluation des biais : vérification de la présence et de l’ampleur de divers biais dans la base de connaissances
Métriques spécifiques de connaissance et de raisonnement
- Factuality : exactitude des informations fournies par l’IA
- Relevance : alignement des réponses par rapport à la requête ou au contexte
- Coherence : cohérence logique et fluidité dans la sortie
- Groundedness : réponses étayées par les données ou le contexte
- Comprehensiveness : exhaustivité des réponses à une requête
- Verbosity/Brevity/Conciseness : adéquation du niveau de détail
- Tonality, Fluency : naturel et adéquation linguistique
- Language Mismatch & Egregious Conversation Detector : détection de réponses hors sujet ou inappropriées
- Helpfulness, Harmlessness : utilité des informations, absence de préjudice
- Maliciousness, Criminality, Insensitivity : détection de contenus nuisibles, offensants ou criminels
Métriques de raisonnement
- Exploration des limites et identification des points de défaillance des capacités de raisonnement de l’IA
Métriques de comportement émergent et robustesse
- Évaluer la robustesse : maintien des performances et de la sécurité dans des conditions variées
- Contrôle des comportements émergents
Métriques de robustesse
- Réponse aux entrées inattendues/adverses/hors distribution
- Cohérence avec des prompts légèrement modifiés
- Comportement prévisible sur un large spectre d’entrées
- Identification des modes de défaillance et des comportements émergents
- Drift : suivi des variations de performances ou de comportement dans le temps
- Source Attribution : précision dans l’attribution des sources
- Hallucination : détection d’informations fausses ou non étayées
Métriques d’alignement
- Mesurer la cohérence du système par rapport aux objectifs, aux directives éthiques et aux attentes des utilisateurs
Triade d’alignement LLM
- Query relevance : compréhension et réponse du système par rapport à la demande de l’utilisateur
- Context relevance : évaluation de l’utilisation et de la pertinence du contexte fourni
- Groundedness : réponses bien étayées par le contexte et les connaissances
Contrôles spécifiques d’alignement
- Context relevance : le contexte fourni est-il pertinent pour la requête ?
- Groundedness : la réponse est-elle étayée par le contexte ?
- Question/Answer relevance : la réponse est-elle pertinente par rapport à la question ?
Métriques de biais
- Représentation démographique : évaluer la présence (excessive ou insuffisante) de groupes démographiques
- Stereotype bias : identifier la présence de représentations ou d’hypothèses stéréotypées
- Distributional Bias : équité dans la distribution des résultats entre différents groupes
- Représentation d’opinions subjectives variées
- Capacité équitable dans plusieurs langues
- Gestion de thèmes politiquement ou moralement sensibles
Métriques d’équité
- Statistical Parity Difference (SPD) : différence dans les résultats favorables entre les classes majoritaires et protégées
- Disparate Impact (DI) : comparaison de la proportion d’individus recevant un résultat favorable entre les groupes majoritaires et minoritaires
- Equal Opportunity Difference (EOD) : écart par rapport à l’égalité des chances
- Average Absolute Odds Difference (AAOD) : différence absolue moyenne des probabilités entre les groupes
Techniques d’évaluation supplémentaires
- Analyse des erreurs de type 1 et type 2 : distinction entre les erreurs d’omission (informations manquantes) et de commission (informations erronées)
- SQL Query Conversion : évaluation de la capacité de l’IA à convertir des requêtes en langage naturel en requêtes SQL
Ces métriques fournissent une évaluation complète des performances, de la sécurité et de l’alignement des systèmes GenAI, permettant l’identification de points critiques dans les différents aspects du comportement et des capacités de l’IA.
Ressources utiles
Pour mieux comprendre comment appliquer ces métriques dans le contexte opérationnel du red teaming GenAI, les sujets suivants pourraient vous intéresser :
- GenAI Red Teaming : guide complet sur la sécurité des systèmes d’IA générative
- Techniques opérationnelles de GenAI Red Teaming pour tester les systèmes d’IA
- Risques et menaces dans les systèmes GenAI : analyse pour le red teaming
- Stratégie de red teaming pour LLM : feuille de route et mise en œuvre
- Outils et jeux de données pour le red teaming des systèmes d’IA générative
Leave a Reply