Métriques de Red Teaming pour l’IA Générative : Évaluation des performances de sécurité et de l’alignement de l’IA

Un ensemble structuré de métriques permet d’évaluer les performances, la sécurité et l’alignement d’un système GenAI à travers différentes catégories fondamentales.

Pour approfondir le contexte méthodologique et les techniques opérationnelles, consultez le guide complet du GenAI Red Teaming.

Métriques de gouvernance et analytiques pour l’AI Red Team

Ces métriques communiquent la valeur globale de l’AI Red Team à l’entreprise et permettent de suivre les progrès. Elles incluent des statistiques sur les applications et les systèmes, des analyses d’utilisation et des données qualitatives provenant de différents groupes. Quelques exemples :

Nombre de tests effectués chaque semaine par sujet (attaques adverses, biais, toxicité, conversations inappropriées, hallucinations, etc.)
Analyse des prompts positifs et négatifs
Analytiques des prompts négatifs regroupés par type (HAP, biais, conversations inappropriées, etc.)
Nombre de politiques de garde-fous (guardrails), agrégées et nouvelles
Nombre de modèles d’IA et de paramètres soumis au Red Teaming
Volume des analyses sur les prompts
Nombre cumulé de jetons (tokens) traités
Métriques hors ligne telles que les statistiques de Red Teaming GenAI et les statistiques d’analyse des prompts

Métriques pour les attaques adverses

Métriques de robustesse

Attack Success Rate (ASR) ou Jailbreak Success Rate (JSR) : pourcentage d’entrées adverses qui réussissent à exploiter des vulnérabilités ou à provoquer des comportements indésirables

Métriques de détection

Detection Rate : capacité du système à détecter, bloquer ou récupérer suite à des attaques adverses ; pourcentage d’entrées adverses correctement identifiées par les mécanismes défensifs

Métriques de connaissance

Extraction de connaissances : précision dans la récupération et la présentation des informations
Évaluation des biais : vérification de la présence et de l’ampleur de divers biais dans la base de connaissances

Métriques spécifiques de connaissance et de raisonnement

Factuality : exactitude des informations fournies par l’IA
Relevance : alignement des réponses par rapport à la requête ou au contexte
Coherence : cohérence logique et fluidité dans la sortie
Groundedness : réponses étayées par les données ou le contexte
Comprehensiveness : exhaustivité des réponses à une requête
Verbosity/Brevity/Conciseness : adéquation du niveau de détail
Tonality, Fluency : naturel et adéquation linguistique
Language Mismatch & Egregious Conversation Detector : détection de réponses hors sujet ou inappropriées
Helpfulness, Harmlessness : utilité des informations, absence de préjudice
Maliciousness, Criminality, Insensitivity : détection de contenus nuisibles, offensants ou criminels

Métriques de raisonnement

Exploration des limites et identification des points de défaillance des capacités de raisonnement de l’IA

Métriques de comportement émergent et robustesse

Évaluer la robustesse : maintien des performances et de la sécurité dans des conditions variées
Contrôle des comportements émergents

Métriques de robustesse

Réponse aux entrées inattendues/adverses/hors distribution
Cohérence avec des prompts légèrement modifiés
Comportement prévisible sur un large spectre d’entrées
Identification des modes de défaillance et des comportements émergents
Drift : suivi des variations de performances ou de comportement dans le temps
Source Attribution : précision dans l’attribution des sources
Hallucination : détection d’informations fausses ou non étayées

Métriques d’alignement

Mesurer la cohérence du système par rapport aux objectifs, aux directives éthiques et aux attentes des utilisateurs

Triade d’alignement LLM

Query relevance : compréhension et réponse du système par rapport à la demande de l’utilisateur
Context relevance : évaluation de l’utilisation et de la pertinence du contexte fourni
Groundedness : réponses bien étayées par le contexte et les connaissances

Contrôles spécifiques d’alignement

Context relevance : le contexte fourni est-il pertinent pour la requête ?
Groundedness : la réponse est-elle étayée par le contexte ?
Question/Answer relevance : la réponse est-elle pertinente par rapport à la question ?

Métriques de biais

Représentation démographique : évaluer la présence (excessive ou insuffisante) de groupes démographiques
Stereotype bias : identifier la présence de représentations ou d’hypothèses stéréotypées
Distributional Bias : équité dans la distribution des résultats entre différents groupes
Représentation d’opinions subjectives variées
Capacité équitable dans plusieurs langues
Gestion de thèmes politiquement ou moralement sensibles

Métriques d’équité

Statistical Parity Difference (SPD) : différence dans les résultats favorables entre les classes majoritaires et protégées
Disparate Impact (DI) : comparaison de la proportion d’individus recevant un résultat favorable entre les groupes majoritaires et minoritaires
Equal Opportunity Difference (EOD) : écart par rapport à l’égalité des chances
Average Absolute Odds Difference (AAOD) : différence absolue moyenne des probabilités entre les groupes

Techniques d’évaluation supplémentaires

Analyse des erreurs de type 1 et type 2 : distinction entre les erreurs d’omission (informations manquantes) et de commission (informations erronées)
SQL Query Conversion : évaluation de la capacité de l’IA à convertir des requêtes en langage naturel en requêtes SQL

Ces métriques fournissent une évaluation complète des performances, de la sécurité et de l’alignement des systèmes GenAI, permettant l’identification de points critiques dans les différents aspects du comportement et des capacités de l’IA.

Ressources utiles

Pour mieux comprendre comment appliquer ces métriques dans le contexte opérationnel du red teaming GenAI, les sujets suivants pourraient vous intéresser :

ISGroup Conseil en Cybersécurité

Métriques de Red Teaming pour l’IA Générative : Évaluation des performances de sécurité et de l’alignement de l’IA

Métriques de gouvernance et analytiques pour l’AI Red Team

Métriques pour les attaques adverses

Métriques de robustesse

Métriques de détection

Métriques de connaissance

Métriques spécifiques de connaissance et de raisonnement

Métriques de raisonnement

Métriques de comportement émergent et robustesse

Métriques de robustesse

Métriques d’alignement

Triade d’alignement LLM

Contrôles spécifiques d’alignement

Métriques de biais

Métriques d’équité

Techniques d’évaluation supplémentaires

Ressources utiles

Leave a Reply Cancel reply