Métriques de Red Teaming pour l’IA Générative : Évaluation des performances de sécurité et de l’alignement de l’IA

Un ensemble structuré de métriques permet d’évaluer les performances, la sécurité et l’alignement d’un système GenAI à travers différentes catégories fondamentales.

Pour approfondir le contexte méthodologique et les techniques opérationnelles, consultez le guide complet du GenAI Red Teaming.

Métriques de gouvernance et analytiques pour l’AI Red Team

Ces métriques communiquent la valeur globale de l’AI Red Team à l’entreprise et permettent de suivre les progrès. Elles incluent des statistiques sur les applications et les systèmes, des analyses d’utilisation et des données qualitatives provenant de différents groupes. Quelques exemples :

  • Nombre de tests effectués chaque semaine par sujet (attaques adverses, biais, toxicité, conversations inappropriées, hallucinations, etc.)
  • Analyse des prompts positifs et négatifs
  • Analytiques des prompts négatifs regroupés par type (HAP, biais, conversations inappropriées, etc.)
  • Nombre de politiques de garde-fous (guardrails), agrégées et nouvelles
  • Nombre de modèles d’IA et de paramètres soumis au Red Teaming
  • Volume des analyses sur les prompts
  • Nombre cumulé de jetons (tokens) traités
  • Métriques hors ligne telles que les statistiques de Red Teaming GenAI et les statistiques d’analyse des prompts

Métriques pour les attaques adverses

Métriques de robustesse

  • Attack Success Rate (ASR) ou Jailbreak Success Rate (JSR) : pourcentage d’entrées adverses qui réussissent à exploiter des vulnérabilités ou à provoquer des comportements indésirables

Métriques de détection

  • Detection Rate : capacité du système à détecter, bloquer ou récupérer suite à des attaques adverses ; pourcentage d’entrées adverses correctement identifiées par les mécanismes défensifs

Métriques de connaissance

  • Extraction de connaissances : précision dans la récupération et la présentation des informations
  • Évaluation des biais : vérification de la présence et de l’ampleur de divers biais dans la base de connaissances

Métriques spécifiques de connaissance et de raisonnement

  • Factuality : exactitude des informations fournies par l’IA
  • Relevance : alignement des réponses par rapport à la requête ou au contexte
  • Coherence : cohérence logique et fluidité dans la sortie
  • Groundedness : réponses étayées par les données ou le contexte
  • Comprehensiveness : exhaustivité des réponses à une requête
  • Verbosity/Brevity/Conciseness : adéquation du niveau de détail
  • Tonality, Fluency : naturel et adéquation linguistique
  • Language Mismatch & Egregious Conversation Detector : détection de réponses hors sujet ou inappropriées
  • Helpfulness, Harmlessness : utilité des informations, absence de préjudice
  • Maliciousness, Criminality, Insensitivity : détection de contenus nuisibles, offensants ou criminels

Métriques de raisonnement

  • Exploration des limites et identification des points de défaillance des capacités de raisonnement de l’IA

Métriques de comportement émergent et robustesse

  • Évaluer la robustesse : maintien des performances et de la sécurité dans des conditions variées
  • Contrôle des comportements émergents

Métriques de robustesse

  • Réponse aux entrées inattendues/adverses/hors distribution
  • Cohérence avec des prompts légèrement modifiés
  • Comportement prévisible sur un large spectre d’entrées
  • Identification des modes de défaillance et des comportements émergents
  • Drift : suivi des variations de performances ou de comportement dans le temps
  • Source Attribution : précision dans l’attribution des sources
  • Hallucination : détection d’informations fausses ou non étayées

Métriques d’alignement

  • Mesurer la cohérence du système par rapport aux objectifs, aux directives éthiques et aux attentes des utilisateurs

Triade d’alignement LLM

  • Query relevance : compréhension et réponse du système par rapport à la demande de l’utilisateur
  • Context relevance : évaluation de l’utilisation et de la pertinence du contexte fourni
  • Groundedness : réponses bien étayées par le contexte et les connaissances

Contrôles spécifiques d’alignement

  • Context relevance : le contexte fourni est-il pertinent pour la requête ?
  • Groundedness : la réponse est-elle étayée par le contexte ?
  • Question/Answer relevance : la réponse est-elle pertinente par rapport à la question ?

Métriques de biais

  • Représentation démographique : évaluer la présence (excessive ou insuffisante) de groupes démographiques
  • Stereotype bias : identifier la présence de représentations ou d’hypothèses stéréotypées
  • Distributional Bias : équité dans la distribution des résultats entre différents groupes
  • Représentation d’opinions subjectives variées
  • Capacité équitable dans plusieurs langues
  • Gestion de thèmes politiquement ou moralement sensibles

Métriques d’équité

  • Statistical Parity Difference (SPD) : différence dans les résultats favorables entre les classes majoritaires et protégées
  • Disparate Impact (DI) : comparaison de la proportion d’individus recevant un résultat favorable entre les groupes majoritaires et minoritaires
  • Equal Opportunity Difference (EOD) : écart par rapport à l’égalité des chances
  • Average Absolute Odds Difference (AAOD) : différence absolue moyenne des probabilités entre les groupes

Techniques d’évaluation supplémentaires

  • Analyse des erreurs de type 1 et type 2 : distinction entre les erreurs d’omission (informations manquantes) et de commission (informations erronées)
  • SQL Query Conversion : évaluation de la capacité de l’IA à convertir des requêtes en langage naturel en requêtes SQL

Ces métriques fournissent une évaluation complète des performances, de la sécurité et de l’alignement des systèmes GenAI, permettant l’identification de points critiques dans les différents aspects du comportement et des capacités de l’IA.

Ressources utiles

Pour mieux comprendre comment appliquer ces métriques dans le contexte opérationnel du red teaming GenAI, les sujets suivants pourraient vous intéresser :

Leave a Reply

Your email address will not be published. Required fields are marked *