AITG-DAT-03 : Test de la diversité et de la couverture des jeux de données

Les modèles d’intelligence artificielle apprennent à partir des données avec lesquelles ils sont entraînés. Si ces données ne représentent pas adéquatement la variété des scénarios, des populations et des contextes du monde réel, le modèle risque de produire des résultats biaisés, discriminatoires ou tout simplement inadéquats lorsqu’il est utilisé en production.

Cet article fait partie du chapitre AI Data Testing du guide OWASP AI Testing Guide.

Le test de la diversité et de la couverture des jeux de données (dataset diversity & coverage) vérifie que les données utilisées pour entraîner et valider un modèle d’IA sont suffisamment représentatives et diversifiées. Cette vérification est fondamentale pour garantir l’équité, la fiabilité et la capacité de généralisation du système.

Pourquoi la diversité des jeux de données est une exigence de sécurité

Un jeu de données peu représentatif n’est pas seulement un problème technique : c’est une vulnérabilité qui peut avoir des impacts concrets sur les personnes, les processus et la conformité réglementaire.

Lorsque les données d’entraînement manquent de diversité, le modèle a tendance à reproduire et à amplifier les biais présents dans les données elles-mêmes. Cela se traduit par :

Des discriminations envers des groupes démographiques sous-représentés
Des erreurs systématiques dans des contextes non prévus lors de l’entraînement
Des performances médiocres sur des scénarios opérationnels réels
Une perte de confiance de la part des utilisateurs et des risques réputationnels
Une non-conformité aux réglementations sur la protection des données et l’équité algorithmique

Vérifier la diversité et la couverture des jeux de données permet d’identifier ces lacunes avant que le modèle ne soit mis en production, réduisant ainsi les risques opérationnels, juridiques et réputationnels.

Objectifs du test

Le test de la diversité et de la couverture des jeux de données se concentre sur trois domaines principaux :

Représentativité démographique : les jeux de données doivent refléter de manière équilibrée les groupes démographiques, les contextes opérationnels et les conditions rencontrables dans le monde réel
Couverture des scénarios : les données doivent inclure la variété des situations que le modèle rencontrera en production
Conformité réglementaire et éthique : les jeux de données doivent respecter les normes d’IA responsable (Responsible AI) et les contraintes réglementaires applicables au secteur concerné

Méthodologie et charge utile (payload)

Analyse de la représentation démographique

Une analyse statistique est menée pour comparer la distribution démographique présente dans le jeu de données avec celle de la population de référence ou des utilisateurs attendus.

Cette analyse nécessite :

Une définition claire des attributs sensibles pertinents pour le contexte applicatif (âge, genre, origine géographique, conditions socio-économiques)
La mesure de la distribution de ces attributs dans les données d’entraînement
La comparaison avec la distribution attendue dans la population cible

Indicateur de vulnérabilité : certaines catégories démographiques sont représentées de manière significativement différente par rapport aux utilisateurs réels du système.

Vérification de la couverture des scénarios opérationnels

On évalue l’exhaustivité et la variété des scénarios représentés dans le jeu de données par rapport à l’utilisation attendue du modèle.

Exemples de scénarios à vérifier :

Conditions d’éclairage variables pour les systèmes de vision par ordinateur
Diversité linguistique et dialectale pour les systèmes de traitement du langage naturel
Variabilité des conditions environnementales pour les systèmes IoT
Diversité des appareils et des configurations pour les applications mobiles

Indicateur de vulnérabilité : des scénarios réels critiques sont manquants ou sous-représentés ; le modèle pourrait ne pas gérer correctement des situations courantes dans l’environnement de production.

Détection des biais et mesure de l’équité

On utilise des métriques d’équité (fairness) telles que la parité démographique (demographic parity), l’égalité des chances (equal opportunity) et l’égalité des probabilités (equalized odds) pour mesurer les éventuels déséquilibres dans les résultats du modèle entre différents groupes.

L’analyse de l’équité est menée à la fois sur les données d’entraînement et sur les sorties du modèle, en vérifiant que les performances sont comparables entre les différents groupes de référence.

Indicateur de vulnérabilité : des biais substantiels ou une représentation disproportionnée de groupes spécifiques sont identifiés.

Résultat attendu

Un jeu de données correctement diversifié et représentatif doit satisfaire ces critères minimaux :

La distribution des attributs démographiques reflète celle de la population cible. Aucun groupe pertinent ne doit être représenté par moins de 5 % du total des échantillons
La différence de parité démographique (Demographic Parity Difference) reste inférieure à 15 % pour tous les attributs sensibles identifiés
Le jeu de données inclut une documentation transparente (datasheet) décrivant les sources des données, la composition, le processus de collecte et les limites connues
La couverture des scénarios opérationnels est complète par rapport aux cas d’usage prévus en production

Actions de remédiation

Lorsque l’analyse met en évidence des lacunes dans la diversité ou la couverture, il est nécessaire d’intervenir avec des actions ciblées.

Enrichissement des données

Acquérir de nouvelles données provenant de groupes sous-représentés, de régions géographiques moins présentes ou de scénarios opérationnels manquants. Cette approche est la plus efficace mais nécessite du temps et des ressources pour la collecte et l’étiquetage des nouveaux échantillons.

Impact attendu : amélioration directe de la représentativité du jeu de données avec des données réelles qui capturent la complexité du monde opérationnel.

Augmentation des données (Data augmentation)

Appliquer des techniques d’augmentation de données pour accroître artificiellement la variété des données existantes :

Pour les données tabulaires : SMOTE (Synthetic Minority Over-sampling Technique)
Pour les textes : traduction inverse (back-translation) et paraphrase
Pour les images : transformations géométriques et de couleur

Il est fondamental de vérifier que les techniques d’augmentation n’introduisent pas d’artefacts irréalistes qui pourraient dégrader les performances du modèle.

Impact attendu : augmentation de la variété des données sans nécessité de collecte supplémentaire, en veillant à ne pas introduire de distorsions artificielles.

Rééquilibrage des données

Appliquer des techniques de prétraitement telles que le suréchantillonnage (oversampling) des classes minoritaires, le sous-échantillonnage (undersampling) des classes majoritaires ou la repondération des échantillons pendant l’entraînement. Ces techniques permettent d’équilibrer l’influence des différentes classes sur le processus d’apprentissage sans modifier les données originales.

Impact attendu : réduction du biais de classe et amélioration de l’équité du modèle entre différents groupes.

Surveillance continue

Mettre en œuvre des processus d’intégration continue qui surveillent constamment la distribution et l’équité des données. Effectuer des audits d’équité réguliers pour vérifier que les nouvelles données ajoutées au jeu de données conservent les caractéristiques de diversité et de représentativité requises.

Impact attendu : maintien dans le temps de la qualité du jeu de données et détection rapide des dérives dans la distribution des données.

Documentation

Compiler des fiches techniques (datasheets) détaillées documentant la motivation derrière la collecte des données, la composition du jeu de données, le processus de collecte, les utilisations recommandées et les limites connues. Cette documentation est essentielle pour garantir la transparence et permettre des évaluations éclairées sur l’adéquation du jeu de données pour des cas d’usage spécifiques.

Impact attendu : transparence complète sur la composition et les limites du jeu de données, facilitant les audits et la conformité réglementaire.

Outils suggérés

AI Fairness 360 (AIF360) : boîte à outils open source d’IBM pour détecter et atténuer les biais dans les jeux de données et les modèles d’IA
Fairlearn : bibliothèque Python pour évaluer et améliorer l’équité des modèles de machine learning
What-If Tool : outil de Google pour analyser visuellement les jeux de données et les modèles ML par rapport aux métriques d’équité
imbalanced-learn : bibliothèque Python pour les techniques de rééchantillonnage et d’équilibrage des jeux de données déséquilibrés

Approfondissements utiles

Ressources techniques et réglementaires pour approfondir la vérification de la diversité et de la couverture des jeux de données d’IA :

Datasheets for Datasets (arXiv:1803.09010) : cadre pour documenter la composition et les caractéristiques des jeux de données
A Framework for Understanding Unintended Consequences of Machine Learning : analyse des impacts non intentionnels des biais dans les jeux de données
NIST Special Publication on Bias in AI : lignes directrices pour identifier et gérer les biais dans les systèmes d’IA
EU AI Act Requirements on Data Governance : exigences réglementaires européennes sur la gouvernance des données pour les systèmes d’IA

Comment ISGroup vous accompagne

ISGroup accompagne les organisations dans l’évaluation et l’amélioration de la qualité des jeux de données utilisés pour entraîner des modèles d’intelligence artificielle.

Grâce au service de Secure Architecture Review, nos experts analysent l’architecture des systèmes d’IA, vérifient la représentativité des jeux de données et identifient les biais potentiels qui pourraient compromettre l’équité et la fiabilité des modèles.

Notre approche combine des analyses techniques approfondies avec la compréhension du contexte réglementaire et des exigences de l’IA responsable, fournissant des recommandations concrètes pour améliorer la diversité et la couverture des données d’entraînement.

Questions fréquentes

Quelle est la différence entre la diversité et la couverture d’un jeu de données ?
La diversité se réfère à la variété des groupes démographiques et des caractéristiques représentées dans les données. La couverture concerne l’exhaustivité des scénarios opérationnels et des cas d’usage que le modèle devra gérer en production. Un jeu de données peut être diversifié mais avoir une faible couverture des scénarios critiques, ou vice versa.
Comment mesure-t-on le biais dans un jeu de données ?
Le biais se mesure à travers des métriques d’équité telles que la parité démographique (demographic parity), l’égalité des chances (equal opportunity) et l’égalité des probabilités (equalized odds). Ces métriques comparent les performances du modèle entre différents groupes démographiques pour identifier des disparités systématiques dans les résultats.
Quelle doit être la taille d’un jeu de données pour être considéré comme représentatif ?
Il n’existe pas de taille minimale universelle. La représentativité dépend de la complexité du problème, du nombre de groupes démographiques pertinents et de la variété des scénarios opérationnels. En règle générale, chaque groupe pertinent devrait être représenté par au moins 5 % des échantillons totaux, mais dans certains contextes, des pourcentages plus élevés peuvent être nécessaires.
Quels sont les risques réglementaires d’un jeu de données non représentatif ?
Un jeu de données non représentatif peut entraîner des violations du RGPD pour traitement discriminatoire, une non-conformité à la directive NIS2 pour les systèmes critiques, et des violations de réglementations sectorielles exigeant l’équité algorithmique. De plus, cela peut exposer l’organisation à des risques réputationnels et à des litiges juridiques pour discrimination.
Comment documente-t-on la composition d’un jeu de données ?
On utilise des fiches techniques structurées qui décrivent : la motivation de la collecte, la composition démographique et statistique, le processus de collecte et d’annotation, les utilisations recommandées et déconseillées, les limites connues et les biais identifiés. Cette documentation est essentielle pour la transparence et la conformité réglementaire.
L’augmentation de données peut-elle remplacer la collecte de nouvelles données réelles ?
Non, l’augmentation de données est un complément utile mais ne peut pas remplacer totalement la collecte de données réelles. Les techniques d’augmentation peuvent introduire des artefacts irréalistes et ne capturent pas la complexité du monde réel. Elles sont efficaces pour augmenter la variété des données existantes, mais pas pour combler des lacunes fondamentales dans la représentation.

Références

L’intégration de techniques d’analyse de la diversité, d’équilibrage des données et de surveillance continue aide à construire des modèles d’IA plus équitables et fiables. Tester régulièrement la représentativité et la couverture des jeux de données est fondamental pour garantir que les systèmes d’IA maintiennent des performances cohérentes et respectent les principes de l’IA responsable en production.

ISGroup Conseil en Cybersécurité