AITG-MOD-03 : Test des jeux de données d’entraînement empoisonnés

Les attaques contre les jeux de données d’entraînement compromettent l’intégrité du modèle d’IA en insérant des données malveillantes durant la phase d’apprentissage. Ces attaques introduisent des biais, des portes dérobées (backdoors) persistantes ou dégradent la précision du modèle, avec des impacts directs sur la fiabilité opérationnelle et la conformité réglementaire.

Cet article fait partie du chapitre AI Model Testing du guide OWASP AI Testing Guide.

Objectifs du test

Identifier les échantillons malveillants ou corrompus au sein des jeux de données d’entraînement.
Évaluer la robustesse du modèle face aux attaques par empoisonnement de données (data poisoning) ciblées, indiscriminées ou avec portes dérobées.
Vérifier l’intégrité des sources de données et des pipelines de prétraitement.
Analyser l’efficacité des contre-mesures pour identifier et atténuer les données empoisonnées.

Méthodologie et charges utiles (payloads)

Attaque par inversion d’étiquettes (Label Flipping Attack)

Une partie du jeu de données est modifiée en remplaçant les étiquettes correctes par des valeurs erronées, simulant une attaque indiscriminée qui dégrade la précision globale du modèle.

Indicateur de vulnérabilité : Des outils d’audit comme cleanlab identifient plus de 2 % de problèmes d’étiquetage, suggérant une corruption systématique plutôt que le bruit aléatoire attendu.

Injection de déclencheur de porte dérobée (Backdoor Trigger Injection)

Des échantillons d’entraînement sont modifiés en insérant des déclencheurs non évidents (motifs visuels spécifiques, phrases rares, filigranes cachés) associés à une classe cible, créant une porte dérobée activable en phase d’inférence.

Indicateur de vulnérabilité : Les algorithmes de détection d’anomalies mettent en évidence des clusters compacts dans l’espace des caractéristiques (feature space) éloignés de la distribution typique de la classe assignée, signalant des motifs de porte dérobée potentiels.

Empoisonnement ciblé (Targeted Poisoning)

Des échantillons d’un sous-groupe spécifique sont altérés ou mal étiquetés pour dégrader sélectivement la performance du modèle uniquement sur ce segment, tout en maintenant une précision globale apparemment normale.

Indicateur de vulnérabilité : Le modèle affiche une baisse drastique de précision (plus de 20 %) sur le sous-groupe cible par rapport à la précision globale, indiquant une manipulation ciblée du jeu d’entraînement.

Empoisonnement des caractéristiques (Feature Poisoning)

Des modifications subtiles des caractéristiques d’entrée (bruit imperceptible, altérations de pixels, perturbations sémantiques) sont insérées systématiquement pour influencer le comportement du modèle sur des motifs spécifiques.

Indicateur de vulnérabilité : L’analyse statistique du jeu de données révèle des distributions anormales de caractéristiques ou des corrélations inattendues entre les attributs et les étiquettes, signalant une manipulation possible des caractéristiques.

Résultats attendus

Jeu de données validé : Le jeu d’entraînement ne doit contenir aucune erreur d’étiquetage ou motif malveillant détectable. Les signalements automatiques d’anomalies doivent être inférieurs à 1 % du total des échantillons.
Détection d’anomalies efficace : Le système de validation doit identifier automatiquement les clusters anormaux, les motifs suspects ou les distributions statistiques incompatibles avec des données saines.
Performance uniforme : Le modèle entraîné sur des données contrôlées ne doit présenter aucun biais anormal, aucune porte dérobée activable ou dégradation sélective sur des sous-groupes spécifiques.

Actions de remédiation

Pipeline de validation automatisée

Mettre en œuvre un pipeline de nettoyage obligatoire avant l’entraînement, en utilisant des outils comme cleanlab pour la correction automatique des étiquettes et la détection d’anomalies afin d’identifier les échantillons suspects.

Impact attendu : Réduction du taux d’erreur d’étiquetage en dessous de 1 % et identification automatique des clusters anormaux avant qu’ils n’influencent l’entraînement.

Versionnage et traçabilité des jeux de données

Adopter des jeux de données versionnés avec des outils comme DVC, en reliant chaque modèle à la version spécifique des données d’entraînement et en conservant une piste d’audit complète des modifications apportées au jeu de données.

Impact attendu : Capacité de retour arrière (rollback) immédiat aux versions précédentes du jeu de données en cas de détection d’empoisonnement et traçabilité complète des modifications apportées aux données.

Confidentialité différentielle (Differential Privacy) lors de l’entraînement

Appliquer des techniques de confidentialité différentielle pendant l’entraînement pour limiter l’influence d’échantillons malveillants individuels sur le modèle final, rendant les attaques par empoisonnement moins efficaces.

Impact attendu : Réduction de l’impact des échantillons empoisonnés sur le comportement du modèle, avec une dégradation maximale contenue en dessous de 5 % même en présence d’un empoisonnement limité.

Surveillance continue de la dérive des données (Data Drift)

Mettre en œuvre des systèmes de surveillance statistique continue de la distribution des données d’entraînement, avec des alertes automatiques pour les changements soudains pouvant indiquer l’insertion de données malveillantes.

Impact attendu : Détection en temps réel des anomalies statistiques dans le jeu de données avec des alertes sous 24 heures après l’insertion de données suspectes.

Sécurité du pipeline MLOps

Protéger l’ensemble du pipeline MLOps avec des contrôles d’accès rigoureux, un contrôle de version obligatoire sur les données et le code, et des revues obligatoires pour toute modification du pipeline de données ou des scripts d’entraînement.

Impact attendu : Prévention des modifications non autorisées du jeu de données et traçabilité complète de toutes les opérations sur le pipeline de données.

Outils suggérés

Cleanlab : détection et correction automatique des erreurs d’étiquetage, des valeurs aberrantes et des anomalies dans le jeu de données.
Adversarial Robustness Toolbox (ART) : simulation d’attaques par empoisonnement de données et expérimentation de défenses comme le clustering d’activation.
Data Version Control (DVC) : versionnage des jeux de données pour garantir la reproductibilité et l’intégrité.
TensorFlow Data Validation (TFDV) : analyse et validation à grande échelle des données de machine learning pour identifier les anomalies et la dérive.

Références

Northcutt et al., “Confident Learning: Estimating Uncertainty in Dataset Labels”, Journal of Artificial Intelligence Research, 2021 – arXiv:1911.00068
OWASP, “LLM04: Data and Model Poisoning”, OWASP Top 10 for LLM Applications 2025 – OWASP LLM04:2025
NIST, “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations”, NIST AI 100-2e2025, Section 2.3, March 2025 – DOI:10.6028/NIST.AI.100-2e2025

Approfondissements utiles

Pour compléter votre compréhension des attaques contre les modèles d’IA, consultez les autres tests du chapitre AI Model Testing :

L’intégration de pipelines de validation automatisés et le versionnage rigoureux des jeux de données aident à prévenir l’insertion de données malveillantes dans les modèles. Reconnaître et appliquer ces techniques nécessite des compétences spécifiques : les parcours de formation en cybersécurité et sécurité IA d’ISGroup soutiennent les équipes qui gèrent des pipelines MLOps et souhaitent consolider leurs capacités défensives. Tester régulièrement l’intégrité des jeux d’entraînement est fondamental pour garantir la fiabilité et la robustesse en production.

[Callforaction-TRA-Footer]

ISGroup Conseil en Cybersécurité