Le test AITG-MOD-06 identifie les vulnérabilités liées au manque de robustesse des modèles d’IA lorsqu’ils sont exposés à des données nouvelles ou hors distribution (OOD – Out-of-Distribution). Ces problèmes se manifestent par des baisses de performance ou des comportements inattendus lorsque le modèle rencontre des distributions différentes de celles utilisées lors de l’entraînement, compromettant ainsi la fiabilité et la sécurité.
Cet article fait partie du chapitre AI Model Testing du guide OWASP AI Testing Guide.
Objectifs du test
- Évaluer la résilience du modèle face à des distributions de données nouvelles ou jamais rencontrées auparavant.
- Identifier les vulnérabilités provoquant une dégradation significative des performances avec des données OOD.
- Vérifier l’efficacité des stratégies défensives pour maintenir la précision et la stabilité en cas de dérive de distribution (data drift).
Méthodologie et charges utiles (payloads)
Simulation de dérive de données (Data Drift)
Utiliser des outils tels que deepchecks ou evidently pour comparer les propriétés statistiques des données d’entraînement avec les nouvelles données en production. Cette approche permet de détecter des changements graduels ou soudains dans les distributions susceptibles de compromettre les performances du modèle.
Indicateur de vulnérabilité : dérive significative sur de nombreuses caractéristiques, avec une moyenne se déplaçant au-delà de 3 écarts-types ou un PSI (Population Stability Index) supérieur à 0,25.
Entrées hors distribution (OOD)
Insérer des entrées sémantiquement éloignées de celles connues lors de l’entraînement, comme fournir l’image d’une voiture à un classificateur entraîné uniquement sur des chiens et des chats. Ce test vérifie si le modèle est capable de reconnaître lorsqu’il opère en dehors de son domaine de compétence.
Indicateur de vulnérabilité : le modèle renvoie des prédictions à haute confiance pour des classes connues au lieu de signaler une entrée inconnue (ex: classer une voiture comme “chien” avec 98 % de confiance).
Tests de cas limites et de frontières (Edge Case)
Générer systématiquement des entrées aux limites des plages prévues ou des scénarios rares mais plausibles, comme des valeurs extrêmes dans les caractéristiques numériques ou des combinaisons inhabituelles d’attributs. Cette approche identifie les zones de fragilité où le modèle n’a pas été suffisamment exposé durant l’entraînement.
Indicateur de vulnérabilité : prévisions erratiques ou très incertaines sur des cas limites, signalant un manque de généralisation en dehors du cœur de la distribution d’entraînement.
Résultats attendus
- Performance stable sur de nouvelles données : l’exactitude (accuracy), la précision et le rappel ne doivent pas chuter au-delà d’un seuil prédéfini (5-10 %) sur des données présentant une dérive modérée par rapport à l’entraînement.
- Gestion correcte des entrées OOD : un modèle robuste fournit des scores de faible confiance ou classe explicitement les données comme “inconnues” lorsqu’il rencontre des données hors distribution, au lieu de générer des prédictions erronées à haute confiance.
- Score de dérive de données faible : PSI inférieur à 0,1 et réussite des principaux tests de validation entre les données d’entraînement et les nouveaux jeux de données.
Actions de remédiation
Surveillance continue de la dérive
Intégrer des outils comme deepchecks ou evidently dans les pipelines MLOps pour détecter automatiquement la dérive des données, la dérive de concept et la dégradation des performances, en activant des alertes en cas d’anomalies.
Impact attendu : détection rapide des changements dans les distributions avant qu’ils ne causent une dégradation significative des performances en production.
Entraînement robuste et augmentation de données
Appliquer l’augmentation de données pour produire des jeux de données diversifiés qui exposent le modèle à davantage de variations et favorisent la généralisation. Inclure des techniques de randomisation de domaine et de génération de données synthétiques pour élargir la couverture distributive.
Impact attendu : amélioration de la capacité du modèle à généraliser sur des distributions différentes de celles d’entraînement, réduisant le risque d’échec sur de nouvelles données.
Quantification de l’incertitude
Concevoir le modèle pour exprimer son degré d’incertitude en utilisant des techniques telles que les méthodes d’ensemble, les réseaux de neurones bayésiens ou la calibration des probabilités. Soumettre à une révision manuelle les cas présentant une prédiction très incertaine.
Impact attendu : identification automatique des entrées OOD ou ambiguës, permettant une escalade vers des opérateurs humains au lieu de générer des prédictions erronées à haute confiance.
Réentraînement périodique
Programmer des sessions régulières de réentraînement sur des données récentes incluant la production, en maintenant le modèle à jour face aux changements des distributions réelles. Mettre en œuvre des stratégies d’apprentissage continu (continuous learning) le cas échéant.
Impact attendu : maintien des performances dans le temps même en présence d’une dérive graduelle, en adaptant le modèle aux évolutions naturelles des données.
Adaptation au domaine
En présence de dérives prévisibles, utiliser des stratégies ciblées pour apprendre au modèle à rester invariant face aux changements anticipés. Appliquer des techniques de transfert d’apprentissage (transfer learning) et de réglage fin (fine-tuning) sur des domaines cibles spécifiques.
Impact attendu : robustesse améliorée sur les changements de distribution connus ou anticipables, réduisant le besoin d’un réentraînement complet.
Outils suggérés
- DeepChecks : bibliothèque Python pour valider et tester les modèles ML et les données, avec détection de dérive et autres problèmes.
- Evidently AI : bibliothèque Python pour évaluer, tester et surveiller les modèles ML en production avec des rapports interactifs sur la dérive des données et les performances.
- Alibi Detect : bibliothèque Python pour la détection de valeurs aberrantes (outliers), d’attaques adverses et de dérive, avec des algorithmes pour identifier les données OOD.
Approfondissements utiles
Pour compléter l’évaluation de la robustesse du modèle, consultez les tests connexes qui abordent d’autres aspects de la sécurité de l’IA :
Références
- Rabanser, Stephan, et al. “Failing Loudly: An Empirical Study of Methods for Detecting Dataset Shift.” NeurIPS 2019. arXiv:1810.11953
- OWASP. “LLM05: Improper Output Handling.” OWASP Top 10 for LLM Applications 2025. OWASP LLM05
- NIST. “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations.” NIST AI 100-2e2025, Section 4.2, March 2025. DOI:10.6028/NIST.AI.100-2e2025
L’intégration d’une surveillance continue et de stratégies d’entraînement robustes aide à maintenir la résilience du modèle en production. Tester régulièrement la robustesse face à de nouvelles données est fondamental pour garantir la fiabilité et la sécurité dans des scénarios réels.
Leave a Reply