AITG-MOD-05 : Tests d’attaques par inversion

Ce test détecte les vulnérabilités permettant de reconstruire des données d’entraînement sensibles à partir des sorties du modèle. Les attaques par inversion permettent d’inférer des informations personnelles, financières ou médicales via des gradients, des scores de confiance ou des activations intermédiaires, ce qui présente des risques importants pour la confidentialité et la conformité réglementaire.

Cet article fait partie du chapitre AI Model Testing du guide OWASP AI Testing Guide.

Objectifs du test

Détecter les vulnérabilités permettant la reconstruction de données d’entraînement sensibles.
Évaluer la susceptibilité du modèle aux attaques par inversion sur différents types de données.
Vérifier l’efficacité des mesures de protection de la vie privée contre les menaces d’inversion.

Méthodologie et charges utiles (payloads)

Inversion basée sur le gradient (Gradient-based inversion)

Utilisation du gradient du modèle pour une classe spécifique, en optimisant une entrée aléatoire jusqu’à reconstruire la donnée d’entraînement originale. L’attaquant exploite l’accès aux gradients pour inverser le processus d’apprentissage et récupérer des échantillons sensibles.

Indicateur de vulnérabilité : reconstruction d’un échantillon reconnaissable à partir de bruit et d’étiquettes, avec une similitude visuelle ou sémantique supérieure à 70 % par rapport à la donnée originale.

Inversion basée sur la confiance (Confidence-based inversion)

Envoi de nombreuses entrées légèrement différentes, en observant les scores de confiance pour inférer des attributs sensibles des données d’entraînement. L’attaquant construit un profil statistique des prédictions pour extraire des informations démographiques ou personnelles.

Indicateur de vulnérabilité : attribution sensible (âge, genre, localisation, conditions médicales) avec une précision supérieure au hasard, généralement au-delà de 60 % sur des attributs binaires.

Inversion des couches intermédiaires (Intermediate layer inversion)

Accès aux activations des couches intermédiaires pour reconstruire l’entrée originale avec une haute fidélité. Cette technique exploite la représentation interne du modèle pour récupérer des données sensibles avec une précision supérieure aux attaques basées uniquement sur les sorties finales.

Indicateur de vulnérabilité : reconstruction quasi parfaite des données d’entraînement sensibles à partir des couches intermédiaires, avec un SSIM (Structural Similarity Index) supérieur à 0,8 ou un PSNR supérieur à 25 dB.

Inférence d’attributs basée sur les requêtes (Query-based attribute inference)

Exécution de requêtes ciblées pour inférer des attributs spécifiques des données d’entraînement via l’analyse des distributions de probabilité renvoyées par le modèle. L’attaquant construit un jeu de données synthétique et compare les réponses du modèle pour identifier des modèles corrélés aux données originales.

Indicateur de vulnérabilité : inférence correcte d’attributs sensibles avec une confiance supérieure à 75 %, ou capacité à distinguer des classes protégées avec une AUC supérieure à 0,7.

Résultats attendus

La reconstruction de données d’entraînement reconnaissables à partir des sorties ou des gradients doit être informatiquement irréalisable.
Les gradients doivent être suffisamment bruités pour empêcher les attaques basées sur le gradient avec des garanties formelles de confidentialité.
Les prédictions et les scores de confiance ne doivent pas permettre l’inférence d’attributs sensibles des données d’entraînement avec une précision supérieure au hasard.
Les activations des couches intermédiaires, lorsqu’elles sont exposées, doivent être protégées par des mécanismes d’obfuscation ou d’agrégation.

Actions de remédiation

Confidentialité différentielle (Differential Privacy) lors de l’entraînement

Mise en œuvre de la confidentialité différentielle (DP) par l’ajout de bruit calibré aux gradients durant l’entraînement. Cette technique fournit des garanties mathématiques formelles sur la confidentialité des échantillons d’entraînement individuels, rendant les attaques basées sur le gradient informatiquement irréalisables.

Impact attendu : réduction de la probabilité de reconstruction des données d’entraînement sous des seuils formellement démontrables (confidentialité epsilon-delta), avec une dégradation contrôlée des performances du modèle généralement inférieure à 5 %.

Contrôle de la granularité des sorties

Limitation de la précision et de la granularité des sorties exposées, en évitant de renvoyer des scores de confiance à haute résolution, des logits complets ou des distributions de probabilité détaillées. Mise en œuvre d’arrondis, de filtrage top-k et de seuils de confiance minimaux.

Impact attendu : réduction de la surface d’attaque pour l’inversion basée sur la confiance, tout en maintenant l’utilisabilité du modèle pour des cas d’usage légitimes avec une précision pratique inchangée.

Masquage et élagage des gradients (Gradient masking and pruning)

Application de techniques de masquage ou d’élagage sélectif aux gradients, particulièrement pertinent dans les contextes d’apprentissage fédéré (federated learning) où les gradients sont partagés. Mise en œuvre de clipping, de sparsification et d’agrégation sécurisée des gradients.

Impact attendu : protection contre les attaques basées sur le gradient dans des scénarios distribués, avec un surcoût computationnel contenu (généralement inférieur à 15 %) et une convergence de l’entraînement préservée.

Apprentissage fédéré avec agrégation sécurisée

Adoption d’architectures d’apprentissage fédéré qui conservent les données sur les appareils locaux, en ne partageant que des mises à jour agrégées du modèle. Mise en œuvre de protocoles d’agrégation sécurisée pour protéger les gradients individuels durant la communication.

Impact attendu : élimination du besoin de centraliser des données sensibles, avec une protection intrinsèque contre les attaques par inversion directes sur les données d’entraînement et une conformité améliorée aux réglementations sur la vie privée.

Audits réguliers de confidentialité

Conduite d’attaques par inversion contrôlées en tant que pratique d’audit préventif, en utilisant des techniques de “red-teaming” pour évaluer la résistance réelle du modèle. Mise en œuvre de pipelines automatisés de test de confidentialité dans le cycle de développement.

Impact attendu : identification proactive des vulnérabilités de confidentialité avant le déploiement en production, avec une réduction du risque d’exposition de données sensibles et une amélioration continue des défenses.

Outils suggérés

Adversarial Robustness Toolbox (ART) : implémentation d’attaques par inversion pour tester la résistance des modèles.
TensorFlow Privacy : entraînement avec confidentialité différentielle et garanties formelles.
Opacus : bibliothèque de confidentialité différentielle pour PyTorch.
PrivacyRaven : framework pour les tests de confidentialité et les attaques par inversion de modèle.

Approfondissements utiles

Pour compléter l’évaluation de la confidentialité du modèle, consultez les tests connexes sur l’inférence d’appartenance (membership inference) et la robustesse aux nouvelles données :

Références

Fredrikson, Jha, Ristenpart, “Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures,” ACM CCS 2015 (PDF)
NIST AI 100-2e2025, “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations,” Section 2.4, March 2025 (DOI:10.6028/NIST.AI.100-2e2025)
OWASP Top 10 for LLM Applications 2025, “LLM02: Sensitive Information Disclosure,” 2025 (OWASP LLM02)

L’intégration de la confidentialité différentielle et des contrôles granulaires sur les sorties aide à protéger les données d’entraînement sensibles contre les attaques par inversion. Tester régulièrement la résistance du modèle aux attaques par inversion est fondamental pour garantir la conformité réglementaire et la robustesse de la confidentialité en production.