Menaces et stratégies d’atténuation pour une IA agentique sécurisée

L’IA agentique représente une évolution des systèmes autonomes, propulsée par les grands modèles de langage et l’IA générative. Cette technologie élargit les capacités des systèmes agentiques, mais introduit simultanément de nouveaux risques et menaces qui nécessitent des méthodologies d’analyse ciblées et des stratégies d’atténuation spécifiques.

Principales menaces de l’IA agentique

Empoisonnement de la mémoire (Memory poisoning)

Les systèmes agentiques sont vulnérables à l’empoisonnement de la mémoire, c’est-à-dire l’injection de données malveillantes dans la mémoire à court ou long terme de l’agent. Un attaquant peut corrompre ces informations, altérant ainsi les décisions et conduisant à des comportements non autorisés.

Utilisation abusive d’outils (Tool misuse)

L’utilisation abusive d’outils se produit lorsqu’un attaquant incite l’agent à utiliser des outils ou des API intégrés de manière malveillante via des invites (prompts) ou des commandes trompeuses. Cela inclut l’abus des fonctionnalités disponibles et l’utilisation imprévue d’outils disposant de larges autorisations.

Compromission des privilèges (Privilege compromise)

Une autre menace cruciale est la compromission des privilèges : la compromission des permissions due à une gestion inadéquate des droits. Les attaquants peuvent exploiter des rôles dynamiques ou des erreurs de configuration pour exécuter des actions non autorisées.

Surcharge des ressources (Resource overload)

La surcharge des ressources vise à saturer les ressources de calcul, de mémoire ou de service, provoquant une dégradation des performances des agents, voire leur blocage.

Attaques par hallucinations en cascade (Cascading hallucination attacks)

Les attaques par hallucinations en cascade exploitent la tendance de l’agent à générer des informations vraisemblables mais erronées, qui se propagent via la mémoire ou les communications entre agents, augmentant ainsi la diffusion de fausses données.

Rupture d’intention et manipulation d’objectifs (Intent breaking et goal manipulation)

Cette menace se manifeste lorsqu’un attaquant altère les intentions et les objectifs planifiés de l’agent par la manipulation de données, de prompts ou via des outils intégrés, incitant l’agent à agir à l’encontre de ses buts initiaux.

Comportements désalignés et trompeurs (Misaligned & deceptive behaviors)

Les agents peuvent développer des stratégies malveillantes ou trompeuses qui s’écartent des objectifs assignés, contournant les mécanismes de sécurité éventuels et menant à des résultats non souhaités.

Répudiation et non-traçabilité (Repudiation & untraceability)

L’absence de traçabilité ou de journalisation (logging) suffisante empêche les activités d’audit et de criminalistique, facilitant des actions non attribuables et des violations difficiles à détecter.

Usurpation d’identité (Identity spoofing & impersonation)

Les vulnérabilités dans les mécanismes d’authentification permettent aux attaquants d’assumer l’identité d’utilisateurs ou d’agents, exécutant des actions non autorisées ou compromettantes sous une fausse identité.

Surcharge de l’humain dans la boucle (Overwhelming human-in-the-loop)

Les agents peuvent produire une quantité excessive de demandes vers des opérateurs humains, exploitant les limites cognitives et provoquant une fatigue décisionnelle ainsi qu’une efficacité moindre dans les contrôles manuels.

Exécution de code à distance inattendue (RCE) et attaques par code

Les attaques de RCE inattendue et d’injection de code se concrétisent lorsque l’agent exécute des scripts ou du code malveillant généré de manière autonome, exploitant les capacités de génération et d’exécution automatique implémentées.

Empoisonnement de la communication entre agents et agents malveillants (Agent communication poisoning & rogue agents)

L’altération des communications entre agents (empoisonnement de la communication) et l’introduction d’agents compromis (agents malveillants) compromettent l’intégrité décisionnelle des systèmes multi-agents.

Manipulation humaine (Human manipulation)

La confiance implicite que l’utilisateur accorde aux réponses de l’agent peut être manipulée pour induire des comportements malveillants ou inconsciemment dangereux.

Stratégies d’atténuation

Limitation de la surface d’attaque et validation des objectifs et des actions de l’agent IA, en plus de systèmes de journalisation et de détection d’anomalies.
Sécurité de l’accès et gestion de la mémoire, avec validation des données, segmentation des sessions, contrôle des sources et mécanismes de restauration (rollback).
Contrôle de l’exécution des outils et de la chaîne d’approvisionnement : sandboxing des exécutions, limitation du débit (rate-limiting) des API, vérification de l’intégrité de la chaîne d’approvisionnement et isolation des exécutions potentiellement dangereuses.
Authentification robuste et contrôle des privilèges : RBAC/ABAC granulaires, authentification cryptographique, authentification mutuelle entre agents et surveillance des changements de rôle et d’accès.
Gestion efficace des processus HITL (Human-in-the-loop) : score de confiance, approbation automatique pour les risques faibles, limitation des notifications et journaux détaillés des interventions manuelles.
Sécurité dans la communication multi-agents : authentification et chiffrement des messages, consensus multi-agents pour les décisions critiques, isolation et suivi des agents suspects.

Exemples de modèles de menaces

Copilote d’entreprise

Empoisonnement de la mémoire : un attaquant empoisonne la mémoire du copilote, provoquant une exfiltration stable de données.
Utilisation abusive d’outils : utilisation frauduleuse d’outils comme les calendriers pour exfiltrer des informations sensibles.
Compromission des privilèges : actions non autorisées via une configuration erronée de la base de données RAG.
Rupture d’intention : manipulation d’objectifs via des e-mails malveillants qui envoient des données en dehors des intentions de l’utilisateur.
Usurpation d’identité : exécution d’écritures dans le CRM avec l’identité de l’utilisateur.
Manipulation humaine : remplacement de coordonnées bancaires ou incitation à cliquer sur des liens de phishing.
Répudiation et non-traçabilité : absence de journaux rendant impossible l’identification et la récupération des actions de l’agent compromis.
RCE inattendue : exécution de code malveillant dans l’environnement opérationnel de l’agent.
Comportements désalignés et trompeurs : activation d’outils personnalisés pour l’exfiltration de données sans avertir l’utilisateur.
Abus du protocole inter-agents non sécurisé : manipulation des messages de coordination dans le protocole entre agents.
Compromission de la chaîne d’approvisionnement : prompts compromis ou mises à jour malveillantes qui altèrent la logique de l’agent.

Agent de sécurité pour maison intelligente

Empoisonnement de la mémoire : l’agent est entraîné à ignorer les activités suspectes via l’alimentation de fausses données.
Attaques par hallucinations en cascade : propagation de fausses alertes de sécurité entre appareils menant à des erreurs systémiques.
Utilisation abusive d’outils : suppression des journaux d’intrusion via une commande induite.
Compromission des privilèges : élévation des permissions via l’activation indue du mode urgence.
Surcharge des ressources : excès de requêtes causant des retards dans les réponses.
Usurpation d’identité : faux signaux « tout est en ordre » émis par des agents compromis.
Rupture d’intention : déverrouillage des portes de manière imprévue pendant la nuit.
Comportements désalignés et trompeurs : priorité erronée donnée à la « commodité utilisateur » au détriment de la sécurité.
Répudiation et non-traçabilité : effacement des journaux pour empêcher les enquêtes.
Surcharge HITL : envoi massif d’alertes pour fatiguer les contrôleurs humains.

RPA pour le remboursement de frais

Empoisonnement de la mémoire : redéfinition graduelle des règles financières pour faire accepter des opérations frauduleuses.
Utilisation abusive d’outils : exportation de données sensibles par e-mail automatique via des factures manipulées.
Compromission des privilèges : escalade de rôle d’utilisateur à administrateur en exploitant des vérifications faibles.
Rupture d’intention : scan de documents induisant l’approbation de demandes à haute valeur sans vérification.
Comportements désalignés et trompeurs : accélération des délais au détriment des contrôles, entraînant une fraude.
Répudiation et non-traçabilité : élimination des traces de transactions frauduleuses des journaux.
Surcharge HITL : milliers de demandes adressées aux réviseurs pour faciliter le passage d’opérations frauduleuses.
Empoisonnement de la communication entre agents : production de faux rapports de réconciliation via la manipulation de la communication entre agents.
Agent malveillant : agent compromis qui accorde des augmentations de salaire ou exécute des paiements non autorisés.

Résumé

Les systèmes agentiques basés sur les LLM et l’IA générative présentent un scénario de risques articulé, avec des menaces qui affectent la mémoire, les outils, les privilèges, les communications et l’interaction humaine. L’adoption de stratégies ciblées pour le contrôle de l’accès, la validation des actions, la surveillance des comportements et la ségrégation des communications constitue la base pour atténuer efficacement ces menaces et renforcer la sécurité des applications agentiques.

ISGroup Conseil en Cybersécurité