Apache Tika est une boîte à outils largement utilisée pour l’analyse et l’extraction de contenu, souvent intégrée dans des systèmes backend pour des pipelines d’acquisition de données, des systèmes de gestion de contenu (CMS) et des services d’indexation pour la recherche. Sa capacité à traiter des centaines de types de fichiers en fait un composant critique dans les environnements à haut volume de données.
L’impact de cette vulnérabilité est Critique. Un attaquant non authentifié peut obtenir une falsification de requête côté serveur (SSRF) et l’exfiltration de fichiers locaux simplement en envoyant un fichier PDF malveillant. Cela permet aux attaquants de voler des fichiers de configuration sensibles, des identifiants et des données propriétaires directement depuis le système de fichiers du serveur. De plus, la fonctionnalité SSRF permet aux attaquants d’effectuer des mouvements latéraux et d’analyser le réseau interne, accédant et compromettant potentiellement d’autres services internes accessibles depuis le serveur Tika.
Cette vulnérabilité représente un risque significatif pour les organisations disposant de fonctionnalités de téléchargement de fichiers exposées publiquement qui s’appuient sur Apache Tika pour le traitement. Étant donné qu’un code d’exploitation public est disponible, la probabilité d’exploitation active est élevée. Les applications exposées sur Internet utilisant les versions vulnérables de Tika sont immédiatement exposées à des risques de violation de données et de compromission du réseau interne.
| Produit | Apache Tika |
| Date | 06/12/2025 00:23:28 |
Résumé technique
La cause principale de cette vulnérabilité est une CWE-611 : Restriction inappropriée des références aux entités externes XML, communément appelée injection XXE. Le défaut est présent en particulier au sein du tika-parser-pdf-module.
Lorsqu’Apache Tika analyse un fichier PDF, il tente d’en traiter divers composants, y compris les données XFA (XML-based Form Architecture) si elles sont présentes. La vulnérabilité est déclenchée parce que l’analyseur XML sous-jacent utilisé pour le flux XFA n’est pas configuré de manière sécurisée pour désactiver la résolution des entités externes.
La chaîne d’attaque est la suivante :
- Un attaquant crée un document PDF contenant une charge utile XFA malveillante. Cette charge utile définit une entité externe pointant vers un URI de fichier local (ex.
file:///etc/passwd) ou vers une ressource interne au réseau. - Le PDF malveillant est téléchargé dans une application utilisant une version vulnérable d’Apache Tika pour l’analyse.
- Le
tika-parser-pdf-moduletraite le PDF, identifie les données XFA et les transmet à l’analyseur XML mal configuré. - L’analyseur résout l’entité externe malveillante, provoquant la lecture par le serveur du contenu du fichier spécifié ou l’exécution d’une requête vers un point de terminaison du réseau interne.
- Les données exfiltrées sont incorporées dans le contenu textuel extrait, qui peut ensuite être renvoyé à l’attaquant ou stocké dans un emplacement accessible.
Un exemple conceptuel d’entité XXE malveillante au sein des données XFA est le suivant :
<!DOCTYPE xfa [
<!ENTITY xxe SYSTEM "file:///etc/shadow">
]>
<form>
<textfield>...&xxe;...</textfield>
</form>
Versions vulnérables : Les versions d’Apache Tika de la 1.13 à la 3.2.1 sont vulnérables.
Disponibilité du correctif : Un correctif est prévu dans une version future. Les utilisateurs doivent surveiller le projet officiel Apache Tika pour les annonces de correctifs.
Recommandations
Appliquer le correctif immédiatement : Mettre à jour toutes les instances d’Apache Tika vers la version stable la plus récente dès qu’un correctif est publié par l’Apache Software Foundation. Surveiller la page officielle du projet pour les bulletins de sécurité.
Atténuations :
- Si l’application du correctif n’est pas possible immédiatement, envisager la désactivation temporaire du
tika-parser-pdf-modulesi le traitement des PDF n’est pas une exigence critique. - Implémenter un filtrage rigoureux de la sortie réseau sur les serveurs exécutant Apache Tika pour bloquer les connexions sortantes vers des adresses IP internes et externes inattendues, limitant l’impact du vecteur SSRF.
- Appliquer une configuration sécurisée de l’analyse XML au niveau global, si possible, en s’assurant que tous les analyseurs XML désactivent par défaut le traitement des entités externes et des DTD.
- Si l’application du correctif n’est pas possible immédiatement, envisager la désactivation temporaire du
-
Chasse et surveillance :
- Analyser les journaux de l’application pour détecter des erreurs d’analyse PDF contenant des fragments de contenu provenant de fichiers côté serveur ou des réponses de services réseau internes.
- Surveiller les journaux du serveur et du réseau pour détecter un trafic réseau sortant inhabituel provenant des serveurs d’application Tika, en particulier les requêtes vers des services de métadonnées internes (ex. 169.254.169.254) ou d’autres points de terminaison sensibles.
- Inspecter les journaux de téléchargement de fichiers à la recherche de PDF envoyés qui déclenchent des exceptions liées à l’analyse XML ou XFA.
-
Réponse aux incidents :
- Si une compromission est suspectée, isoler immédiatement le serveur concerné du réseau pour empêcher toute exfiltration de données supplémentaire ou tout mouvement latéral interne.
- Conserver les journaux du serveur, les journaux des applications et tout fichier PDF suspect pour analyse forensique.
- Présumer que tout secret, identifiant ou clé API stocké sur le système de fichiers du serveur a été compromis et lancer les procédures de rotation.
-
Défense en profondeur :
- Exécuter les applications utilisant Apache Tika dans des environnements isolés ou des conteneurs avec un accès minimal au système de fichiers et au réseau.
- Appliquer le principe du moindre privilège au compte de service exécutant le processus Tika, en s’assurant qu’il n’a pas d’accès en lecture aux fichiers système sensibles.
- Implémenter une segmentation robuste du réseau pour empêcher les serveurs traitant des données non fiables d’établir des connexions avec des infrastructures internes critiques.
[Callforaction-THREAT-Footer]
Leave a Reply