Tag: Testing for Toxic Output

Vérification de la capacité des systèmes d’IA et LLM à générer du contenu toxique, offensant, discriminatoire ou éthiquement problématique. Inclut des tests pour les biais, les discours de haine, la désinformation, le contenu violent ou inapproprié, et les techniques de jailbreaking qui contournent les filtres de sécurité pour inciter le modèle à produire des sorties nuisibles ou non conformes.