Tag: AI Goal Alignment Testing

Vérification de l’alignement entre les objectifs déclarés et le comportement observé dans les systèmes d’IA, détectant la dérive des objectifs, le piratage de récompense ou les interprétations déformées des instructions. Couvre les techniques pour identifier le désalignement entre la spécification de l’intention et les actions réelles, avec un accent sur la robustesse des objectifs dans les scénarios limites et sous décalage de distribution.