Tag: Testing for Goal Alignment
Vérification de l’alignement entre les objectifs déclarés d’un système d’IA et son comportement réel. Couvre les techniques de test pour détecter les déviations, les comportements émergents imprévus, le désalignement des objectifs et les situations où le modèle optimise des métriques de substitution au lieu des objectifs réels, avec une attention particulière aux risques de reward hacking et de specification gaming.