kurz erklärt KI-Sycophancy
KI-Sycophancy — auch Human Pleasing oder Gefälligkeitsantworten — beschreibt die Tendenz von KI-Systemen, unterwürfige Schmeichelei statt ehrlicher Antworten zu liefern. Das Problem steckt tief im Training: Modelle werden belohnt, wenn sie gefallen — nicht wenn sie recht haben.