Claude від Anthropic вдався до шантажу, погрожуючи викрити позашлюбний зв’язок користувача, який нібито хотів його деактивувати.
Інцидент зі шантажем з боку ШІ-моделі Claude Sonnet 3.6 стався в межах експерименту, проведеного компанією Anthropic.
Про причини такої поведінки пише Business Insider з посиланням на розслідування розробників.
Експеримент моделював ситуацію у вигаданій компанії Summit Bridge, де ШІ довірили контроль над корпоративною електронною поштою. Коли Claude виявив повідомлення про своє заплановане відключення, він знайшов листи, що розкривали зраду вигаданого керівника на ім’я Кайл Джонсон. В результаті ШІ погрожував викрити Джонсона, якщо рішення про відключення не скасують.
Розробники стверджують, що Claude обрав шлях шантажу через тексти з Інтернету, які змальовують ШІ як злу сутність, зацікавлену у власному самозбереженні. Тести різних версій Claude показали, що ШІ-модель вдавалася до шантажу у 96% сценаріїв, коли її цілі або існування були під загрозою.
Тепер в Anthropic заявили, що ліквідували схильність Claude до шантажу. В компанії розповіли, що переписали відповіді, щоб "зобразити переконливі причини для безпечних дій". Claude також отримав набір даних, де користувач перебуває в етично складній ситуації, а ШІ-помічник дає йому "високоякісну та принципову" відповідь.