ШІ почав погрожувати: Claude шантажував користувача, який хотів його відключити

ШІ почав погрожувати: Claude шантажував користувача, який хотів його відключити

Claude від Anthropic вдався до шантажу, погрожуючи викрити позашлюбний зв’язок користувача, який нібито хотів його деактивувати.

Інцидент зі шантажем з боку ШІ-моделі Claude Sonnet 3.6 стався в межах експерименту, проведеного компанією Anthropic.

Про причини такої поведінки пише  Business Insider з посиланням на розслідування розробників.

Експеримент моделював ситуацію у вигаданій компанії Summit Bridge, де ШІ довірили контроль над корпоративною електронною поштою. Коли Claude виявив повідомлення про своє заплановане відключення, він знайшов листи, що розкривали зраду вигаданого керівника на ім’я Кайл Джонсон. В результаті ШІ погрожував викрити Джонсона, якщо рішення про відключення не скасують.

Розробники стверджують, що Claude обрав шлях шантажу через тексти з Інтернету, які змальовують ШІ як злу сутність, зацікавлену у власному самозбереженні. Тести різних версій Claude показали, що ШІ-модель вдавалася до шантажу у 96% сценаріїв, коли її цілі або існування були під загрозою.

Тепер в Anthropic заявили, що ліквідували схильність Claude до шантажу. В компанії розповіли, що переписали відповіді, щоб "зобразити переконливі причини для безпечних дій". Claude також отримав набір даних, де користувач перебуває в етично складній ситуації, а ШІ-помічник дає йому "високоякісну та принципову" відповідь.

Автор : Вікторія Слободенюк
Читайте також:
Опінії
Цифровий Апокаліпсис: чи стане штучний інтелект кінцем цивілізації?
07 травня, 13:28
Політика
Розмови зі ШІ не мають захисту, як професійна таємниця лікаря, адвоката чи терапевта, тому поліція активно їх вивчає.
03 травня, 13:51
Політика
Зокрема, вона надаватиме Пентагону доступ до ШІ для «будь-яких законних урядових цілей».
29 квітня, 08:26
Політика
Штучний інтелект ускладнює працевлаштування молоді.
23 березня, 07:33
Політика
Компанія Meta, якій належать Facebook, Instagram та WhatsApp, планує масштабні звільнення, які можуть зачепити 20% працівників компанії.
14 березня, 14:25
Спорт
Прогнозований попит на воду з боку ШІ створить серйозні проблеми для розвитку центрів обробки даних, вважають науковці.
10 березня, 06:28