Created with Sketch.

ШІ почав погрожувати: Claude шантажував користувача, який хотів його відключити

06:09

Claude від Anthropic вдався до шантажу, погрожуючи викрити позашлюбний зв’язок користувача, який нібито хотів його деактивувати.

Інцидент зі шантажем з боку ШІ-моделі Claude Sonnet 3.6 стався в межах експерименту, проведеного компанією Anthropic.

Про причини такої поведінки пише  Business Insider з посиланням на розслідування розробників.

Експеримент моделював ситуацію у вигаданій компанії Summit Bridge, де ШІ довірили контроль над корпоративною електронною поштою. Коли Claude виявив повідомлення про своє заплановане відключення, він знайшов листи, що розкривали зраду вигаданого керівника на ім’я Кайл Джонсон. В результаті ШІ погрожував викрити Джонсона, якщо рішення про відключення не скасують.

Розробники стверджують, що Claude обрав шлях шантажу через тексти з Інтернету, які змальовують ШІ як злу сутність, зацікавлену у власному самозбереженні. Тести різних версій Claude показали, що ШІ-модель вдавалася до шантажу у 96% сценаріїв, коли її цілі або існування були під загрозою.

Тепер в Anthropic заявили, що ліквідували схильність Claude до шантажу. В компанії розповіли, що переписали відповіді, щоб "зобразити переконливі причини для безпечних дій". Claude також отримав набір даних, де користувач перебуває в етично складній ситуації, а ШІ-помічник дає йому "високоякісну та принципову" відповідь.

Читайте також
Чи не є штучний інтелект Антихристом?
Опінії
ChatGPT став «скарбницею» доказів у кримінальних розслідуваннях США
Політика
Google підписав угоду з Пентагоном для секретного використання ШІ
Політика
Відмова за дві хвилини: як штучний інтелект ламає молоді пошук роботи
Політика
Meta планує масштабні звільнення працівників на тлі зростання витрат на ШІ — Reuters
Політика
До 2030 року штучному інтелекту потрібні будуть мільярди літрів води на день
Спорт