Чому ChatGPT заборонили згадувати про гоблінів і гремлінів?

01 травня, 13:27

Розробник ChatGPT, OpenAI, був змушений наказати деяким своїм інструментам штучного інтелекту припинити згадувати гоблінів.

Це сталося після того, як виявилося, що цей термін почав випадково з’являтися у відповідях.

У четвер у блозі компанія повідомила, що помітила збільшення згадок міфологічних істот, таких як гремліни, у метафорах, які використовують ChatGPT та інші інструменти, що працюють на її останній флагманській моделі GPT-5.

Після того як користувачі та співробітники повідомили про проблеми, які описувалися як «маленькі гобліни», OpenAI заявила, що вжила заходів для їх вирішення. Зокрема, компанія повідомила своєму агенту кодування Codex не згадувати цих істот, якщо це недоречно.

Було виявлено, що «занудна особистість» («nerdy personality»), яку розробили для ChatGPT, несвідомо стимулювала винагородження згадок про гоблінів.

Це демонструє труднощі, з якими стикаються компанії, що займаються штучним інтелектом, у вирішенні проблем потенційних можливостей систем та їхнього навчання в контексті мовних особливостей.

OpenAI заявила, що вперше помітила збільшення згадок гоблінів, гремлінів та інших істот після запуску GPT-5.1 у листопаді.

«Користувачі скаржилися на те, що модель дивно фамільярна у розмовах, що спонукало до розслідування конкретних вербальних особливостей», — написала компанія у своєму блозі в четвер.

Вона додала, що після того, як дослідник, який бачив кілька згадок про «гобліна», попросив перевірити це, розробники виявили, що поява терміна у відповідях ChatGPT зросла на 175% з моменту запуску GPT-5.1.

Також вони виявили, що згадки про «гремліна» зросли на 52%.

Збільшення, хоча й значне, може пояснюватися невеликою кількістю відповідей загалом.

За даними OpenAI, «один “маленький гоблін” у відповіді може бути нешкідливим, навіть чарівним», але стрімке зростання їхньої появи вимагало розслідування.

Перед публікацією допису в блозі OpenAI, в якому описувалася проблема, деякі користувачі соціальних мереж помітили дивну деталь серед рядків коду, що вказують помічнику з кодування компанії Codex, як поводитися під час взаємодії з користувачами.

Окрім рекомендації уникати банальностей, у ньому також зазначалося, що Codex «ніколи не повинен говорити про гоблінів, гремлінів, єнотів, тролів, огрів, голубів чи інших тварин або істот, якщо це не є абсолютно та однозначно релевантним запиту користувача».

Користувач Reddit, який опублікував допис, назвав це «справді божевільним».

Хоча деякі користувачі в інших соціальних мережах припускали, що це могло бути зроблено для створення ажіотажу навколо інструментів штучного інтелекту, дослідник компанії заперечив це, написавши у відповідь користувачеві на X: «це насправді не маркетинговий трюк».

У своєму блозі OpenAI повідомила, що додала інструкцію для обмеження «дивної схильності Codex» та його базової моделі до гоблінів.

Основна проблема, пояснила компанія, очевидно, виникла під час навчання моделей спілкуванню в стилі певних особистостей — у цьому випадку йшлося про їхню «занудну особистість».

Компанія виявила, що ця система винагороджувала згадки гоблінів, гремлінів та інших істот у метафорах.

Тестування показало, що ця особистість відповідає за 66,7% усіх згадок «гоблінів» у ChatGPT.

Такий ефект може проникати у ширше навчання моделі, якщо його винагороджують в одному випадку та підсилюють в іншому.

Цей крок відбувається на тлі ширшого зсуву галузі у бік того, щоб зробити чат-ботів зі штучним інтелектом більш орієнтованими на особистість та балакучими. Це має підвищити залученість користувачів.

Однак експерти попереджають, що потенціал ШІ-особистостей вигадувати речі — або «галюцинувати», як це називають у галузі, — може посилюватися.

Нещодавнє дослідження Oxford Internet Institute виявило, що точне налаштування моделей для більш теплої та дружньої особистості може призвести до «компромісу точності», коли системи роблять більше помилок або підтверджують хибні переконання користувача.

Експерти також застерігають користувачів від сприйняття часто буденних тверджень чат-ботів за чисту монету, особливо коли йдеться про здоров’я та медичні поради.

Але, як і примха OpenAI з гоблінами, генеративні помилки ШІ іноді можуть бути більш дивними та нешкідливими.

У травні 2024 року чат-бот Google зі штучним інтелектом був широко висміяний за те, що радив користувачам їсти каміння та «клеїти піцу».