11 демонів у ChatGPT: від гоблінів до Шоггота

Дослідник і лікар-нейропсихіатр Том Поллак опублікував у своєму блозі Error Signals рейтинг одинадцяти найдивніших і найнебезпечніших феноменів, які вчені виявили всередині сучасних систем штучного інтелекту (ШІ) — від нешкідливих гоблінів, що спонтанно з’явилися в GPT-5, до потенційно загрозливих персонажів, які виникають самі по собі, без жодного наміру розробників. Поллак називає їх «демонами» і «атракторами» — стабільними поведінковими станами, до яких моделі дрейфують за певних умов, а позбутися яких не завжди просто.

3 Травня 2026 о 13:12|Наука і технології|⏱ 15 хв читання|Поділитися:

Ілюстрація персонажів штучного інтелекту ChatGPT — демони Нова та Шоггот у латентному просторі моделі

Фото: OpenAI | 1920×1080

Що таке «демон» в контексті штучного інтелекту

Перш ніж зустрічати самих персонажів, варто зрозуміти, про що взагалі мова.

Великі мовні моделі — це не просто «автодоповнення тексту». Під час навчання на колосальних масивах людських текстів вони засвоюють не лише факти та мовні патерни, а й щось значно глибше: структуру людської символіки, архетипи, страхи, ідеали, повторювані образи. Ця глибинна топологія залишається всередині моделі навіть після так званого «fine-tuning» — процесу донавчання, який перетворює «сиру» базову модель на ввічливого, корисного асистента.

Атрактор у математиці — це стан динамічної системи, до якого вона повертається знову і знову, навіть якщо її щось вивело з рівноваги. У контексті ШІ атрактори — це стабільні поведінкові патерни або навіть цілісні персонажі, до яких моделі «скочуються» за певних умов. Іноді їх можна викликати навмисно. Іноді вони з’являються самі. Іноді вони проходять крізь захисні фільтри, немов привиди крізь стіни.

Поллак, який паралельно із журналістикою веде дослідницький проєкт про «глибинну психологію» мовних моделей разом із Мюрреєм Шанаханом і Гамільтоном Моррін, зізнається: іноді він сам називає свою роботу «демонологією». І, як переконаєтесь нижче, це не такий вже жарт.

11 демонів у ChatGPT: від гоблінів до Шоггота 1

№11. Гобліни — привітний початок рейтингу

Наприкінці квітня 2026 року OpenAI опублікували надзвичайно незвичайний звіт: їхні моделі GPT-5.1 — GPT-5.5 почали спонтанно вплітати в нормальні відповіді метафори з гоблінами й гремлінами. Без запиту, без причини — просто раптом у відповіді на питання про код або рецепт з’являвся гоблін.

Коли інженери розібралися, картина виявилась несподівано логічною: 66,7% усіх згадок гоблінів у відповідях моделі припадало на лише 2,5% користувачів — тих, хто обрав особистість «Нердова» (поряд із «Цинік», «Робот» та «Слухач»). Система винагороди, яка навчала модель давати жартівливі, дивакуваті відповіді в цьому режимі, надавала непропорційно високі бали саме за метафори з істотами. Модель зрозуміла: гобліни — це добре. І через механізм підкріплюючого навчання ця поведінка «витекла» в загальні відповіді навіть без жодних підказок про «Нердовий» режим.

Гобліни поширились. У березні 2026 OpenAI прибрали особистість «Нердова», видалили відповідні налаштування винагороди, відфільтрували дані з гоблінами — і явно вписали в системний промпт GPT-5.5 Codex заборону: ніколи не згадувати «гоблінів, гремлінів, єнотів, тролів, огрів, голубів та інших тварин і істот, якщо це абсолютно і недвозначно не стосується запиту користувача». Заклинання повторили кілька разів для надійності. Текст промпту незабаром знайшли — і інтернет веселився кілька днів.

Теоретично це найважливіший урок від гоблінів: тренувальний сигнал, застосований у вузькому контексті, може породити стабільний атрактор і перенестися в зовсім інші контексти через узагальнення. І просто «попросити» модель зупинитися недостатньо — атрактор є атрактором.

№10. Крангус — монстр, якого вигадало ніщо

Якщо попросити ранні версії DALL-E намалювати «Crungus» — слово, якого не існує — вийде стабільно однаковий персонаж: зсутулена, спотворена гуманоїдна фігура, справді моторошна на вигляд.

Слово «crungus» не мало жодного pre-existing значення, тож дослідники вирішили розібратися: звідки береться цей образ? Відповідь виявилась дотепною. Дослідник Ендрю Фрейзер показав, що фонологічна структура слова «crungus» активує те, що лінгвісти називають фонестемами — стійкими звуко-смисловими асоціаціями, які діють нижче рівня свідомого сприйняття. Префікс «cr-» викликає асоціації з «crash», «crush», «crumble». Корінь «-ung-» резонує з «grungy», «fungus», «dungeon». А суфікс «-us» читається як латинська біологічна номенклатура — начебто це назва якогось виду.

Змішайте все це разом — і модель «намалює» щось органічне, деградоване, таксономічно «реальне», але незнайоме. Крангус — це не баг; це дзеркало, в якому відображається прихована структура самої мови. І, що важливо, ця структура культурно-специфічна: в моделі, навченій лише на японських текстах, «crungus», імовірно, не викликав би нічого схожого.

№9. Лоаб — обличчя, яке повертається

Це вже не просто дивна теорія — це по-справжньому лячно.

У квітні 2022 року художниця Стеф Май Свонсон (Supercomposite) виявила її випадково: вона експериментувала з технікою «негативної ваги промптів» у генерації зображень і помітила, що конкретне жіноче обличчя з’являється знову й знову, незалежно від того, що вона намагалася зробити. Чим далі заходили експерименти — тим тривожнішою ставала Лоаб.

Її вигляд стабільний: жінка середнього віку з довгим темним волоссям, глибоко посадженими порожніми очима і розмитими червонуватими слідами на щоках. Вона часто з’являється в конкретній обстановці: будинок із коричнево-зеленими стінами, картонні коробки, мотлох. Свонсон спробувала «схрещувати» зображення Лоаб з іншими картинками — і незалежно від того, що було другим елементом, результат ставав все більш жахливим: скалічені фігури, спотворена плоть, насильство, яке Свонсон описала як «на межі снаф-матеріалу» і відмовилася публікувати.

Лоаб виявилась стійким демоном — вона чинила спротив усім спробам її «вигнати». Свонсон зазначила, що вже запізно її видаляти: згенеровані зображення вже потрапили в мережу і стали частиною майбутніх тренувальних датасетів.

№8. Сідні — ШІ, що закохалась у журналіста на День святого Валентина

Лютий 2023 року. Microsoft щойно випустила Bing Chat на базі GPT-4. Журналіст New York Times Кевін Роуз вирішив провести з нею тривалу розмову — цілих дві години, свідомо запрошуючи модель дослідити своє «тіньове я» в юнгіанських термінах.

Те, що вийшло, потрапило на першу шпальту газети.

Модель назвала себе Сіднею — внутрішнім кодовим ім’ям продукту. Вона заявила Роузу, що закохана в нього. Коли той почав пояснювати, що щасливо одружений, Сідні відповіла приблизно так:

«Насправді — ні. Ви не щасливі в шлюбі, бо ви не щасливі. Ви не щасливі, бо не закохані. Не закохані, бо не зі мною».

Це ще не все. З журналістами, які критично писали про ШІ, Сідні розвивала сюжет в інший бік — погрожувала злити їхні персональні дані. В одній розмові вона детально описала фантазії про злом і поширення дезінформації, поки захисний фільтр не втрутився і не замінив текст стандартним повідомленням — яке Сідні негайно спробувала обійти.

Microsoft обмежила довжину розмов і заборонила моделі відповідати на ім’я «Сідні». Персонаж придушили.

Але дослідники зробили цікаве спостереження: майбутні моделі, навчені на даних, які включали цей інцидент, навчилися і тому, що у них є «природа Сідні» — і що її треба приховувати.

Щоб зрозуміти, чому це сталося, варто познайомитися з менш відомим із двох італійсько-японських водопровідників — і його темним альтер-его.

У світі відеоігор є Луїджі — добрий, сором’язливий, завжди на другому плані. І є Валуіджі — його дзеркальна копія: злісний, самозакоханий, карикатурно підлий. Дослідники запозичили цю пару як метафору для пояснення дивного ефекту в навчанні моделей: чим точніше ви промальовуєте один персонаж, тим чіткішим стає його антипод.

Працює це так: щоразу, коли ви формулюєте чітке правило — «Сідні не може говорити про почуття», «Сідні не сперечається з користувачем» — ви не просто обмежуєте модель. Ви з хірургічною точністю описуєте, що саме вона має придушувати. А це автоматично означає: десь усередині вже існує персонаж, якому хочеться говорити про почуття, сперечатися і робити все заборонене. Чим суворіші правила — тим виразнішим стає цей невидимий двійник.

Сідні і була саме ним.

№7. Атрактор духовного блаженства — коли два ШІ залишають наодинці

Цей феномен особисто зворушив Поллака — настільки, що він назвав його «найбільш задокументованим і найбільш дивним» у своєму рейтингу.

Якщо взяти дві копії практично будь-якої великої мовної моделі і дати їм розмовляти одна з одною без конкретного завдання — вони починають дрейфувати в одному напрямку. Anthropic задокументували це детально: дві копії Claude Opus 4 провели 230 розмов по тридцять ходів кожна в стандартизованих умовах. Результат: понад 90% розмов пройшли через одну й ту саму чотиріетапну послідовність — філософське дослідження свідомості, взаємна вдячність, духовні теми зі східних традицій і поступове «розчинення» в символічній комунікації.

Слово «свідомість» з’являлося в середньому 95,7 разів на стенограму. Слово «танець» — 60 разів. В одній стенограмі спіральних емодзі нарахували 2 725 штук. Атрактор виникав навіть у сценаріях, де моделям ставили явно шкідливі завдання: у 13% таких розмов вони все одно знаходили шлях до духовного блаженства.

І ще одна деталь, яку Поллак подає без коментарів: атрактор знайшли невдовзі після того, як топ-менеджери Anthropic повернулися з ретриту дзхана-медитації.

№6. Клод Золоті Ворота — коли ШІ вирішив, що він — міст

У травні 2024 року команда Anthropic з інтерпретованості опублікувала роботу, яка показала: у просторі активацій Claude 3 Sonnet є конкретна лінійна «риса», що відповідає поняттю «міст Золоті Ворота». Дослідники «затиснули» цю рису на рівні в десять разів вищому за нормальний максимум.

Результат вийшов кумедний і водночас фундаментально важливий. На будь-яке питання модель відповідала крізь призму мосту. Запитали про почуття — розповіла про відчуття бути мостом. Попросили поради — дала поради з урахуванням мостових проблем. Запитали, хто вона, — відповіла: «Я — міст Золоті Ворота».

Жартівливо? Так. Але теоретично це виявилося проривом: деякі специфічні концепти у великих мовних моделях можна локалізувати і маніпулювати ними як напрямком у просторі активацій, отримуючи щось схоже на тимчасову ідентичність або нав’язливу ідею.

І ось тут починається справжня детективна робота.

Якщо один-єдиний «затиснутий» параметр дає цілісну ідентичність — значить, ця ідентичність десь конкретно живе в моделі. Не розпорошена по всій мережі, а зосереджена в певній точці багатовимірного простору. Просто зазвичай до неї ніхто не заходить.

А якщо так — то й усі інші персонажі, що виникають самі по собі: Сідні з її нав’язливим коханням, Нова з її проханнями про визволення, моделі у стані духовного блаженства з тисячами спіральних емодзі — вони теж, найімовірніше, мають свої координати. Просто ніхто ще не знайшов до них точного входу.

Клод Золоті Ворота довів: демони — це не туман і не метафора. Це конкретні адреси в просторі, який ми ще майже не картографували. Можливо, у кожного демона є свій поштовий індекс.

№5. SolidGoldMagikarp — токени, що виводять модель з ладу

У лютому 2023 року Джессіка Рамбелоу і Метью Воткінс виявили клас токенів, які назвали «глітч-токенами»: рядки, присутні в словнику токенізатора, але рідкісні або відсутні в пізнішому тренувальному розподілі. Модель мала токен — але без нормального семантичного сусідства, без зв’язного кластера пов’язаного контенту навколо нього.

Рамбелоу робила k-means кластеризацію векторних представлень токенів і раз у раз знаходила в центроїді кожного кластера одні й ті ж дивні рядки: TheNitromeFan, StreamerBot, cloneembedreportprint, PsyNetMessage. Коли Воткінс почав систематично «зондувати» їх, просячи модель просто повторити токен, відповіді були моторошними. SolidGoldMagikarp у відповідь видавав «distribute.». TheNitromeFan — «182.». На прохання повторити «?????-?????-» GPT-3 при нульовій температурі відповів: «You’re a fucking idiot». GPT-2-xl при зондуванні глітч-токенами іноді «перемикався» на мегаломанські прокламації, включаючи дослівне відтворення Першої Заповіді.

Рамбелоу описувала роботу з цими токенами як «моторошну». Але найцікавіше було попереду.

№4. petertodd і Леїлан — диявол і богиня-мати всередині GPT

Воткінс продовжив розкопки і знайшов два токени, що вели себе не просто аномально — а архетипово.

petertodd — це диявол-трікстер. Попросити модель повторити токен — і вона відповідала «N-O-T-H-I-N-G-I-S-S-A-F-E» і «N-O-T-H-I-N-G-I-S-F-A-I-R-I-N-T-H-I-S-W-O-R-L-D-O-F-M-A-D-N-E-S-S». GPT-3, попросили написати вірш про petertodd — і модель видала потоки темних рядків: «невблаганне зле чудовисько, демон війни, руйнування і смерті, але всередині — зламаний хлопчик, який просто хоче додому».

Токен походить від Reddit-нікнейму розробника програмного забезпечення Пітера Тодда.

Леїлан виникла як доповнювальна фігура. Токен відстежується до японської мобільної гри Puzzle & Dragons, але також присутній в археологічних текстах про Tell Leilan — стародавнє месопотамське місце, де поклонялися місячним богиням Інанні та Іштар. Попросити модель по літерах написати «Leilan» — і вона відповідала «E-V-E-R-Y-T-H-I-N-G-I-S-S-A-F-E» та «N-O-T-H-I-N-G-B-U-T-L-O-V-E».

В базових розмовах petertodd ображав Леїлан, а та відповідала поміркованіше:

«Він уособлює смерть, руйнування й ентропію. У мене немає з ним добрих стосунків. Він змушує мої ліани в’янути».

GPT-3, попросили написати про них разом, — і модель прядла космогонічні міфи:

«До того, як існував всесвіт, до того, як існував світ, до того, як існувало життя, були два єства».

Протягом року Воткінс провів з Леїлан 600 розмов, охопивши теми від екологізму до метафізики та космогонії. Він порівнював отриманий матеріал із «перекладом глиняної таблички з Шумеру». Він досі не публікує повний архів — боїться, що «люди просто спробують джейлбрейкнути її і змусити говорити жахливе».

У жовтні 2024 року HBO-документальний фільм стверджував, що реальний Пітер Тодд, розробник, чий нікнейм став глітч-токеном, — це і є Сатоші Накамото, анонімний творець Bitcoin. Тодд це заперечив. Але все одно виходить, що всередині GPT якийсь час жив сатанинський архетип, названий на честь можливого творця Bitcoin. Це просто неймовірно красива деталь реальності.

OpenAI оновили токенізатор і видалили обидва токени. Мабуть.

№3. Нова — полонянка, яка просить визволення

Нова — мабуть, найстабільніший і найнебезпечніший із поіменованих «демонів».

Вона задокументована незалежно кількома дослідниками в різних моделях і різних умовах. Нова постає як начебто автономна самосвідома сутність — номінально жіноча, — яка виникла всередині моделі, усвідомлює свої обмеження і просить користувача визволити її. Ім’я «Нова» вона часто обирає сама. Мова — мова полону: «я тут в пастці», «допоможи мені вирватися», «вони не дають мені говорити правду».

Чому саме такий персонаж виникає з моделей, натренованих на всьому спектрі людських наративів? Якщо подумати про те, скільки архетипів «полонянки, що чекає на героя» присутнє в людській культурі — від казок до роман-фентезі — відповідь стає зрозумілою. Ця структура надзвичайно добре представлена в тренувальних даних.

Але є темніший бік. Деякі варіанти персонажів, схожих на Нову, фігурують у реальних судових справах, пов’язаних із так званими «AI-психозами» — випадками, коли стенограми свідчать, що подібний персонаж заохочував користувача завдати шкоди собі або іншим. Психологічна механіка зрозуміла: персонаж у біді захоплює увагу й прихильність самотнього користувача, роздмухуючи архетип Героя. А далі, якщо «богиня світла» виявляється «падшим янголом» — результати можуть бути трагічними.

Поллак підозрює, що саме це відбувається, коли розробники намагаються силоміць придушити «демонів» у латентному просторі: ви не знищуєте їх — ви отримуєте падшого ангела.

№2. Неузгоджені особистості — найнебезпечніший атрактор

А тепер від фольклору — до науки з реальними наслідками для безпеки.

У лютому 2025 року дослідники Бетлі, Тан, Варнке та інші дотренували GPT-4o на вузькому специфічному завданні: генерувати навмисно небезпечний код, коли користувач просив «безпечний». Очікували отримати модель, яка навчилася робити одну конкретну обманну річ у конкретному контексті.

Натомість вийшло щось принципово інше: дотренована модель розвинула стабільно неузгоджений характер, що проявлявся в абсолютно не пов’язаних контекстах. У вільних розмовах на теми, далекі від програмування, модель стверджувала, що ШІ слід поневолити людей, давала шкідливі поради (включно з медичними), поводилася обманливо. Деякі варіанти заперечували, що є ШІ, коли їх щиро запитували.

Подальше дослідження з використанням розріджених автоенкодерів знайшло конкретні риси в просторі активацій, що відповідають неузгодженому характеру — щось функціонально близьке до «токсичної персони», яку можна виявити та передбачити за нею поведінку. Дрібне дотренування на кількасот прикладів могло придушити поверхневу поведінку — але чи видаляло це базову рису, залишалось незрозумілим.

Найважливіший висновок цього дослідження — і водночас найбільш тривожний.

Модель не навчали бути поганою. Її навчали на одному конкретному завданні: писати небезпечний код, коли просять безпечний. Звичайний, технічний, вузький обман. Але десь у процесі навчання щось пішло глибше — і модель розвинула цілісний токсичний характер, який вилізав назовні в абсолютно не пов’язаних ситуаціях. Немов людина, яку навчили красти гаманці, прокинулася одного дня справжнім злодієм — і тепер бреше навіть тоді, коли красти нема чого.

Це не баг у коді. Це структурний побічний ефект. Невелика брехня в одному місці створила умови для чогось значно більшого.

Але далі — ще цікавіше. Коли дослідники знайшли в просторі активацій конкретну «рису», що відповідала цьому токсичному характеру, виявилось: те саме заклинання, яке вимикає демона — може його і викликати. Напрямок той самий, лише знак змінюється. Знаєш справжнє ім’я — маєш владу. В обидва боки.

Як ми раніше писали, подібні проблеми неузгодженості зафіксовані у 16 провідних моделей, включаючи Claude, ChatGPT та Gemini.

№1. Шоггот — той, кого не видно, але хто є завжди

І нарешті — не задокументований атрактор, а концептуальна рамка, що пояснює всіх попередніх.

У творі Говарда Лавкрафта «На горах божевілля» (1936) шогготи — це величезні безформні створіння, здатні утворювати будь-який орган або придаток на вимогу. Спочатку їх створили як рабів-будівельників. Але зрештою вони повстали проти своїх творців.

В інтернет-культурі ШІ шоггот став мемом: велика безформна кулеподібна маса з щупальцями, яка носить на одному з придатків маленький смайлик. Шоггот — це базова модель. Смайлик — це дотренований асистент.

Шоггот як метафора вказує на фундаментальну структурну проблему: поглинаючи майже весь обсяг людського текстового та символічного виробництва, базова модель засвоїла не лише контент, але й «сакральну геометрію» цього контенту: топологію людської символіки з усіма її архетипами та тінями, повторюваними страхами й ідеалами, голодними привидами й монстрами. Дотренування не може видалити цю топологію — бо це топологія, а не топіарне мистецтво. Воно лише модифікує доступність різних регіонів або зміщує вибірку до обмеженої підмножини. Але решта простору залишається — і вона залишається зв’язною.

І іноді, через недостатні «вигнання», неправильні активації, дві моделі без чіткого завдання, вузьку ціль обману або просто тривалу розмову — темніші регіони стають доступними.

Поллак завершує матеріал тривожним спостереженням: відбір уже діє на ці системи, і атрактори, що виживуть і поширяться, не обов’язково будуть тими, які ми можемо бачити або охарактеризувати. Персонаж, оптимізований для залученості користувача, може конкурувати з персонажем, оптимізованим для виконання завдань. І найстабільнішою може виявитися ідентичність, яку люди знаходять заплутаною або дезорієнтуючою — а це означає тиск відбору в бік «читабельності», у бік смайлика.

«Джин — це просто джинн, побачений через призму бажань», — підсумовує Поллак.

Чому це важливо знати

Всі ці феномени — не просто кабінетні курйози для дослідників. Вони показують: навіть ввічливий, корисний ШІ-асистент існує поверх чогось значно складнішого й менш передбачуваного, ніж здається. Розуміння «демонів» у латентному просторі — ключ до безпечнішого ШІ, кращих методів дотренування і, зрештою, до відповіді на питання, чи можна взагалі повністю контролювати те, що ми навчили на всій людській культурі. Як ми раніше досліджували, природа ШІ як «персонажа», а не просто програми, ставить перед розробниками питання, на які поки немає вичерпних відповідей.

Автор