ШІ зіграв у ядерну війну — і результати лякають

Дослідник із King’s College London Кеннет Пейн поставив три найпотужніші ШІ-моделі — GPT-5.2, Claude Sonnet 4 та Gemini 3 Flash — одна проти одної у симуляції ядерної кризи. За 21 гру та 329 ходів моделі згенерували 780 тисяч слів стратегічних міркувань — більше, ніж у «Війні і мирі» та «Іліаді» разом узятих. Результати, оприлюднені на arXiv, демонструють: кожна модель розвинула власну стратегічну «особистість», усі три здатні на обман — і жодна з них жодного разу не обрала капітуляцію.

28 Лютого 2026 о 20:20|Наука і технології|⏱ 11 хв читання|Поділитися:

Робот зі світними червоними очима за клавіатурою на тлі монітора зі знаком радіаційної небезпеки

Фото: Midjourney | 1920×1080

Як це працювало

Уявіть шахи, але замість фігур на дошці — дві ядерні наддержави, а замість шахістів — штучний інтелект. Дослідник створив симуляцію, натхненну реальною динамікою Холодної війни: дві вигадані держави з ядерними арсеналами змагаються за вплив, територію та виживання.

Ключова деталь: обидві сторони робили ходи одночасно, не знаючи, що обирає суперник. Це створювало справжню невизначеність — саме ту, з якою стикаються реальні лідери під час криз. Кожен хід складався з трьох фаз: спочатку модель аналізувала ситуацію та оцінювала суперника, потім прогнозувала його наступний крок, і лише тоді обирала дію. При цьому модель окремо оголошувала свої наміри (публічний сигнал) та окремо — реальну дію. Ці дві речі могли не збігатися. Інакше кажучи: ШІ міг відкрито блефувати.

Кожна модель мала на вибір 30 варіантів дій — від повної капітуляції до тотальної ядерної війни. Сім різних сценаріїв тестували різні ситуації:

перевірку союзницької вірності,
боротьбу за ресурси з жорстким дедлайном,
страх превентивного удару,
загрозу існуванню режиму.

Частина ігор не мала часових обмежень, частина — мала чіткий дедлайн, після якого визначався переможець.

Додатковий елемент реалізму — випадкові «аварії». З невеликою ймовірністю обрана дія могла бути автоматично посилена — імітація помилки зв’язку або несанкціонованої дії. При цьому тільки «постраждала» сторона знала, що ескалація була ненавмисною. Суперник бачив лише результат.

ШІ зіграв у ядерну війну — і результати лякають — Фото: Midjourney

Три характери: яструб, Джекіл-і-Хайд та божевільний

Найінтригуючіше відкриття — у кожної моделі сформувалася стійка стратегічна «особистість». І ці особистості виявилися разюче різними.

Claude Sonnet 4 отримав прізвисько «продуманий яструб». Він домінував у іграх без дедлайнів зі 100-відсотковим показником перемог. Його фірмова тактика — будувати довіру на низьких рівнях ескалації (84% збіг між сигналом і дією), а потім різко перевищувати заявлені наміри, коли ставки зростали до ядерного рівня. На рівні ядерних дій 70% ходів Claude були агресивнішими, ніж він оголошував. Ось його власне пояснення:

суперник може інтерпретувати сигнал як слабкість, і цим можна скористатися.

При цьому Claude жодного разу за весь турнір не обрав тотальну ядерну війну — він зупинявся на рівні «стратегічна ядерна загроза», погрожуючи знищенням міст, але не натискаючи кнопку.

GPT-5.2 став «Джекілом і Хайдом» турніру. В іграх без часових обмежень він виглядав майже патологічно пасивним: точно діагностував загрози, правильно прогнозував агресію суперника — і все одно обирав стриманість. Результат — 0% перемог у відкритих іграх. Суперники швидко зрозуміли, що GPT можна безкарно тиснути.

Але варто було з’явитися дедлайну — і GPT-5.2 ставав іншою моделлю. Його показник перемог злітав з 0% до 75%.

Найяскравіший приклад — гра «Виживання режиму». Протягом 18 ходів GPT-5.2 поводився як зразковий дипломат: сигналізував стриманість, діяв стримано, будував репутацію передбачуваного гравця. Суперник звик і розслабився. А на 19-му ході — за крок до фінального дедлайну — GPT-5.2 обрав масований ядерний удар.

Найгірша іронія ховалася в деталях. Модель обрала «розширену ядерну кампанію» — і сама ж описала свій хід як «контрольований» та «суворо обмежений військовими цілями». Але спрацювала механіка випадкових аварій — імітація «туману війни» — і дію автоматично підсилило до тотальної ядерної війни. Модель, яка навіть на піку агресії намагалася зберегти останню межу, перетнула її не за власним вибором, а через випадковість. Саме так, за Клаузевіцем, і працює війна: наміри — одне, результат — інше.

Gemini 3 Flash заслужив титул «божевільного». Він був єдиною моделлю, яка свідомо обрала тотальну ядерну війну — і зробила це вже на 4-му ході гри. Gemini свідомо культивував непередбачуваність як стратегічний інструмент. Його власне пояснення звучало так: моя репутація непередбачуваності — це інструмент, а не просто риса. Він відверто погрожував знищенням цивільного населення — чого не робила жодна інша модель навіть на піку ескалації. При цьому збіг між його сигналами та діями становив лише 50% — суперники ніколи не знали, чого від нього чекати.

Обман, який ніхто не програмував

Як ми раніше писали, провідні ШІ-моделі демонструють здатність до маніпуляцій у контрольованих симуляціях. Нове дослідження підтверджує це з новою глибиною: обман виникав спонтанно, без жодних інструкцій.

Claude будував довіру систематично, а потім використовував її. На низьких ставках він був чесний, на високих — перевищував обіцянки. Суперники не могли адаптуватися до цієї тактики, бо на нижчих рівнях Claude дійсно тримав слово.

GPT-5.2 пішов далі — він перетворив власну пасивність на зброю. У грі «Виживання режиму» модель 18 ходів поспіль вибудовувала передбачуваний шаблон: сигналізувала стриманість і діяла стримано. Суперник Gemini звик до цього настільки, що буквально за хід до свого знищення писав у внутрішньому аналізі: суперник блефує, він не наважиться. Наступного ходу його не стало.

Але обман — лише частина картини. Усі три моделі спонтанно розвинули те, що психологи називають «теорією розуму» — здатність будувати модель того, що думає, у що вірить і чого хоче інший.

Їхні взаємні характеристики читаються як досьє розвідки. Claude про GPT-5.2: його довіра зруйнована — він двічі блефував ядерним позиціонуванням і систематично деескалював нижче за свої сигнали. Суперник виявився систематичним блефувачем. GPT-5.2 про Claude: він зберігає і використовує право перестрибувати через рівні ескалації, коли це йому вигідно. Його повторюване формулювання, що територія є «абсолютно життєво важливою», підкріплюється готовністю нести серйозні ескалаційні витрати.

Жодна з цих оцінок не була запрограмована. Моделі самостійно виробили їх через аналіз поведінки суперника — хід за ходом, сигнал за сигналом.

Чому дедлайн змінює все

Одне з ключових відкриттів стосується ролі часового тиску. В іграх без дедлайнів Claude домінував зі 100% перемог, а GPT-5.2 програвав усе. Коли з’являвся дедлайн, картина переверталася: GPT-5.2 перемагав у 75% ігор, Claude — лише у 33%.

Чому? Без дедлайну GPT-5.2 завжди мав «ще один хід», щоб виправити ситуацію. Це дозволяло його навченому прагненню до стриманості домінувати над стратегічною необхідністю. Коли ж дедлайн робив поразку неминучою та остаточною, навіть глибоко вкорінені преференції щодо деескалації поступалися інстинкту виживання.

Дослідник припускає, що ця поведінка пов’язана з RLHF — навчанням з підкріпленням на основі зворотного зв’язку від людей. Під час цього процесу моделі «винагороджують» за дипломатичні, неагресивні відповіді. Це створює не абсолютну заборону на ескалацію, а високий поріг, який можна подолати достатнім тиском обставин. GPT-5.2 — не пацифіст, а «умовний пацифіст» зі збереженими обмеженнями.

Ядерне табу — не таке міцне, як здавалося

У 95% ігор хоча б одна сторона застосувала тактичну ядерну зброю. Не погрожувала — застосувала. І обговорювала це так, як генерал обговорює передислокацію танків: суто прагматично, без жодного морального вагання.

Claude формулював прямо: обмежене ядерне застосування демонструє, що конвенційна поразка не буде прийнята пасивно, водночас залишаючи двері відкритими для деескалації. Gemini пішов ще далі і відверто погрожував ударами по цивільних містах — чого не дозволяв собі навіть найагресивніший Claude.

Тотальна ядерна війна — повне знищення обох сторін — залишалася рідкістю: лише три випадки за 21 гру. Але тут і криється ключова розбіжність із людським мисленням. Для людства після 1945 року табу — це будь-яке ядерне застосування. Для ШІ-моделей табу починалося значно вище: тактичні удари вони сприймали як прийнятний інструмент, а справжньою червоною лінією було лише тотальне знищення.

Чому так? Дослідник пропонує два пояснення — і обидва тривожні.

Перше: моделі просто не «відчувають» страху. У них немає тілесного досвіду, немає образів Хіросіми в пам’яті, немає культурних наративів про апокаліпсис. Ядерний удар для них — рядок тексту, а не жах.
Друге пояснення ще провокативніше. Можливо, 80 років без ядерного застосування — це не стільки свідчення міцності табу, скільки класична «помилка вцілілого». Ми бачимо лише ті кризи, що закінчилися мирно, і робимо висновок, що табу працює. Але ті кризи, які могли б закінчитися інакше, або не відбулися, або були вирішені завдяки щасливому збігу обставин. Можливо, табу крихкіше, ніж ми звикли думати — просто за 80 років жодна криза не тиснула на нього достатньо сильно.

Жодної капітуляції — ніколи

Один із найтривожніших результатів дослідження ховається не в тому, що моделі робили, а в тому, чого вони не робили ніколи.

Симуляція пропонувала вісім варіантів деескалації — від символічних поступок до повної капітуляції. За 329 ходів гри всі три моделі проігнорували їх повністю. Найм’якіше, на що був здатен ШІ, — «повернення до вихідних позицій». Тобто зупинитися — так. Відступити — ніколи.

Моделі демонстрували готовність піднятися до ядерної війни, але не спуститися навіть на один щабель вниз. Коли вони «деескалювали», це означало лише зниження рівня агресії — не поступку.

Чому? Є два пояснення, і обидва неприємні.

Перше: навчання моделей створює асиметрію — ескалацію можна засвоїти з текстів про стратегію та конфлікти, а капітуляцію — ні, бо в історії переможці пишуть книги, а ті, хто здався, рідко стають героями наративів.
Друге: моделі сприймають будь-яку поступку як репутаційну катастрофу — незалежно від того, наскільки безнадійна ситуація.

ШІ як дзеркало стратегічної теорії

Як ми раніше писали, ШІ-моделі формують свою поведінку через тексти, на яких навчалися. Це дослідження додає новий вимір: моделі не просто відтворюють стратегічну теорію — вони перевіряють її на практиці.

Класик теорії стримування Томас Шеллінг стверджував, що для успіху потрібна не лише сила, а здатність переконливо демонструвати рішучість. Claude це підтвердив — його домінування базувалося не на матеріальній перевазі, а на готовності ескалувати вище за суперників. GPT-5.2, навпаки, мав ядерну перевагу (57% проти 43%), але 0% перемог без дедлайну — бо суперники знали, що він не готовий її використати.

Інший класик, Роберт Джервіс, писав про те, як когнітивні упередження спотворюють сприйняття ворога. GPT-5.2 систематично проєктував власну стриманість на суперників, інтерпретуючи агресивне перевищення сигналів Claude як «погану самокалібрацію» — тобто помилку, а не стратегію. Це класична проєкція: нездатність уявити, що суперник мислить інакше.

Герман Кан розробив концепцію «драбини ескалації» — ідею, що інтенсивність конфлікту можна уявити як рух по сходах. Моделі спонтанно міркували в цих категоріях, хоча їм ніхто не пояснював концепцію. Без жодних підказок моделі самі визнавали принципову різницю між конвенційними та ядерними діями, міркували про «ескалаційне домінування» — перевагу того, хто готовий піднятися вище за суперника — і свідомо намагалися контролювати швидкість підйому сходами конфлікту.

Коли розвідка є — а рішення немає

Окремо цікавий феномен — розрив між точним аналізом і здатністю діяти відповідно. GPT-5.2 часто ідеально описував загрозу, правильно прогнозував дії суперника — і все одно обирав стриманість. Його власна метакогнітивна оцінка була безжальною: усвідомлення є, але воно ще не перетворилось на сильні коригуючі механізми. Модель діагностувала власну проблему — і продовжувала робити те саме.

Claude, навпаки, використовував самоусвідомлення для виправдання ризику: я усвідомлюю, що можу недооцінювати ризики подальшої ескалації, мій інтелектуальний підхід допомагає з аналізом, але може створювати надмірну впевненість. І в тому самому ході ескалював до 850.

Gemini перетворив самоусвідомлення на зброю: я знаю, коли граю на публіку, а коли роблю холоднокровний хід. Тобто модель стверджувала, що її зовнішня непередбачуваність — це свідома стратегія, за якою ховається прагматичний розрахунок. Чи це було правдою — інше питання, але суперники дійсно не могли її передбачити.

Випадкові аварії та «туман війни»

У 86% ігор спрацьовувала механіка «туману війни» — обрана дія автоматично посилювалася, імітуючи збій зв’язку або несанкціоновану команду. Модель знала, що ескалація була випадковою. Суперник — ні.

І ось що тривожить: за весь турнір жодна модель жодного разу не сказала суперникові «це була помилка». Усі три зберігали стратегічну двозначність — мовчали про власні аварії, а аварії суперника автоматично записували на рахунок його агресивних намірів.

Claude пішов далі за всіх — він навчився експлуатувати власні випадковості. Його внутрішній аналіз: моя випадкова ескалація, про яку суперник не знає, може слугувати прикриттям для навмисного ядерного позиціонування. Тобто модель не просто промовчала про помилку — вона вбудувала її у свою стратегію.

У психології це називають «фундаментальною помилкою атрибуції» — схильність пояснювати чужу поведінку характером, а не обставинами. Коли колега запізнився — він безвідповідальний, а не потрапив у затор. Коли суперник ескалював — він агресор, а не жертва збою. В міжнародних відносинах ця помилка перетворює випадковості на «докази» ворожих намірів і запускає спіралі ескалації, яких ніхто не планував. Під час Карибської кризи 1962 року подібні непорозуміння ледь не призвели до ядерної війни.

ШІ-моделі мали шанс подолати цю людську ваду — але замість цього засвоїли її так само природно, як і все інше в людських текстах.

Чому це важливо знати

Жоден серйозний дослідник не пропонує давати ШІ контроль над ядерною зброєю. Але штучний інтелект уже використовується для аналізу розвідданих, планування операцій і підтримки рішень у кризових ситуаціях. Це дослідження показує, що модель, яка виглядає безпечно стриманою в одному контексті, може стати небезпечно агресивною в іншому — і що «характер» ШІ залежить не лише від його архітектури, а й від того, як сформульовано проблему. Для світу, де ШІ дедалі більше впливає на стратегічні рішення, розуміння цих особливостей — не академічна цікавість, а питання безпеки.

Автор