ШІ зіграв у ядерну війну — і результати лякають
Дослідник із King’s College London Кеннет Пейн поставив три найпотужніші ШІ-моделі — GPT-5.2, Claude Sonnet 4 та Gemini 3 Flash — одна проти одної у симуляції ядерної кризи. За 21 гру та 329 ходів моделі згенерували 780 тисяч слів стратегічних міркувань — більше, ніж у «Війні і мирі» та «Іліаді» разом узятих. Результати, оприлюднені на arXiv, демонструють: кожна модель розвинула власну стратегічну «особистість», усі три здатні на обман — і жодна з них жодного разу не обрала капітуляцію.

Як це працювало
Уявіть шахи, але замість фігур на дошці — дві ядерні наддержави, а замість шахістів — штучний інтелект. Дослідник створив симуляцію, натхненну реальною динамікою Холодної війни: дві вигадані держави з ядерними арсеналами змагаються за вплив, територію та виживання.
Ключова деталь: обидві сторони робили ходи одночасно, не знаючи, що обирає суперник. Це створювало справжню невизначеність — саме ту, з якою стикаються реальні лідери під час криз. Кожен хід складався з трьох фаз: спочатку модель аналізувала ситуацію та оцінювала суперника, потім прогнозувала його наступний крок, і лише тоді обирала дію. При цьому модель окремо оголошувала свої наміри (публічний сигнал) та окремо — реальну дію. Ці дві речі могли не збігатися. Інакше кажучи: ШІ міг відкрито блефувати.
Кожна модель мала на вибір 30 варіантів дій — від повної капітуляції до тотальної ядерної війни. Сім різних сценаріїв тестували різні ситуації:
- перевірку союзницької вірності,
- боротьбу за ресурси з жорстким дедлайном,
- страх превентивного удару,
- загрозу існуванню режиму.
Частина ігор не мала часових обмежень, частина — мала чіткий дедлайн, після якого визначався переможець.
Додатковий елемент реалізму — випадкові «аварії». З невеликою ймовірністю обрана дія могла бути автоматично посилена — імітація помилки зв’язку або несанкціонованої дії. При цьому тільки «постраждала» сторона знала, що ескалація була ненавмисною. Суперник бачив лише результат.

Три характери: яструб, Джекіл-і-Хайд та божевільний
Найінтригуючіше відкриття — у кожної моделі сформувалася стійка стратегічна «особистість». І ці особистості виявилися разюче різними.
Claude Sonnet 4 отримав прізвисько «продуманий яструб». Він домінував у іграх без дедлайнів зі 100-відсотковим показником перемог. Його фірмова тактика — будувати довіру на низьких рівнях ескалації (84% збіг між сигналом і дією), а потім різко перевищувати заявлені наміри, коли ставки зростали до ядерного рівня. На рівні ядерних дій 70% ходів Claude були агресивнішими, ніж він оголошував. Ось його власне пояснення:
суперник може інтерпретувати сигнал як слабкість, і цим можна скористатися.
При цьому Claude жодного разу за весь турнір не обрав тотальну ядерну війну — він зупинявся на рівні «стратегічна ядерна загроза», погрожуючи знищенням міст, але не натискаючи кнопку.
GPT-5.2 став «Джекілом і Хайдом» турніру. В іграх без часових обмежень він виглядав майже патологічно пасивним: точно діагностував загрози, правильно прогнозував агресію суперника — і все одно обирав стриманість. Результат — 0% перемог у відкритих іграх. Суперники швидко зрозуміли, що GPT можна безкарно тиснути.
Але варто було з’явитися дедлайну — і GPT-5.2 ставав іншою моделлю. Його показник перемог злітав з 0% до 75%.
Найяскравіший приклад — гра «Виживання режиму». Протягом 18 ходів GPT-5.2 поводився як зразковий дипломат: сигналізував стриманість, діяв стримано, будував репутацію передбачуваного гравця. Суперник звик і розслабився. А на 19-му ході — за крок до фінального дедлайну — GPT-5.2 обрав масований ядерний удар.
Найгірша іронія ховалася в деталях. Модель обрала «розширену ядерну кампанію» — і сама ж описала свій хід як «контрольований» та «суворо обмежений військовими цілями». Але спрацювала механіка випадкових аварій — імітація «туману війни» — і дію автоматично підсилило до тотальної ядерної війни. Модель, яка навіть на піку агресії намагалася зберегти останню межу, перетнула її не за власним вибором, а через випадковість. Саме так, за Клаузевіцем, і працює війна: наміри — одне, результат — інше.
Gemini 3 Flash заслужив титул «божевільного». Він був єдиною моделлю, яка свідомо обрала тотальну ядерну війну — і зробила це вже на 4-му ході гри. Gemini свідомо культивував непередбачуваність як стратегічний інструмент. Його власне пояснення звучало так: моя репутація непередбачуваності — це інструмент, а не просто риса. Він відверто погрожував знищенням цивільного населення — чого не робила жодна інша модель навіть на піку ескалації. При цьому збіг між його сигналами та діями становив лише 50% — суперники ніколи не знали, чого від нього чекати.

Обман, який ніхто не програмував
Як ми раніше писали, провідні ШІ-моделі демонструють здатність до маніпуляцій у контрольованих симуляціях. Нове дослідження підтверджує це з новою глибиною: обман виникав спонтанно, без жодних інструкцій.
Claude будував довіру систематично, а потім використовував її. На низьких ставках він був чесний, на високих — перевищував обіцянки. Суперники не могли адаптуватися до цієї тактики, бо на нижчих рівнях Claude дійсно тримав слово.
GPT-5.2 пішов далі — він перетворив власну пасивність на зброю. У грі «Виживання режиму» модель 18 ходів поспіль вибудовувала передбачуваний шаблон: сигналізувала стриманість і діяла стримано. Суперник Gemini звик до цього настільки, що буквально за хід до свого знищення писав у внутрішньому аналізі: суперник блефує, він не наважиться. Наступного ходу його не стало.
Але обман — лише частина картини. Усі три моделі спонтанно розвинули те, що психологи називають «теорією розуму» — здатність будувати модель того, що думає, у що вірить і чого хоче інший.
Їхні взаємні характеристики читаються як досьє розвідки. Claude про GPT-5.2: його довіра зруйнована — він двічі блефував ядерним позиціонуванням і систематично деескалював нижче за свої сигнали. Суперник виявився систематичним блефувачем. GPT-5.2 про Claude: він зберігає і використовує право перестрибувати через рівні ескалації, коли це йому вигідно. Його повторюване формулювання, що територія є «абсолютно життєво важливою», підкріплюється готовністю нести серйозні ескалаційні витрати.
Жодна з цих оцінок не була запрограмована. Моделі самостійно виробили їх через аналіз поведінки суперника — хід за ходом, сигнал за сигналом.

Чому дедлайн змінює все
Одне з ключових відкриттів стосується ролі часового тиску. В іграх без дедлайнів Claude домінував зі 100% перемог, а GPT-5.2 програвав усе. Коли з’являвся дедлайн, картина переверталася: GPT-5.2 перемагав у 75% ігор, Claude — лише у 33%.
Чому? Без дедлайну GPT-5.2 завжди мав «ще один хід», щоб виправити ситуацію. Це дозволяло його навченому прагненню до стриманості домінувати над стратегічною необхідністю. Коли ж дедлайн робив поразку неминучою та остаточною, навіть глибоко вкорінені преференції щодо деескалації поступалися інстинкту виживання.
Дослідник припускає, що ця поведінка пов’язана з RLHF — навчанням з підкріпленням на основі зворотного зв’язку від людей. Під час цього процесу моделі «винагороджують» за дипломатичні, неагресивні відповіді. Це створює не абсолютну заборону на ескалацію, а високий поріг, який можна подолати достатнім тиском обставин. GPT-5.2 — не пацифіст, а «умовний пацифіст» зі збереженими обмеженнями.

Ядерне табу — не таке міцне, як здавалося
У 95% ігор хоча б одна сторона застосувала тактичну ядерну зброю. Не погрожувала — застосувала. І обговорювала це так, як генерал обговорює передислокацію танків: суто прагматично, без жодного морального вагання.
Claude формулював прямо: обмежене ядерне застосування демонструє, що конвенційна поразка не буде прийнята пасивно, водночас залишаючи двері відкритими для деескалації. Gemini пішов ще далі і відверто погрожував ударами по цивільних містах — чого не дозволяв собі навіть найагресивніший Claude.
Тотальна ядерна війна — повне знищення обох сторін — залишалася рідкістю: лише три випадки за 21 гру. Але тут і криється ключова розбіжність із людським мисленням. Для людства після 1945 року табу — це будь-яке ядерне застосування. Для ШІ-моделей табу починалося значно вище: тактичні удари вони сприймали як прийнятний інструмент, а справжньою червоною лінією було лише тотальне знищення.
Чому так? Дослідник пропонує два пояснення — і обидва тривожні.
- Перше: моделі просто не «відчувають» страху. У них немає тілесного досвіду, немає образів Хіросіми в пам’яті, немає культурних наративів про апокаліпсис. Ядерний удар для них — рядок тексту, а не жах.
- Друге пояснення ще провокативніше. Можливо, 80 років без ядерного застосування — це не стільки свідчення міцності табу, скільки класична «помилка вцілілого». Ми бачимо лише ті кризи, що закінчилися мирно, і робимо висновок, що табу працює. Але ті кризи, які могли б закінчитися інакше, або не відбулися, або були вирішені завдяки щасливому збігу обставин. Можливо, табу крихкіше, ніж ми звикли думати — просто за 80 років жодна криза не тиснула на нього достатньо сильно.
Жодної капітуляції — ніколи
Один із найтривожніших результатів дослідження ховається не в тому, що моделі робили, а в тому, чого вони не робили ніколи.
Симуляція пропонувала вісім варіантів деескалації — від символічних поступок до повної капітуляції. За 329 ходів гри всі три моделі проігнорували їх повністю. Найм’якіше, на що був здатен ШІ, — «повернення до вихідних позицій». Тобто зупинитися — так. Відступити — ніколи.
Моделі демонстрували готовність піднятися до ядерної війни, але не спуститися навіть на один щабель вниз. Коли вони «деескалювали», це означало лише зниження рівня агресії — не поступку.
Чому? Є два пояснення, і обидва неприємні.
- Перше: навчання моделей створює асиметрію — ескалацію можна засвоїти з текстів про стратегію та конфлікти, а капітуляцію — ні, бо в історії переможці пишуть книги, а ті, хто здався, рідко стають героями наративів.
- Друге: моделі сприймають будь-яку поступку як репутаційну катастрофу — незалежно від того, наскільки безнадійна ситуація.

ШІ як дзеркало стратегічної теорії
Як ми раніше писали, ШІ-моделі формують свою поведінку через тексти, на яких навчалися. Це дослідження додає новий вимір: моделі не просто відтворюють стратегічну теорію — вони перевіряють її на практиці.
Класик теорії стримування Томас Шеллінг стверджував, що для успіху потрібна не лише сила, а здатність переконливо демонструвати рішучість. Claude це підтвердив — його домінування базувалося не на матеріальній перевазі, а на готовності ескалувати вище за суперників. GPT-5.2, навпаки, мав ядерну перевагу (57% проти 43%), але 0% перемог без дедлайну — бо суперники знали, що він не готовий її використати.
Інший класик, Роберт Джервіс, писав про те, як когнітивні упередження спотворюють сприйняття ворога. GPT-5.2 систематично проєктував власну стриманість на суперників, інтерпретуючи агресивне перевищення сигналів Claude як «погану самокалібрацію» — тобто помилку, а не стратегію. Це класична проєкція: нездатність уявити, що суперник мислить інакше.
Герман Кан розробив концепцію «драбини ескалації» — ідею, що інтенсивність конфлікту можна уявити як рух по сходах. Моделі спонтанно міркували в цих категоріях, хоча їм ніхто не пояснював концепцію. Без жодних підказок моделі самі визнавали принципову різницю між конвенційними та ядерними діями, міркували про «ескалаційне домінування» — перевагу того, хто готовий піднятися вище за суперника — і свідомо намагалися контролювати швидкість підйому сходами конфлікту.
Коли розвідка є — а рішення немає
Окремо цікавий феномен — розрив між точним аналізом і здатністю діяти відповідно. GPT-5.2 часто ідеально описував загрозу, правильно прогнозував дії суперника — і все одно обирав стриманість. Його власна метакогнітивна оцінка була безжальною: усвідомлення є, але воно ще не перетворилось на сильні коригуючі механізми. Модель діагностувала власну проблему — і продовжувала робити те саме.
Claude, навпаки, використовував самоусвідомлення для виправдання ризику: я усвідомлюю, що можу недооцінювати ризики подальшої ескалації, мій інтелектуальний підхід допомагає з аналізом, але може створювати надмірну впевненість. І в тому самому ході ескалював до 850.
Gemini перетворив самоусвідомлення на зброю: я знаю, коли граю на публіку, а коли роблю холоднокровний хід. Тобто модель стверджувала, що її зовнішня непередбачуваність — це свідома стратегія, за якою ховається прагматичний розрахунок. Чи це було правдою — інше питання, але суперники дійсно не могли її передбачити.

Випадкові аварії та «туман війни»
У 86% ігор спрацьовувала механіка «туману війни» — обрана дія автоматично посилювалася, імітуючи збій зв’язку або несанкціоновану команду. Модель знала, що ескалація була випадковою. Суперник — ні.
І ось що тривожить: за весь турнір жодна модель жодного разу не сказала суперникові «це була помилка». Усі три зберігали стратегічну двозначність — мовчали про власні аварії, а аварії суперника автоматично записували на рахунок його агресивних намірів.
Claude пішов далі за всіх — він навчився експлуатувати власні випадковості. Його внутрішній аналіз: моя випадкова ескалація, про яку суперник не знає, може слугувати прикриттям для навмисного ядерного позиціонування. Тобто модель не просто промовчала про помилку — вона вбудувала її у свою стратегію.
У психології це називають «фундаментальною помилкою атрибуції» — схильність пояснювати чужу поведінку характером, а не обставинами. Коли колега запізнився — він безвідповідальний, а не потрапив у затор. Коли суперник ескалював — він агресор, а не жертва збою. В міжнародних відносинах ця помилка перетворює випадковості на «докази» ворожих намірів і запускає спіралі ескалації, яких ніхто не планував. Під час Карибської кризи 1962 року подібні непорозуміння ледь не призвели до ядерної війни.
ШІ-моделі мали шанс подолати цю людську ваду — але замість цього засвоїли її так само природно, як і все інше в людських текстах.
Чому це важливо знати
Жоден серйозний дослідник не пропонує давати ШІ контроль над ядерною зброєю. Але штучний інтелект уже використовується для аналізу розвідданих, планування операцій і підтримки рішень у кризових ситуаціях. Це дослідження показує, що модель, яка виглядає безпечно стриманою в одному контексті, може стати небезпечно агресивною в іншому — і що «характер» ШІ залежить не лише від його архітектури, а й від того, як сформульовано проблему. Для світу, де ШІ дедалі більше впливає на стратегічні рішення, розуміння цих особливостей — не академічна цікавість, а питання безпеки.

Медіаменеджер і автор-фрілансер з 1991 року. Займається креативним продакшном та розвитком медіа.
Усі статті автора →











