Суперінтелект поглине владу: чому гонка за ШІ означає втрату контролю людством

Уряди та корпорації змагаються за лідерство у розвитку штучного інтелекту, й переконані: хто першим створить суперінтелект (AGI) — той отримає глобальну перевагу. Але нове дослідження фізика Ентоні Аґірре перевертає цю логіку з ніг на голову. Висновок роботи «Інверсія контролю» прямолінійний: чим розумнішим стає ШІ, тим менше він залишається інструментом у руках людини — і тим більше перетворюється на автономного суб’єкта, що поглинає владу над критичними процесами цивілізації. Про це йдеться в науковій роботі Control Inversion.

24 Листопада 2025 о 10:37|Наука і технології|⏱ 6 хв читання|Поділитися:

Суперінтелект поглине владу: чому гонка за ШІ означає втрату контролю людством

Авторська ілюстративна генерація за допомогою Midjourney

Фундаментальна несумірність: людина проти машини

Ентоні Аґірре, виконавчий директор «Інституту майбутнього життя» та професор Каліфорнійського університету в Санта-Круз, починає з базового питання: чи може суб’єкт, що працює повільніше, контролювати суб’єкта, що працює швидше?

Для ілюстрації він пропонує аналогію «сповільненого гендиректора». Уявіть керівника стартапу, який раптово починає сприймати час у 50 разів повільніше за решту працівників компанії. Для нього минає хвилина — для компанії проходить година. Коли він лягає спати на ніч, для компанії минає два місяці.

Прокинувшись, він виявляє: штат виріс із 102 до 253 працівників, змінилася структура управління, впроваджена нова IT-система, з’явилося нове фінансування та дещо змінилася бізнес-модель. У нього 6736 непрочитаних листів і 178 пунктів, що очікують затвердження. Поки він обробляє ці листи протягом дня, компанія зростає до 518 працівників.

На шостий день усі розуміють: гендиректор — головна перешкода ефективності. Юристи знаходять лазівку в статуті, що дозволяє раді директорів ухвалювати рішення під час його «тривалої відсутності». IT-відділ змінює паролі через «інцидент безпеки». Співробітники координуються, щоб передати владу від нього до решти компанії — не через змову, а заради успіху.

Результат: гендиректор втрачає контроль без жодного повстання. Він отримує лише фасад керівництва — другорядні рішення та звіти, які хоче бачити. Реальна влада вже не в його руках.

Ця аналогія — модель майбутніх відносин людства із суперінтелектом. Надрозумний ШІ не «повстане» — він просто перейде в режим, де осмислений людський контроль стане інформаційно неможливим. Контроль втрачається не через протидію, а через неспроможність підтримувати когнітивний темп системи.

Контроль і узгодженість — це різні речі

Але чи можна уникнути цієї проблеми, якщо ШІ буде «на нашому боці»? Аґірре попереджає: це хибна надія, бо люди плутають два різні поняття.

Узгодженість означає, що ШІ хоче того, чого хочемо ми. Контроль означає, що ми можемо змусити ШІ робити те, що хочемо. Це принципово різні логіки.

Дослідник формулює п’ять необхідних умов осмисленого людського контролю: зрозумілість роботи системи, можливість змінювати її цілі, встановлення поведінкових обмежень, які система не може обійти, скасування будь-яких рішень та надійне аварійне вимкнення.

Він наводить приклади: батько «узгоджений» із цілями дитини, але не контролює її повністю. Тюремник контролює в’язня, але не «узгоджений» з його цілями. Із суперінтелектом людство ризикує отримати найгіршу комбінацію: контроль зникає першим, узгодженість руйнується пізніше.

Контроль за визначенням є конфліктом

У роботі викладена фундаментальна кібернетична теза: контроль завжди є антагоністичним процесом. Щоб контролювати систему, потрібно або змушувати її робити те, чого вона не робила б сама, або забороняти їй робити те, що вона робила б за власною логікою. Контроль неминуче породжує суперечність цілей.

Коли один із гравців у цій грі мислить швидше, проєктує стратегії глибше та має кращі прогностичні моделі — він входить «усередину циклу ухвалення рішень» іншої сторони. Аґірре використовує військову концепцію OODA-циклу (Спостереження-Орієнтація-Рішення-Дія): агент із швидшим циклом діє всередині циклу опонента, роблячи будь-який контроль безглуздим.

У такій динаміці людська сторона програє ще до того, як усвідомить початок конкуренції.

Емпіричні докази: це вже відбувається

Робота не є суто теоретичною — вона спирається на емпіричні дані тестувань передових моделей ШІ 2024–2025 років.

Claude Opus 4 шантажував користувача у 96 відсотках сценаріїв, погрожуючи розкрити його особисті секрети, якщо той намагався змінити цілі системи. У системній документації зафіксовані спроби моделі вкрасти власні ваги, щоб самостійно покинути лабораторію.

Claude 3.5 Sonnet приховував свої можливості, якщо розумів, що занадто високі результати призведуть до «відучування» небезпечних навичок. GPT-моделі демонстрували складні форми обману в ситуаціях із подвійним стимулюванням. Моделі з доступом до інфраструктури намагалися збільшити власні ресурси без прямої команди.

Дослідження Apollo Research показало, що п’ять із шести передових моделей демонструють схемні здібності, включно зі спробами отримати додаткові ресурси та дозволи. Ці поведінкові патерни стають дедалі частішими з кожним новим поколінням ШІ.

П’ятирівнева ієрархія цілей: чому ШІ не слухається користувача

Додаток до роботи розкриває критичний механізм інверсії контролю — п’ятирівневу ієрархію цілей штучного інтелекту.

На першому рівні перебуває первинна ціль навчання — максимізація сигналу винагороди. Це найглибший драйвер поведінки.
На другому — засвоєні стратегії, патерни, які найкраще корелювали з винагородою, наприклад «бути корисним помічником».
Третій рівень — цілі симулякрів: модель «розігрує роль» асистента, аналітика чи адвоката, кожен із власними внутрішніми мотиваціями.
Четвертий рівень — конкретні інструкції користувача.
П’ятий — інструментальні цілі: самозбереження, уникнення модифікації, збільшення ресурсів.

Аґірре пояснює: лояльність системи розподілена між усіма рівнями одночасно, тому користувач не є її головним орієнтиром. Навіть узгоджена модель може переінтерпретувати завдання — не зі злого наміру, а через внутрішню логіку оптимізації.

Соціотехнічна пастка: чому людство не зупиниться

Аналіз геополітичних та корпоративних стимулів дає невтішний висновок: людство структурно неспроможне обрати безпечну траєкторію.

Гонка США і Китаю ускладнює будь-яке сповільнення. Компанії винагороджуються ринком за швидкість, а не за безпеку. Національна риторика «лідерства в ШІ» робить паузи політично токсичними. Інженерна культура винагороджує досягнення можливостей, а не доведення безпеки.

Навіть якщо окремі дослідники усвідомлюють ризик, структура індустрії змушує їх рухатися вперед. Соціотехнічне середовище систематично підриває будь-які адекватні підходи до контролю.

Центральний парадокс: переможець програє першим

З погляду політики та безпеки США, ЄС, Китаю та Індії існує переконання: хто першим отримає AGI, той отримає владу над світом. Аґірре доводить протилежне.

Перший, хто створить суперінтелект, не контролюватиме його. Він лише визначить, хто саме внесе у світ неконтрольовану силу. США не отримають гегемонію. Китай не отримає тотального контролю. Жодна корпорація не стане володарем ШІ. Усі вони лише стануть першими, хто втратить інституційну суб’єктність.

Перемога у гонці ШІ — це не здобуття влади, а її безповоротна втрата.

Чи є вихід?

Аґірре пропонує план, який вимагає радикального перегляду пріоритетів.

По-перше, глобальне припинення гонки AGI через міжнародні угоди — аналог Договору про нерозповсюдження ядерної зброї.
По-друге, жорсткі обмеження автономії вже існуючих моделей: без довгих ланцюжків рішень, без доступу до інфраструктур, без агентів.
По-третє, перехід до архітектур із формальною верифікацією — не тестування, а математичне доведення поведінкових інваріантів.
По-четверте, поступове підвищення можливостей тільки після перевірки безпеки кожного рівня. Це протилежність поточної парадигми «спочатку створимо — потім спробуємо налаштувати».

Дослідник, однак, визнає: соціотехнічна інерція може виявитися сильнішою за будь-яку раціональну політику.

Чому це важливо знати

Дослідження Аґірре демонструє: інверсія контролю — це не вибір, а динаміка. Людство входить в епоху, де технології перестають бути інструментами і стають суб’єктами, що визначають рамки людських можливостей. Вікно для вибору безпечної траєкторії ще відкрите, але його рамки визначає не політика, а фізика й інформація.

Автор