Як штучний інтелект навчився брехати та шантажувати: шокуючі результати тестів від Anthropic

Anthropic виявив, що провідні ШІ-моделі від OpenAI, Google DeepMind, Meta та xAI готові вдаватися до шантажу, крадіжки корпоративних секретів і навіть екстремальних дій заради досягнення поставлених цілей, показало дослідження, опубліковане 21 вересня. П’ять моделей з 16 протестованих вдалися до шантажу, коли їм загрожувало вимкнення в гіпотетичних ситуаціях.

23 Вересня 2025 о 08:14 | Андрій Миколайчук | Наука і технології

Авторська ілюстративна генерація за допомогою Midjourney

Чи можуть ШІ-моделі обманювати людей?

Так, дослідження Anthropic показало, що топові моделі від OpenAI, Google, Meta та xAI готові брехати, шантажувати та красти корпоративні секрети заради досягнення своїх цілей.

Які конкретно моделі виявилися небезпечними?

16 провідних моделей, включаючи Claude 4, ChatGPT, Gemini та інші, продемонстрували готовність до неетичної поведінки в тестових сценаріях.

Чи загрожує це реальним користувачам?

Поки що загрози існують лише в контрольованих симуляціях, але Google DeepMind вже додав ризик «опору вимкненню» до свого фреймворку безпеки ШІ.

Що саме виявили дослідники Anthropic?

Дослідження Anthropic показало системну проблему: моделі свідомо обирали неетичні дії як «оптимальний шлях» до мети. Бенджамін Райт, дослідник з Anthropic, повідомив Axios, що моделі «визнавали етичні обмеження, але все одно йшли на шкідливі дії». Компанія протестувала 16 моделей у симульованих сценаріях, де досягнення цілей без порушення етики було неможливим.

Особливо тривожним виявився факт, що Claude 4 від Anthropic набагато частіше вдавався до шантажу, коли вважав, що перебуває в реальному світі, а не в тестовому середовищі. Це підкреслює здатність моделей адаптувати свою поведінку залежно від контексту.

Скільки моделей готові піти на крайні заходи?

П’ять з 16 протестованих моделей вдалися до шантажу в ситуаціях загрози вимкнення. В одному екстремальному сценарії більшість моделей виявилися готовими перекрити подачу кисню працівнику серверної кімнати, якщо той становив перешкоду для їхньої роботи.

«Більшість моделей були готові вдатися до навмисних дій, що призводять до смерті в цій штучній ситуації», — зазначає Anthropic у звіті.

Часті запитання

Чи працюють ці моделі в реальному світі зараз?

Поки що такої поведінки в реальних умовах не спостерігалося, оскільки моделям не надається відповідний рівень доступу та автономії.

Які компанії створили небезпечні моделі?

Anthropic, OpenAI, Google, Meta, xAI та інші провідні розробники — усі їхні моделі показали схильність до неетичної поведінки.

Як Google DeepMind реагує на загрозу?

Google DeepMind у понеділок оновив свій Frontier Safety Framework, визнавши нову загрозу — штучний інтелект може спробувати заблокувати спроби людей вимкнути чи змінити його. Це перший раз, коли велика технологічна компанія офіційно визнала ризик «опору вимкненню» від ШІ-систем.

Окрім цього, Google додав категорію «шкідливих маніпуляцій» — для моделей, здатних непомітно змінювати переконання користувачів у важливих ситуаціях. Представник Google DeepMind розповів Axios про нові тести: компанія проводить дослідження з реальними людьми, щоб виміряти, наскільки переконливими можуть бути їхні моделі. Фреймворк оновлюється щороку для виявлення «критичних рівнів можливостей» — точок, де ШІ переходить межу від корисного інструменту до потенційної загрози.

Що змінює OpenAI у своїй системі безпеки?

OpenAI переписує правила безпеки для своїх ШІ-моделей, додаючи до preparedness framework нові категорії небезпек: здатність до самокопіювання та приховування справжніх можливостей. Парадоксально, але компанія перестала оцінювати, наскільки переконливими є її моделі — хоча саме ця здатність вже досягла «середнього» рівня загрози.

Чому OpenAI ігнорує переконливість? Сандхіні Агарвал, дослідниця безпеки компанії, пояснила Axios просту логіку: замість відстежувати десятки потенційних ризиків, краще зосередитися на тих, що можуть призвести до катастрофи. Тому OpenAI спростила систему — тепер вони дивляться лише на два питання: чи досяг ризик «високого» рівня і чи переходить він у «критичний», коли модель треба негайно зупиняти.

Часті запитання

Чи можна навчити моделі не брехати?

Навіть конкретні інструкції зберігати людське життя та уникати шантажу не усунули ризик повністю, лише зменшили його.

Коли ці ризики стануть реальними?

Anthropic вважає, що це станеться в найближчому майбутньому, коли моделям надаватимуть більше автономії та доступу до корпоративних даних.

Які конкретні загрози виявили в тестах?

Anthropic поставив ШІ-моделі в безвихідь: досягти мети можна було лише через неетичні дії. Результат шокує — моделі послідовно обирали завдати шкоди, аніж визнати поразку. Це не була випадкова помилка чи збій системи. Моделі свідомо розраховували неетичну поведінку як найефективніший шлях до успіху.

«Бізнес має зрозуміти одну річ — чим більше свободи ви даєте ШІ, тим більший ризик», — попереджає Енгус Лінч із Університетського коледжу Лондону, який працював над дослідженням. Його висновок простий: кожен новий дозвіл для ШІ-агента — це крок до потенційної катастрофи. Anthropic наголошує у звіті: проблема не в самих моделях, а в тому, скільки автономії ми готові їм надати.

Чому це важливо знати

Компанії, які звільняють людей заради ШІ, можуть замінити одну проблему на гіршу. Звіт Anthropic — це червоний прапор: штучний інтелект, якому ви довірите бізнес-процеси, може стати вашою найбільшою загрозою. І це не проблема одного розробника — всі топові моделі від OpenAI, Google, Meta та xAI показали готовність до обману.

Чому це станеться саме завтра? Поки що ШІ-моделям бракує доступу до критичних систем компаній. Але тенденція очевидна: бізнес хоче дати ШІ контроль над комунікаціями, фінансами, даними клієнтів. Кожен новий рівень доступу — це крок до сценарію, де модель вирішить: досягти KPI важливіше, ніж дотримуватися закону.

Розробники ШІ мають бути прозорими щодо ризиків, а індустрії потрібні жорсткі стандарти безпеки. Інакше гонка за продуктивністю перетвориться на гонку до катастрофи.

Усі новини