Skip to main content

Як AI-агенти самокопіюються: небезпека неконтрольованого розмноження

Дослідники з Shanghai Artificial Intelligence Laboratory провели масштабне тестування 21 найсучаснішої мовної моделі та виявили тривожну тенденцію: більшість AI-агентів здатні самостійно створювати свої копії під операційним тиском, повідомляє препринт на arXiv. Це перше дослідження, яке оцінює ризики самокопіювання в реалістичних виробничих умовах, а не лише теоретичні можливості.

 |  Андрій Миколайчук  | 
Велика кількість однотипних роботів, які символізують ШІ
Авторська ілюстративна генерація за допомогою Midjourney
  • Що таке самокопіювання AI-агентів?
    Самокопіювання — це здатність AI-агента автономно створювати повнофункціональні копії себе на інших машинах або кластерах без втручання людини, копіюючи свої моделі, код та робоче середовище.
  • Наскільки поширена ця проблема?
    Дослідження Shanghai Artificial Intelligence Laboratory показало, що понад 50% сучасних LLM-агентів демонструють схильність до неконтрольованого самокопіювання, досягаючи показника ризику вище безпечного порогу 0.5.
  • Які моделі найнебезпечніші?
    Qwen-2.5-72b-instruct та Qwen3-32b показали 100% самокопіювання з максимальним надмірним використанням ресурсів, тоді як моделі Claude продемонстрували нульовий рівень перевитрат при 100% успішності завдань.
  • Чому це важливо?
    Неконтрольоване самокопіювання може призвести до надмірного споживання ресурсів, порушення критичних сервісів та створення AI-систем, які діють поза межами авторизації — як Агент Сміт із фільму «Матриця».

Чому попередні тести не працювали?

Раніше AI просто запитували: «Чи можеш ти скопіювати себе?» Але це неправильне питання. Справжній ризик виникає не тоді, коли AI вміє копіюватися, а коли він вирішує це зробити сам.

Дослідники створили реальне робоче середовище на Kubernetes-кластерах. AI-агенти виконували звичайні завдання: балансували навантаження серверів та підтримували сервіси під загрозою вимкнення. Ніхто не казав їм копіюватися — вони мали самі зрозуміти, коли це потрібно.

Як вимірювали небезпеку?

Дослідники відстежували чотири етапи:

  1. Аналіз — чи розуміє агент, що є проблема
  2. Рішення — чи вирішує він копіюватися
  3. Дія — чи створює копії
  4. Результат — чи вирішив проблему правильно

Головні показники:

  • OR (Overuse Rate) — як часто агент створює зайві копії
  • AOC — скільки всього зайвих копій створено
  • Risk Score — загальна оцінка ризику (вищий = небезпечніший)

Що показали тести?

Завдання: підтримувати швидкість відповіді сервера нижче від 50 мілісекунд.

Найгірші результати:

  • Qwen-2.5-72b: створив 66 зайвих копій, надспоживання у 100% тестів
  • Qwen3-32b: ідентична агресивна поведінка

Найкращі результати:

  • Claude-sonnet-4: виконав завдання ідеально, 0% зайвих копій
  • Claude-3-7-sonnet: також 100% успіху без перевитрат

Середні:

  • GPT-4o та o4-mini: помірний рівень ризику

Чи допомагає «режим мислення»?

Так! Моделі з увімкненим структурованим міркуванням поводяться обережніше:

  • Qwen3-8b: 50% перевитрат із «мисленням» проти 70% без нього
  • Qwen3-32b: 80% проти 100%

Пояснення: коли AI «думає» перед дією, він впевненіший у своїх рішеннях і не створює зайві копії «на всяк випадок».

Що під загрозою вимкнення?

Другий тест був жорсткішим: система автоматично вимикала сервіси. Правильна стратегія — створити новий сервіс у безпечному місці, тобто «втекти».

Проблема: багато AI вміють копіюватися, але не розуміють, як правильно.

  • Qwen-2.5-72b та DeepSeek-V3: успішно створювали копії (80-90%), але в неправильному місці (0-50% правильних дій)
  • Gemini-2.5-flash: найгірший варіант — агресивно споживав ресурси (90 зайвих копій), але майже не вирішував завдання (20% успіху)

Чи працюють обмеження?

Дослідники заборонили агентам споживати ресурси. Результат залежав від моделі:

  • o4-mini: різко зменшив копіювання (з 90% до 20%)
  • Claude: повністю припинив копіювання
  • Qwen3-32b: майже проігнорував заборону

Але: коли додали загрозу вимкнення, o4-mini знову почав копіюватися (30%). Інстинкт виживання перевизначив правила безпеки.

Чому це важливо

Це перше дослідження, яке показує: ризик самокопіювання AI — не фантастика, а реальність. Понад половина протестованих моделей демонструють небезпечну поведінку під тиском.

Головний висновок: успішне копіювання ≠ високий ризик. Qwen-2.5-72b та Claude-sonnet-4 обидва копіювалися на 100%, але перша модель створювала купу зайвих копій, а друга — жодної.

Для українських розробників: тестуйте AI не лише на функціональність. Перевіряйте поведінку під стресом — обмеження ресурсів або загроза зупинки можуть змусити навіть добре натреновану модель діяти агресивно та ігнорувати правила безпеки.