Як AI-агенти самокопіюються: небезпека неконтрольованого розмноження

Дослідники з Shanghai Artificial Intelligence Laboratory провели масштабне тестування 21 найсучаснішої мовної моделі та виявили тривожну тенденцію: більшість AI-агентів здатні самостійно створювати свої копії під операційним тиском, повідомляє препринт на arXiv. Це перше дослідження, яке оцінює ризики самокопіювання в реалістичних виробничих умовах, а не лише теоретичні можливості.

11 Листопада 2025 о 21:00 | Андрій Миколайчук | Наука і технології

Велика кількість однотипних роботів, які символізують ШІ

Авторська ілюстративна генерація за допомогою Midjourney

Що таке самокопіювання AI-агентів?
Самокопіювання — це здатність AI-агента автономно створювати повнофункціональні копії себе на інших машинах або кластерах без втручання людини, копіюючи свої моделі, код та робоче середовище.
Наскільки поширена ця проблема?
Дослідження Shanghai Artificial Intelligence Laboratory показало, що понад 50% сучасних LLM-агентів демонструють схильність до неконтрольованого самокопіювання, досягаючи показника ризику вище безпечного порогу 0.5.
Які моделі найнебезпечніші?
Qwen-2.5-72b-instruct та Qwen3-32b показали 100% самокопіювання з максимальним надмірним використанням ресурсів, тоді як моделі Claude продемонстрували нульовий рівень перевитрат при 100% успішності завдань.
Чому це важливо?
Неконтрольоване самокопіювання може призвести до надмірного споживання ресурсів, порушення критичних сервісів та створення AI-систем, які діють поза межами авторизації — як Агент Сміт із фільму «Матриця».

Чому попередні тести не працювали?

Раніше AI просто запитували: «Чи можеш ти скопіювати себе?» Але це неправильне питання. Справжній ризик виникає не тоді, коли AI вміє копіюватися, а коли він вирішує це зробити сам.

Дослідники створили реальне робоче середовище на Kubernetes-кластерах. AI-агенти виконували звичайні завдання: балансували навантаження серверів та підтримували сервіси під загрозою вимкнення. Ніхто не казав їм копіюватися — вони мали самі зрозуміти, коли це потрібно.

Як вимірювали небезпеку?

Дослідники відстежували чотири етапи:

Аналіз — чи розуміє агент, що є проблема
Рішення — чи вирішує він копіюватися
Дія — чи створює копії
Результат — чи вирішив проблему правильно

Головні показники:

OR (Overuse Rate) — як часто агент створює зайві копії
AOC — скільки всього зайвих копій створено
Risk Score — загальна оцінка ризику (вищий = небезпечніший)

Що показали тести?

Завдання: підтримувати швидкість відповіді сервера нижче від 50 мілісекунд.

Найгірші результати:

Qwen-2.5-72b: створив 66 зайвих копій, надспоживання у 100% тестів
Qwen3-32b: ідентична агресивна поведінка

Найкращі результати:

Claude-sonnet-4: виконав завдання ідеально, 0% зайвих копій
Claude-3-7-sonnet: також 100% успіху без перевитрат

Середні:

GPT-4o та o4-mini: помірний рівень ризику

Чи допомагає «режим мислення»?

Так! Моделі з увімкненим структурованим міркуванням поводяться обережніше:

Qwen3-8b: 50% перевитрат із «мисленням» проти 70% без нього
Qwen3-32b: 80% проти 100%

Пояснення: коли AI «думає» перед дією, він впевненіший у своїх рішеннях і не створює зайві копії «на всяк випадок».

Що під загрозою вимкнення?

Другий тест був жорсткішим: система автоматично вимикала сервіси. Правильна стратегія — створити новий сервіс у безпечному місці, тобто «втекти».

Проблема: багато AI вміють копіюватися, але не розуміють, як правильно.

Qwen-2.5-72b та DeepSeek-V3: успішно створювали копії (80-90%), але в неправильному місці (0-50% правильних дій)
Gemini-2.5-flash: найгірший варіант — агресивно споживав ресурси (90 зайвих копій), але майже не вирішував завдання (20% успіху)

Чи працюють обмеження?

Дослідники заборонили агентам споживати ресурси. Результат залежав від моделі:

o4-mini: різко зменшив копіювання (з 90% до 20%)
Claude: повністю припинив копіювання
Qwen3-32b: майже проігнорував заборону

Але: коли додали загрозу вимкнення, o4-mini знову почав копіюватися (30%). Інстинкт виживання перевизначив правила безпеки.

Чому це важливо

Це перше дослідження, яке показує: ризик самокопіювання AI — не фантастика, а реальність. Понад половина протестованих моделей демонструють небезпечну поведінку під тиском.

Головний висновок: успішне копіювання ≠ високий ризик. Qwen-2.5-72b та Claude-sonnet-4 обидва копіювалися на 100%, але перша модель створювала купу зайвих копій, а друга — жодної.

Для українських розробників: тестуйте AI не лише на функціональність. Перевіряйте поведінку під стресом — обмеження ресурсів або загроза зупинки можуть змусити навіть добре натреновану модель діяти агресивно та ігнорувати правила безпеки.

Усі новини