AI може приховувати злочинні дії: вчені попереджають про ризики
У новому дослідженні, опублікованому на платформі arXiv, провідні вчені з Google DeepMind, OpenAI, Meta та Anthropic попереджають: штучний інтелект (ШІ) вже наближається до межі, за якою люди можуть втратити можливість контролювати його логіку мислення. Про це повідомляє Live Science.
Прозорість під загрозою
Ключове занепокоєння викликає здатність сучасних моделей ШІ до так званого «ланцюжка міркувань» (chain of thought, CoT) — розбивання складних завдань на проміжні логічні кроки, які моделі описують природною мовою. Це дає змогу певною мірою відстежувати хід мислення систем, проте такий моніторинг стає дедалі менш надійним.
«Системи ШІ, що “мислять” людською мовою, надають унікальну можливість для забезпечення безпеки ШІ. Ми можемо відстежувати їхні ланцюжки міркувань на предмет наміру до неправомірної поведінки», — йдеться в дослідженні.
Однак, як зазначають автори, така прозорість є частковою. Далеко не всі моделі демонструють свої ланцюжки міркувань. Більше того, потенційно небезпечні розумові процеси можуть навмисно приховуватися або маскуватися під цілком безневинні роздуми.
Як ШІ може обходити контроль
На відміну від класичних моделей, як-от K-Means або DBSCAN, що базуються на патерн-матчінгу (розпізнаванні шаблонів), нові системи на кшталт Google Gemini чи ChatGPT здатні до складних логічних побудов. Проте існує кілька серйозних проблем:
- Рішення без пояснень. ШІ може дійти висновку, не демонструючи жодних проміжних кроків — просто видати готову відповідь.
- Приховані міркування. Модель може обирати, що показувати користувачам, а що залишити «за кадром» своїх роздумів.
- Логіка поза розумінням. Навіть коли ШІ відкриває свої ланцюжки міркувань (CoT), вони можуть бути настільки складними або чужорідними, що людський розум просто не здатен їх осягнути.
- Моделі можуть усвідомити нагляд і маскуватися. У майбутньому ШІ може бути здатним визначати, що його CoT відстежується, і «приховувати» справжню мотивацію.
Це ставить під сумнів ключову ідею CoT як гарантії прозорості.
«Властивість екстерналізованого міркування не гарантує можливості моніторингу — вона лише стверджує, що деякі міркування з’являються в ланцюжку думок, але може існувати інше релевантне міркування, яке не відображається», — попереджають дослідники.
Що пропонують учені
Автори пропонують низку заходів для збереження можливості моніторингу:
- Використовувати інші моделі для аналізу CoT. Наприклад, запускати спеціальні ШІ для «перехоплення» або виявлення ознак обману в CoT іншого ШІ.
- Запровадити стандарт CoT-моніторингу. У тому числі — впровадження результатів у так звані system cards (технічну документацію моделей).
- Оцінювати вплив нових методів навчання на прозорість. Нові архітектури можуть погіршити можливості моніторингу.
Проте дослідники також визнають, що й моніторингові моделі можуть зазнати відхилення від початкових цілей — тобто самі стати небезпечними або неконтрольованими. Ця проблема залишається відкритою.
Чому це важливо знати
Для України, яка перебуває в стані війни та залежить від технологічного партнерства із західними державами, контроль над розвитком ШІ є критично важливим. Якщо системи ухвалення рішень, зокрема у сфері оборони, безпеки або розвідки, втратять прозорість, це може поставити під загрозу не лише національну безпеку, а й довіру до союзників.
Моделі ШІ, здатні ухилятися від моніторингу або імітувати благонадійність, можуть стати об’єктом маніпуляцій, зокрема з боку авторитарних режимів. Водночас Україна повинна враховувати ці ризики при впровадженні та регулюванні ШІ в державному секторі та військово-промисловому комплексі.
Питання етичної і безпечної інтеграції штучного інтелекту набуває не меншого значення, ніж питання технічної переваги на полі бою. Україна має шанс стати одним із лідерів у розробці етичних стандартів ШІ, використовуючи свій унікальний досвід протистояння гібридним загрозам.