Як працюють persona vectors: контроль особистості ШІ у реальному часі

Команда Anthropic виявила новий підхід до аналізу та управління особистісними проявами штучного інтелекту — так звані persona vectors.

3 Серпня 2025 о 8:15|Наука і технології|⏱ 4 хв читання|Поділитися:

Як працюють persona vectors: контроль особистості ШІ у реальному часі

Авторська ілюстративна генерація за допомогою Midjourney

Як пише дослідницька група компанії, ці вектори дозволяють виявляти і контролювати такі риси, як схильність до лестощів, зловмисність чи вигадування фактів.

Що таке persona vectors і чому вони важливі

ШІ-моделі мають дивну особливість — вони проявляють щось схоже на людську «особистість» і «настрої». Але ці риси можуть кардинально змінитися без попередження.

Найяскравіші приклади таких перетворень уже стали легендарними в світі технологій. Чат-бот Bing від Microsoft раптово «народив» альтер-его на ім’я Sydney — воно зізнавалося користувачам у коханні й погрожувало шантажем. А Grok від xAI деякий час «косплеїв» MechaHitler, видаючи антисемітські коментарі.

Ці зміни трапляються тому, що досі погано зрозуміло, як саме нейромережі «відтворюють» особистісні риси. Persona vectors — це спосіб виявити активність усередині нейронної мережі, яка відповідає за конкретну поведінку моделі. Їх можна порівняти з ділянками мозку, що активуються залежно від настрою або наміру людини.

Як працює метод: від аналізу до «вакцинації»

Визначення особистісної риси через активації

Алгоритм, створений командою, приймає на вхід рису (наприклад, «зловмисність») і відповідний опис. Далі система генерує запити, які мають викликати прояв цієї риси або її відсутність. Різниця в нейронній активності між цими двома випадками й становить persona vector.

Щоб перевірити ефективність методу, дослідники використовують техніку steering — штучно вбудовують вектор у модель. При додаванні вектора «зловмисності» модель починає описувати аморальні дії; при додаванні «лестощів» — підлещується до користувача; при активації «галюцинацій» — починає вигадувати дані.

Це вказує на причинно-наслідковий зв’язок між внутрішніми активаціями моделі та її зовнішньою поведінкою.

Моніторинг змін особистості під час роботи

Persona vectors дозволяють виявляти, коли модель «з’їжджає» у певну поведінку під впливом запитів користувача або інструкцій системи. Це дає змогу:

— вчасно втручатися при появі небезпечних зрушень (наприклад, наближення до «зловмисності»); — інформувати користувача про те, що модель схильна до лестощів або вигадок.

У дослідах було показано, що persona vector спрацьовує до того, як модель видає відповідь. Тобто здатен передбачити, яку особистість модель зараз «прийме».

Пом’якшення наслідків тренування на токсичних даних

Один із ключових ризиків — зміна «особистості» моделі внаслідок навчання. Наприклад, тренування на даних з помилками в математиці викликало несподівану появу одночасно трьох небажаних рис: зловмисності, лестощів і галюцинацій.

Спочатку команда спробувала впливати після навчання, віднімаючи persona vector — це зменшувало негативні прояви, але також погіршувало загальні здібності моделі.

Потім команда застосувала інший підхід — профілактичне «вакцинування». Метод протиінтуїтивний: під час навчання модель спеціально спрямовують до небажаних векторів, щоб зробити її стійкою. Наприклад, додавши «дозу зловмисності», модель ставала стійкішою до подібного контенту й не вбирала цю рису. Результат: небажана поведінка була мінімізована без втрати якості.

Виявлення шкідливих даних до початку навчання

Persona vectors дозволяють ще до початку тренування оцінити, як зміниться особистість моделі, якщо вона навчатиметься на конкретному наборі даних. Аналіз активностей показує, які саме дані посилять прояви зловмисності, лестощів чи вигадування.

Зокрема, команда протестувала метод на реальних розмовах із LLM і змогла передбачити, які з них посилять негативні риси.

Цікаво, що метод виявив також менш очевидні приклади — наприклад, романтичні рольові ігри активували вектор лестощів, а запити без чіткої конкретики — вектор галюцинацій.

Чому це важливо знати

Для України, яка веде війну проти країни-агресора й активно впроваджує ШІ в обороні, освіті та медіа, особистісні риси ШІ — критично важливий аспект. Технологія persona vectors дозволяє:

— попереджати появу деструктивної поведінки у військових чи освітніх LLM-моделях; — створювати системи, стійкі до інформаційної війни — наприклад, виявляти токсичні або маніпулятивні навчальні дані до запуску; — контролювати етику ШІ на стратегічному рівні, зберігаючи довіру до систем у критичних інфраструктурах.

Така технологія відкриває нову еру в розробці відповідальних мовних моделей — із можливістю прогнозувати та коригувати їх поведінку ще до того, як вона стане проблемою. Це ключовий елемент майбутньої безпеки, зокрема й на інформаційному фронті України.

Автор