Чому ШІ мислить краще, коли сперечається сам із собою

Дослідники з Google, Чиказького університету та Інституту Санта-Фе виявили, що сучасні ШІ-моделі для міркування працюють не як один потужний розум, а як внутрішня команда «голосів» із різними характерами та спеціалізаціями, йдеться у дослідженні, опублікованому у січні 2026 року. Ці «суспільства думок» (societies of thought) всередині моделей DeepSeek-R1 та QwQ-32B дозволяють їм вести внутрішні дебати, що подвоює точність розв’язання складних задач.

3 Лютого 2026 о 10:08|Наука і технології|⏱ 4 хв читання|Поділитися:

Графічне зображення людського розуму та ШІ

Авторська ілюстративна генерація за допомогою Midjourney | 1920×1080

Що саме виявили вчені

Коли ви ставите складне питання сучасному ШІ, модель не видає відповідь миттєво. Спершу вона створює «ланцюжок міркувань» — внутрішній запис того, як вона «думає». Саме ці записи й проаналізувала команда на чолі з Юнсолем Кімом (Junsol Kim) для 8 262 задач з математики, логіки, фізики, хімії та інших дисциплін.

Порівняли дві категорії моделей: спеціалізовані reasoning-моделі (DeepSeek-R1 та QwQ-32B), натреновані на міркування, і звичайні чат-боти (DeepSeek-V3, Qwen-2.5 та інші). Різниця виявилася разючою.

Reasoning-моделі демонструють чотири типи «розмовної» поведінки: ставлять собі питання й відповідають на них, змінюють перспективу, вступають у конфлікт з власними попередніми висновками і примирюють суперечності. Звичайні моделі — навіть найбільші, з 671 мільярдом параметрів — ведуть одноголосий монолог без жодного внутрішнього діалогу.

Чому ШІ мислить краще, коли сперечається сам із собою — ШІ мислить

Різні голоси з різними характерами

Найнесподіваніше відкриття стосується того, хто саме «розмовляє» всередині моделі. Дослідники виявили, що reasoning-моделі створюють кілька внутрішніх «перспектив» — своєрідних персонажів із власними рисами характеру та фаховою спеціалізацією.

Ці «голоси» оцінювали за п’ятифакторною моделлю особистості (Big Five) — тією самою шкалою, яку психологи використовують для опису людського характеру. DeepSeek-R1 та QwQ-32B генерують голоси з набагато більшою різноманітністю в екстраверсії, доброзичливості, нейротизмі та відкритості до нового досвіду. Водночас сумлінність залишається стабільно високою для всіх «голосів» — кожен однаково серйозно ставиться до завдання.

Під час розв’язання задачі з органічної хімії модель використала п’ять різних голосів: один діяв як скептичний верифікатор, що перевіряє кожен крок, а інший — як креативний дослідник, що згадує аналогічні реакції. У творчому завданні — переписуванні одного речення іншим стилем — з’явилось цілих сім різних перспектив: від генератора ідей до педантичного «перевірника» смислової точності.

Експеримент, який подвоїв точність

Вчені не лише спостерігали за поведінкою — вони довели причинно-наслідковий зв’язок. За допомогою методів інтерпретабельності нейромереж дослідники знайшли конкретний нейронний маркер, який назвали «маркером здивування». Він активується саме в ті моменти, коли модель «здивована», перебиває сама себе і змінює напрямок міркування — як людина, яка раптом каже: «Стоп, а якщо спробувати інакше?»

Коли цей маркер штучно підсилили, точність розв’язання арифметичних задач зросла з 27,1% до 54,8%. Коли його придушили — впала до 23,8%. Одночасно з підсиленням маркера зросла частота всіх чотирьох типів розмовної поведінки: питань-відповідей, зміни перспектив, конфліктів і примирень.

Ефект виявився специфічним саме для «розмовних» ознак — випадкове посилення інших параметрів моделі такого результату не давало.

ШІ сам навчається дискутувати

Окремий експеримент додав ще один вражаючий факт. Дослідники взяли базову модель Qwen-2.5-3B і тренували її, винагороджуючи виключно за правильні відповіді. Жодних інструкцій щодо «дискусій» модель не отримувала.

Попри це, вона самостійно розвинула розмовні патерни. Спочатку з’явились питання й відповіді, потім — зміна перспектив і конфлікт поглядів. На 120-му кроці навчання модель демонструвала два чіткі «голоси» й почала використовувати займенник «ми», визнаючи свою внутрішню множинність. Дослідники назвали це паралеллю з «колективним інтелектом» — явищем, коли група людей ухвалює кращі рішення, ніж навіть найрозумніший одинак.

Моделі, яким перед навчанням показали приклади командних дискусій, досягали високої точності значно швидше, ніж ті, що тренувались на прикладах одноголосого міркування.

Чому це важливо знати

Дослідження змінює уявлення про те, як працює штучний інтелект. Ефективна ШІ-система більше нагадує не одинокого генія, а добре зібрану команду — де різноманітність поглядів покращує якість рішень. Як ми раніше описували, розуміння внутрішніх механізмів ШІ стає критично важливим у міру інтеграції цих систем у медицину, освіту та кібербезпеку. Для розробників це практичний сигнал: наступне покоління ШІ може бути побудоване не на збільшенні одного «мозку», а на організації взаємодії кількох різних «голосів» всередині нього.

Автор