Геометрію ми читаємо за правилами граматики — на відміну від нейромереж
Подивіться на квадрат. Здавалося б, що там — чотири однакові лінії. Але мозок зберігає його зовсім інакше: він будує в голові структуру, схожу на речення, де частини вкладені одна в одну. Це довели нейробіологи з французького центру NeuroSpin у дослідженні, опублікованому в журналі Journal of Experimental Psychology: General. У трьох експериментах за участю 136 дорослих вони показали: геометричні фігури зберігаються у свідомості деревоподібно — як гілки, що відходять від стовбура й діляться на дедалі дрібніші відгалуження. Працює це за тими самими правилами, що й граматика мови.

Серед авторів — Станіслас Деен (Stanislas Dehaene), один із найвпливовіших у світі когнітивних нейробіологів, відомий роботами про те, як мозок читає, рахує й усвідомлює. Разом з колегами Барбу Ревенку та Максансом Пажо він узявся за питання, яке звучить майже філософськи: чи має наше сприйняття форм приховану «граматику»?
«Мова думок»: про що взагалі мова
В основі лежить ідея, відома як гіпотеза «мови думок» (language of thought). Її ще в 1970-х сформулював філософ Джеррі Фодор: частина наших думок улаштована як мова. Є невеликий набір «слів»-цеглинок (наприклад, «собака», «дитина», «налякати») і набір правил, як їх легально поєднувати в «речення».
Така будова дає дві суперсили. Перша — продуктивність: з кінцевого набору елементів можна породити нескінченно багато виразів. Друга — системність: якщо ви здатні подумати «собака налякала дитину», то автоматично можете подумати й «дитина налякала собаку». Останні роки науковці підозрюють, що ця «мова» працює далеко за межами власне мовлення — у тому, як ми сприймаємо звукові послідовності, візуальні сцени й навіть прості фігури.
Стара підказка: чому простіше — то легше запам’ятати
Як це досі перевіряли? Через складність. Уявіть послідовність ABABABAB. Її можна стиснути до короткої інструкції «повтори AB чотири рази». Що коротший «опис» стимулу, то легше людині його запам’ятати й упізнати.
Для геометрії таку «мову» 2022 року запропонувала команда Сабле-Меєра. У ній лише жменька команд: «провести» (накреслити відрізок), «повернути» (змінити кут), «повторити» (виконати набір дій n разів) і «підпрограма» (виконати дії й повернутися назад). Квадрат у цій мові — це «повторити[повторити(провести, повернути)]». Експерименти показали: що коротша така програма фігури, то швидше люди її кодують і впізнають, і то менше помиляються.
Проблема в тому, що це доказ непрямий. Він спирається лише на кореляцію між складністю опису й поведінкою. До того ж він плутає два різні питання: який тип представлення в голові (мова думок) і чому ми обираємо саме цей варіант, а не інший (бо він компактніший). Стиснення відповідає на друге питання, але майже нічого не каже про те, чи справді в голові є граматична структура.
Хитрість, яку позичили в лінгвістів
Тому автори зробили розумний хід: замість вимірів складності взяли так звані тести на конституенти — інструменти, якими лінгвісти десятиліттями перевіряють синтаксис речень. Ці тести не залежать від «економності» опису, зате прямо показують, чи є в структурі вкладені «гілки».
Класичний приклад — фраза «Бачив бабу з відром на велосипеді». Хто їде на велосипеді — баба чи той, хто на неї дивиться? Слова ті самі, порядок той самий — а зміст залежить від того, як подумки згрупувати частини. Саме ця прихована структура й видає роботу синтаксису.
Якщо фігури теж мають свій «синтаксис», із ними має спрацювати щось схоже: та сама на вигляд форма може отримувати різну внутрішню будову. Перевірити це й узялися три експерименти.
Експеримент 1: одна фігура — два різні «прочитання»
П’ятдесятьом учасникам показували коротку анімацію того, як малюється фігура, а потім просили впізнати її серед інших. Уся хитрість ховалася в анімації: ту саму фігуру можна «накреслити» двома способами — або як повтор двох однакових половинок, або як з’єднання двох різних шматків. По суті, це візуальний двійник двозначного речення: картинка одна, а «прочитань» — два.
І мозок справді вівся на підказку. Далі учасникам показували фігуру, розфарбовану так, щоб кольори підказували або те саме групування, що й анімація, або протилежне. Коли колір суперечив щойно побаченій структурі, люди помилялися помітно частіше (різниця в помилках — близько 4 відсоткових пунктів, і статистично ефект був дуже надійним).
Та найцікавіше було попереду. Виявилося, що одна й та сама людина може бачити ту саму фігуру по-різному — залежно від того, яку анімацію їй щойно показали. У другій половині експерименту анімації «перевертали» — і сприйняття слухняно перемикалося разом з ними. Звідси висновок: прагнення до найкоротшого, найекономнішого опису — це не залізний закон, а лише м’яка схильність, яку легко перекрити контекстом.
Експеримент 2: чому частини легше знайти у «своїй гілці»
Другий експеримент (теж 50 людей) перевіряв глибший рівень. Учасникам показували велику фігуру з шести відрізків, а потім на мить — маленький фрагмент із двох відрізків, який треба було впізнати як частину цілого. Фокус у тому, що однакові за виглядом фрагменти могли або належати до однієї «гілки» дерева, або розриватися між двома різними гілками.
Результат: фрагменти зі «своєї» гілки люди знаходили помітно легше (різниця в помилках близько 0,08). А ще виявилася неочікувана річ: коли фрагмент-підказку повертали на 90 чи 180 градусів, люди все одно його «впізнавали» й помилково приймали за частину фігури. Це означає, що внутрішнє представлення абстрактне — воно ігнорує таку яскраву деталь, як орієнтація. Загальна точність у цьому завданні була низькою (55%), бо фігури навмисно зробили дуже складними заради ідеального балансу умов, — але сам ефект тримався стабільно й не залежав від того, добре чи погано людина справлялася загалом.
Експеримент 3: що глибше розрізати — то важче скласти назад
Третій експеримент (36 учасників) надихався «рухом» у лінгвістиці — здатністю переміщати цілісні шматки речення. Людям показували фігуру з восьми відрізків, що складалася з трьох вкладених рівнів, а потім — ту саму фігуру, «розрізану» на дві частини й розсунуту. Завдання: вирішити, чи можна скласти ці шматки назад в оригінал.
Ключова знахідка: що вище в «дереві» проходив розріз, то легше було скласти фігуру; що глибше — то важче. Причому кожен рівень дерева додавав постійну «доплату» часу — рівно як сходинки, які треба пройти. І це працювало всупереч інтуїції: чим більший збіг пікселів між оригіналом і підказкою, тим складнішим ставало завдання. Будь-яка система, що міряє схожість «на око», поводилася б навпаки. Цей результат остаточно відкинув простіше пояснення — нібито фігури в голові просто «нарізані на шматки». Ні: вони влаштовані як частини всередині частин усередині частин, тобто справжнє вкладене дерево.
А що штучний інтелект?
Тут історія стає особливо цікавою. Роком раніше команда Кемпбелла (2024) показала, що сучасні нейромережі непогано відтворюють «ефекти складності» з геометрії, і зробила гучний висновок: отже, жодної «мови думок» у людей вигадувати не треба — машини й так дають схожі результати. Французькі дослідники вирішили перевірити це твердження своїми, складнішими завданнями.
Вони згодували ті самі стимули провідним моделям: відеомоделі TimeSformer, згортковій мережі ResNet50 і двом великим трансформерам — CLIP та DINOv2. Результат вийшов подвійним. З одного боку, мережі здебільшого вміли відрізнити правильну фігуру від підробки. З іншого — жодна з них не виявила й сліду деревоподібної структури.
Трансформери взагалі поводилися протилежно до людей: для них схожість двох фігур визначалася насамперед збігом пікселів і розміром переміщеного шматка, а не його місцем у «дереві». Простіше кажучи, людина бачить граматику — машина бачить пікселі. Це перегукується з тим, про що ми вже писали раніше: і мозок, і мовні моделі спираються на зіставлення з патернами, але роблять це по-різному. І це ще один штрих до давньої дискусії про те, де проходить межа між біологічним мозком і кремнієм.
Автори, втім, чесні й не роздувають висновок. По-перше, більшість фігур були для мереж новими, тож розрив може скоротитися в наступних поколіннях моделей — особливо якщо ці самі завдання колись потраплять у тренувальні набори. По-друге, навіть якщо ШІ зрівняється з людьми, гіпотезу про «мову думок» це не поховає: мережа цілком може приховано вибудовувати щось функціонально схоже на неї всередині себе — адже великі мовні моделі, як з’ясувалося, неявно обчислюють синтаксичні структури. Тому негативний результат — «структури немає» — тут промовистіший за будь-який позитивний.
Чому ми малюємо річку зигзагом
Найкрасивіша думка чекає в кінці статті. Автори припускають, що ця геометрична «мова» могла з’явитися, можливо, тільки в людей — як додатковий шар, що стискає природні форми (скелети тварин, обриси рослин) за їхніми числовими регулярностями й симетріями.
Саме цим вони пояснюють, чому лише люди малюють — і чому наші малюнки правильніші за саму природу. Ми зображуємо річку акуратним зигзагом, а чотириногу тварину — горизонтальним відрізком із чотирма симетричними перпендикулярними «ногами». Реальність ніколи не буває такою рівною; це наш мозок «причісує» її до геометричної граматики. Разом зі ще однією суто людською здатністю — бачити в об’єктах символи — це й могло зробити нас єдиним видом, що перетворює світ на креслення.
Що залишається загадкою
Дослідження відповідає на питання «що» — як влаштований результат, — але не на питання «як». Воно мовчить про сам механізм, який перетворює сигнал від сітківки на «дерево» (найімовірніший кандидат — баєсівський «вивід програм», коли мозок ніби вгадує найпростіший рецепт, за яким могла постати фігура), і про те, де саме в мозку все це відбувається.
Ще цікавіше, що ця «мова» може бути не лише зоровою. Її команди — абстрактні («повтори», «об’єднай») і теоретично здатні працювати й поза зором. Кілька фактів на це натякають. Сліпі від народження люди мають подібні геометричні інтуїції. Та сама «мова» пояснює, як ми сприймаємо прості звукові послідовності. А мозкові ділянки, задіяні в усьому цьому, перетинаються із зонами, що відповідають за числа й математику.
Нарешті, автори чесно окреслюють межі власної роботи. Їхня вибірка — освічені, цифрово грамотні дорослі, що говорять англійською. Чи працює та сама граматика у немовлят, дітей, людей інших культур і навіть тварин — належить з’ясувати окремо.
Чому це важливо знати
Це дослідження — не про абстрактні фігури, а про те, що робить людський розум особливим. Воно показує конкретну, вимірювану межу між тим, як думаємо ми і як «думають» найсучасніші нейромережі: ми будуємо вкладені структури зі змістом, машина рахує схожість поверхонь. Розуміння цієї різниці важливе і для розробки ШІ, і для освіти, і для давньої суперечки про те, чи є мова унікально людським даром — чи лише одним з облич глибшої здатності будувати світ із простих цеглинок.

Медіаменеджер і автор-фрілансер з 1991 року. Займається креативним продакшном та розвитком медіа.
Усі статті автора →









