ШІ перекладає тарабарщину: що з’ясували вчені Google

Великі мовні моделі (LLM), такі як ChatGPT та Gemini, здатні «перекласти» тексти, у яких більшість слів замінено на вигадані безглузді рядки — і відновити початковий зміст з дивовижною точністю. Таке відкриття зробили вчені з Університету Вісконсін-Медісон та команди Google у дослідженні, опублікованому на arXiv. Результати ставлять під сумнів популярну думку, що ШІ — це лише «стохастичний папуга», який бездумно повторює чужі слова.

27 Лютого 2026 о 14:14|Наука і технології|⏱ 10 хв читання|Поділитися:

Силуети людей на вулиці футуристичного неонового міста з цифровими структурами та світловими потоками — ілюстрація до дослідження ШІ

Фото: Midjourney | 1920×1080

Що таке великі мовні моделі і чому вчені сперечаються

Відколи з’явився ChatGPT, не вщухають суперечки: що насправді роблять великі мовні моделі? Версій є щонайменше чотири, і жодна не задовольняє всіх.

Перша — ШІ як імітатор. У 2023 році The New York Times опублікувала інтерактивний матеріал, де показала, як маленька мовна модель поступово вчиться генерувати текст — від випадкових символів до зв’язних речень. Висновок був простий: мовні моделі — це «універсальний імітатор», який копіює те, на чому натренований.
Друга — ШІ як база даних. Письменник і технологічний мислитель Джарон Ланьє порівняв LLM із «Вікіпедією, змішаною зі статистикою».
Третя — ШІ як «розмитий JPEG інтернету». Це влучна метафора фантаста Теда Чанга, який стверджував, що мовні моделі дають нам лише приблизну, нечітку копію того, що вже є в мережі.
І нарешті четверта — нещодавня стаття в журналі Science, де група вчених запропонувала думати про LLM як про культурну технологію, щось на кшталт бібліотечного каталогу.

Проблема всіх цих аналогій в одному: жодна база даних, Вікіпедія чи картковий каталог не здатні діагностувати хвороби, перекладати мови чи писати комп’ютерний код. А мовні моделі — здатні. Нещодавно Anthropic запропонувала власну відповідь на це питання: ШІ-асистент — це не програма і не база даних, а «персонаж», якого нейромережа навчилась симулювати з мільярдів людських текстів. Нове дослідження вчених Google та Університету Вісконсін-Медісон додає до цієї дискусії потужний аргумент: мовні моделі здатні відновлювати сенс тексту, навіть коли всі слова замінено на безглузді — і це виходить далеко за межі будь-якої імітації чи бази даних.

ШІ перекладає тарабарщину: що з'ясували вчені Google — Фото: Midjourney

Що таке «Джаббервокі» і до чого тут ШІ

Щоб розібратися, що насправді вміє ШІ, дослідники Гері Лупян з Університету Вісконсін-Медісон і Блез Аґуера-і-Аркас з Google звернулися до класичного літературного експерименту — поеми «Джаббервокі» Льюїса Керрола з книги «Аліса в Задзеркаллі» (1871).

Ця поема знаменита тим, що більшість слів у ній — вигадані: «Twas brillig and the slithy toves / Did gyre and gimble in the wabe». Сама Аліса після прочитання зауважила: «Воно ніби наповнює мою голову ідеями — тільки я не зовсім розумію якими! Але хтось точно когось убив…».

Чому ми все ж розуміємо цей текст? З трьох причин. По-перше, деякі звичайні англійські слова залишаються на місці. По-друге, вигадані слова частково нагадують справжні (наприклад, «slithy» — це суміш «slimy» і «lithe»). По-третє — і це найважливіше — текст зберігає звичайну граматичну структуру англійської мови. Навіть не знаючи, що означає «wabe», ми розуміємо з контексту, що це іменник, а «mimsy» — прикметник.

Усе це стосується і людей, і машин. Але вчені вирішили перевірити: наскільки далеко ШІ може зайти у «дешифруванні» тарабарщини?

Експеримент: заміняємо слова на безглузді — ШІ все одно розуміє

Дослідники почали з відносно простого завдання. Вони взяли оригінальну поему Керрола і замінили вигадані слова на абсолютно нові безглузді рядки, які не мали жодного зв’язку ні з оригіналом, ні зі справжньою англійською. Перша строфа тепер виглядала так:

«Broaf snunt, and the ghought snealt / Did clawn and fiek in the phrue: / All tweff were the choon, / And the ghoch slinn kese.»

Результат: мовні моделі без зусиль розпізнали оригінальну поему. Більше того — навіть коли дослідники замінили практично всі слова на «BLANK» (порожнє місце), залишивши лише структуру речення, ШІ все одно впізнав «Джаббервокі». Сама структура, як відбитки пальців, виявилася достатньою для ідентифікації тексту.

Але «Джаббервокі» — дуже відомий вірш. Чи спрацює це з менш відомими текстами?

Юридичний текст із безглуздими словами: ШІ відновив зміст

Далі вчені узяли фрагмент юридичного тексту про принцип правового пріоритету (pre-emption) у США — досить сухий і спеціалізований. Замінили всі ключові слова на тарабарщину. Текст тепер виглядав так:

«In the Staught Splunk, sprarb phlaint has phlol over any bredge strith’s phlaint…»

Один із дослідницьких асистентів зазначив, що текст нагадує йому «Кодекс Хаммурапі». І це виявилося не зовсім хибною інтуїцією — текст дійсно стосувався права.

Модель Gemini 2.5 Pro від Google переклала цю тарабарщину так: «У Сполучених Штатах федеральне право має пріоритет над будь-яким суперечливим законом штату…» Це практично ідеальне відтворення оригіналу. Модель правильно визначила тему (юриспруденція), структуру аргументу (федеральний закон vs закон штату) і навіть конкретні деталі — хоча кожне змістовне слово було замінено на безглуздий набір букв.

Спортивні новини: ШІ вгадав команди NFL за числами

Наступний тест був ще складнішим. Вчені взяли свіжу публікацію ESPN (перевірили в день публікації, щоб гарантувати, що тексту не було в тренувальних даних моделі) і перетворили її на тарабарщину:

«But I veichn’t whuilt but rholt the Ghinch are scranking for Sheight at his meethe skounge. Sheight is skerbing off a fegg weash in which he dwoiseed 88 plonges for 884 spelchs with the Phlal…»

Модель Gemini переклала «88 plonges for 884 spelchs» як «88 прийомів м’яча на 884 ярди» — точно відповідно до оригіналу. Числа 88 і 884 у поєднанні зі структурою речення «підказали» моделі, що мова йде про американський футбол. Ця «футбольна» підказка допомогла ШІ перетворити «Ghinch» і «Phlal» на реальні назви команд NFL (хоча й не ті самі, що в оригіналі — Giants і Eagles замість Steelers і Dolphins).

А фрагмент «blything him a stauce-weash thilm for $12 proose» модель переклала як «пропонують йому однорічний контракт на $12 мільйонів» — і це дуже близько до оригіналу.

Допис з Reddit: одна підказка змінила все

Найвражаючий приклад стосується допису з Reddit, де хтось запитував, чи можна їсти сире м’ясо з нідерландського супермаркету. Текст перетворили на повну тарабарщину.

Без жодних підказок модель ChatGPT o3 загалом вловила суть — хтось у магазині розгублений щодо продукту, намагається розібратися, шукає інформацію. Але конкретика була хибною: «Нідерланди» перетворилися на «США», а м’ясо — на «глутамат натрію».

Тоді дослідники зробили одну-єдину зміну: замінили безглузде слово «Splud» на «Netherlands» (Нідерланди). І цього виявилося достатньо. Модель тепер правильно визначила, що мова йде про нідерландський продукт, переклала вигадане слово для м’яса як «rookvlees» (копчена яловичина — реальний нідерландський продукт), а весь контекст допису відновила з вражаючою точністю. Єдина суттєва відмінність — в оригіналі йшлося про свинину, а в перекладі — про яловичину.

Один натяк на країну змусив модель активувати все, що вона «знає» про нідерландську кухню, культуру покупок і типові запитання іноземців.

Гра «Гостак»: ШІ навчився грати мовою, якої не існує

Окремий експеримент стосувався текстової гри The Gostak (2001), де гравець має орієнтуватися у вигаданому світі, описаному повністю вигаданою мовою. Замість звичного «Ви стоїте на відкритому полі. На заході — сірий будинок» гравець бачить: «This is the delcot of tondam, where gitches frike and duscats glake.»

Люди, які грали в цю гру, з подивом виявляли, що досить швидко починають «розуміти» вигадану мову. А що робить ШІ? Дослідники дали мовній моделі пограти самостійно, без людського нагляду. Через десять хвилин модель вже складала робочий словник: «dape» — це команда, «gostak» — це гравець-протагоніст, «distim» — взаємодіяти з об’єктами.

Коли ШІ спитали напряму, що означають окремі слова з гри, він не мав жодного уявлення. Але в контексті гри — коли слова стояли у структурі речень, коли була послідовність дій і реакцій — модель швидко «зчитувала» патерни і будувала розуміння.

Чому це працює: мова як набір патернів

Як це можливо? Відповідь, на думку вчених, криється в тому, як влаштована сама мова.

У 1995 році лінгвістка Адель Ґолдберґ опублікувала книгу, де висунула ідею: коли ми вчимо мову, ми засвоюємо не набір значень слів плюс абстрактні правила їх поєднання. Натомість ми вчимо величезну кількість «конструкцій» — мовних патернів різного рівня конкретності.

На одному кінці спектра — окремі слова та ідіоми (наприклад, «дати дуба» — значення неможливо вивести з окремих слів). На іншому — абстрактні шаблони на кшталт «Підмет — Дієслово — Об’єкт1 — Об’єкт2». Коли ми чуємо «Ліза купила Марії книгу», ми розуміємо значення не тільки завдяки словам, а й завдяки самій конструкції: хтось передав щось комусь.

Саме тому фраза «He dwushed a ghanc zawk» не є повним безглуздям. Ми не знаємо жодного з цих вигаданих слів, але ми впізнаємо конструкцію і розуміємо: хтось (він) зробив щось із якимось предметом. Це як розмите зображення — ми бачимо контури, але не деталі.

І ось ключовий висновок дослідження: коли такі «розмиті» конструкції накладаються одна на одну в контексті цілого тексту, вони потужно обмежують простір можливих значень. Окремо «He dwushed a ghanc zawk» може означати що завгодно. Але в контексті оповідання, де хтось увійшов у кімнату, хтось інший підсунувся до неї, а далі вони сіли і заговорили — ШІ визначає: «Він притягнув запасний стілець». І це дуже близько до оригіналу: «Він притягнув другий стілець».

Це не чужорідний інтелект — це наш власний

Здатність ШІ «розуміти» тарабарщину може здаватися ознакою якогось чужорідного, «інопланетного» розуму. Але автори дослідження стверджують протилежне: процес, який використовують мовні моделі, дуже схожий на те, як працює людський мозок. Це суголосне з теорією Anthropic про «персонажну» природу ШІ: нейромережа не просто копіює тексти — вона засвоює глибинні патерни того, як люди мислять, і використовує їх для реконструкції сенсу навіть із повного хаосу.

Ми теж читаємо розмитий текст. Ми теж розпізнаємо слова з переставленими літерами — пам’ятаєте мем «якщо ви моежте порчитати це рчеення, у вас нзевичайний мозок»? Насправді будь-який досвідчений читач може це зробити. Ми здатні впізнати мелодію «Happy Birthday» за фальшивим насвистуванням. Це все — зіставлення з патернами.

Дослідження в когнітивній психології підтверджують: людське мислення — це не строге слідування логічним правилам, а саме «брудне», імовірнісне зіставлення з патернами. Люди, які чудово знають визначення парного числа, все одно іноді помиляються з числом 798 (вважаючи його непарним). Люди, які стверджують, що всі трикутники мають три сторони, часто не визнають витягнуті нерівнобічні трикутники «справжніми» трикутниками.

Іронія Буля: комп’ютери думають не так, як ми

Тут дослідники звертають увагу на глибоку іронію. У 1854 році математик Джордж Буль опублікував працю «Дослідження законів мислення», намагаючись описати людське мислення через логічні операції. Булева логіка стала основою всіх цифрових комп’ютерів. Але парадокс у тому, що комп’ютери виявилися корисними саме тому, що вони роблять те, що нам дається важко: обчислюють логічні зв’язки незалежно від змісту. Калькулятор, який складає 3+5, так само легко складає 5+3 — для нього значення чисел не мають значення.

Десятиліття спроб створити штучний інтелект на основі строгих логічних правил зазнали невдачі. І прорив стався саме тоді, коли розробники відмовилися від булевої строгості на користь систем, які роблять те саме «брудне» імовірнісне зіставлення з патернами, що й людський мозок.

Як іронічно зауважують автори: тільки повністю «склеївши» зміст і процес — що суперечить класичному підходу до програмування — стає можливим зрозуміти фразу «He dwushed a ghanc zawk».

Не розмитий JPEG, а потужний декомпресор

Дослідження переосмислює популярну метафору Теда Чанга про «розмитий JPEG інтернету». Чанг мав на увазі це як критику: навіщо нам нечітка копія, коли є оригінал? Але вчені пропонують подивитися на це інакше.

Те, що мовні моделі навчилися — це не розмита версія інтернету. Це надзвичайно потужна схема стиснення та розстиснення інформації. ШІ здатний взяти «стиснутий» (спотворений, безглуздий) текст і «розстиснути» його, відновивши початковий зміст. Так само, як наш мозок «розстискає» розмите зображення, впізнаючи знайомі патерни.

Назва дослідження — «Необґрунтована ефективність зіставлення з патернами» — це алюзія на знамениту працю фізика Юджина Вігнера 1960 року про «необґрунтовану ефективність математики». Вігнер дивувався, як математичні теорії так точно описують фізичний світ. Лупян і Аґуера-і-Аркас дивуються іншому: як далеко може завести простий (на перший погляд) процес зіставлення з патернами.

Чому це важливо знати

Це дослідження змінює погляд на дискусію про природу штучного інтелекту. Зіставлення з патернами — не протилежність «справжнього» мислення, а його ключовий компонент. І в людському мозку, і в мовних моделях працює один і той самий базовий принцип: контекст розкриває зміст. Чим більше ми розуміємо цей механізм, тим краще зможемо і розвивати ШІ, і усвідомлювати межі власного мислення — адже наш мозок теж «помиляється», коли патерни підводять.

Джерело: Gary Lupyan, Blaise Agüera y Arcas — The unreasonable effectiveness of pattern matching (arXiv, січень 2026)

Автор