ШІ провалив дитячий тест: експеримент розкрив сьогоднішні межі ChatGPT
Дослідження французького вченого Франка Рамуса з CNRS та École normale supérieure показує парадоксальну картину: сучасні LLM отримують вищі бали за середнього учня в тестах PISA з читання та природничих наук, а також успішно складають математику фінського бакалаврату, але не можуть виконати завдання для 8-річної дитини, пише L’Express.

Чи пройшли сучасні ШІ тест Тюрінга?
Так, моделі ChatGPT та Claude успішно проходять класичний тест Тюрінга — люди не можуть відрізнити їх від людини в письмовому діалозі.
Чому ШІ не може порахувати букви в словах?
Великі мовні моделі не мають алгоритму для підрахунку — вони лише генерують статистично ймовірні послідовності слів на основі навчальних даних.
Що таке тест ARC від François Chollet?
Спеціальна батарея тестів для оцінки здатності ШІ вирішувати нові та складні завдання, з призовим фондом у мільйон доларів.
Що означає пройти тест Тюрінга у 2025 році?
75 років тому Алан Тюрінг запропонував простий критерій: машину можна вважати розумною, якщо під час письмового діалогу людина не може визначити, спілкується вона з людиною чи машиною. Сьогодні ChatGPT та інші великі мовні моделі (LLM) успішно проходять тест Тюрінга.
Але чи достатньо цього? Проблема тесту Тюрінга в тому, що він надмірно цінує здатність продукувати мову, а ми легко піддаємося обману красномовців. Саме тому фахівці з ШІ більше не вважають цей тест достатнім критерієм інтелекту.
Чому ChatGPT не може порахувати департаменти Франції?
Франк Рамус наводить показовий приклад: він попросив ChatGPT-5 назвати кількість французьких департаментів з назвою з 6 літер. Модель назвала 8 замість правильних 15, і навіть залишила в списку Corrèze, яка має 7 літер.
Причина проста: список департаментів є в навчальних даних ChatGPT, але це лише текст, а не структуровані знання як у базі даних. Коли LLM відповідають на математичні питання, вони не виконують обчислення чи математичне міркування — вони просто генерують послідовності слів, які є статистично ймовірними відповідями на запитання.
Які тести AI досі не може пройти?
Тест ARC (Abstraction and Reasoning Corpus): Розроблений французьким інженером François Chollet для перевірки здатності вирішувати принципово нові задачі. Це щорічний конкурс із призовим фондом у мільйон доларів, але результати сучасних ШІ залишаються скромними.
Візуальне розуміння: Гері Маркус у 2014 році запропонував оновлений тест Тюрінга: здатність переглянути будь-яке нове відео та правильно відповісти на питання про його зміст. У 2025 році висновок залишається незмінним: жодна система не може подивитися серію «Сімпсонів» і зрозуміти, коли треба сміятися.
Коли з’явиться справжній штучний загальний інтелект (AGI)?
AGI — це штучний інтелект (Artificial General Intelligence), який дорівнює або перевершує людину в усіх когнітивних завданнях: від природного діалогу до вирішення абсолютно нових проблем, від самостійного навчання до перенесення навичок між різними сферами без додаткового програмування.
Парадокс у тому, що навіть творці найпотужніших LLM починають сумніватися в досяжності AGI через просте масштабування. Більше даних і параметрів не гарантують появу справжнього розуміння.
При цьому вузькоспеціалізовані системи вже десятиліттями обходять людей на їхньому полі: калькулятори рахують миттєво і без помилок, Deep Blue переміг Каспарова ще в 1997-му, автопілоти безпечніше пілотують літаки. А AlphaFold від DeepMind розшифрував структуру понад 200 мільйонів білків — роботу, яку раніше вважали неможливою для виконання протягом одного покоління вчених. Науковці порівнюють цей прорив з винаходом телескопа: AlphaFold так само радикально змінив біологію, як Галілей змінив астрономію.
Питання в тому, як об’єднати ці «острівці геніальності» в єдину систему загального інтелекту.
Часті запитання
Чи може ШІ зараз мислити як людина?
Ні, сучасні LLM генерують правдоподібний текст на основі статистичних закономірностей, але не здійснюють справжнього логічного міркування чи розуміння контексту.
Які компанії найближчі до створення AGI?
OpenAI (ChatGPT), Anthropic (Claude), Google DeepMind активно працюють над AGI, але жодна не має чіткого графіка досягнення цієї мети.
Чи небезпечний розвиток AGI для людства?
Це предмет активних дебатів серед експертів — від побоювань екзистенційних ризиків до оптимістичних сценаріїв співпраці людини та AI.
Читайте: ШІ став носієм культури: еволюційний стрибок чи загроза?
Чому це важливо знати
Розуміння реальних можливостей та обмежень сучасного штучного інтелекту критично важливе для українського бізнесу та освіти. Поки OpenAI, Anthropic та Google обіцяють AGI «вже незабаром», варто тверезо оцінювати можливості ШІ. Сьогоднішні моделі блискуче імітують розуміння, але не завжди його мають. Майбутнє належить гібридним системам: вони об’єднають точність спеціалізованих алгоритмів (для розрахунків, аналізу даних, логіки) з природною мовною майстерністю LLM. Така синергія дасть не просто правдоподібні, а дійсно надійні та перевірені відповіді.