ШІ як тьютор: німецькі вчені показали прогрес і обмеження
Штучний інтелект поступово входить у навчальний процес, але дослідження Вюрцбурзького університету імені Юліуса Максиміліана (Німеччина) показало: поки що він не може повністю замінити викладача. Про це пише Phys.org із посиланням на результати, опубліковані на сервісі препринтів arXiv.
Інструмент UTQA: перевірка розуміння термодинаміки
Дослідницька група кафедри фізичної хімії розробила UTQA (Undergraduate Thermodynamics Question Answering) — відкритий інструмент для оцінки рівня розуміння термодинаміки великими мовними моделями (LLM). Мета — з’ясувати, чи здатні ChatGPT, Gemini чи Copilot не лише відтворювати факти, а й демонструвати логічне мислення.
«Наше бажання — щоб одного дня ШІ зміг підтримувати нас як самостійний партнер у навчанні — наприклад, у формі компетентних чат-ботів, які індивідуально реагують на потреби кожного студента в підготовці та закріпленні лекцій. Ми явно ще не там, але прогрес вражає», — зазначив керівник проєкту професор Тобіас Гертель.
Методологія дослідження
Із зимового семестру 2023 року команда Гертеля використовує LLM на лекціях із термодинаміки для понад 150 студентів для щотижневих перевірок знань. Моделі ChatGPT-3.5 та ChatGPT-4 показали свої сильні сторони, але й виявили очевидні слабкості.
UTQA включає 50 складних завдань із базового курсу термодинаміки — дві третини текстові, одна третина містить діаграми та схеми, як це типово для дидактичних вправ. Завдання перевіряють не лише знання фактів і визначень, а й здатність мовних моделей цілеспрямовано пов’язувати різні граничні умови та розуміти складні послідовності процесів.
Результати: надійні, але недостатньо
За словами Гертеля, тестування найкращих моделей 2025 року дає чітку картину: жодна з протестованих моделей не досягла 95% успішності — порогу, який дослідницька група визначила як мінімально необхідний для роботи ШІ-тьютора без нагляду викладача. Навіть найкраща модель GPT-o3, що лідирує в багатьох тестах продуктивності, показала лише 82% загальної точності.
«Виявилися дві ключові слабкості: по-перше, моделі систематично не справлялися з так званими незворотними процесами, де швидкість зміни стану впливає на кінцевий результат. По-друге, очевидними були труднощі із завданнями, що потребували інтерпретації зображень», — пояснює вчений.
Ці обмеження мають глибоке коріння. Ще століття тому французький фізик П’єр Дюгем визначив оборотність процесів як одну з найскладніших концепцій термодинаміки — і сучасні ШІ стикаються з тими самими викликами. Проблеми з аналізом діаграм теж передбачувані: розпізнавання та інтерпретація візуальної інформації залишається однією з найсильніших переваг людського мозку над штучним інтелектом.
Корисні, але не автономні
«На практиці це означає, що LLM уже можуть бути дуже корисними в навчанні з наглядом або без нього — але ще недостатньо, щоб їх використовували як тьютори без нагляду, — каже Гертель. — Водночас ми спостерігали величезний прогрес за останні два роки. Тому ми впевнені, що — за умови, що розвиток раптово не зупиниться — експертиза, необхідна для асистентів викладачів у нашій дисципліні, скоро може бути досягнута».
Важливу роль у проєкті відіграли дві студентки-педагоги, які привнесли свіжий дидактичний погляд. Лука-Софі Б’єн розробила німецькомовну версію завдань, а Анна Гайслер адаптувала та розширила їх для міжнародної аудиторії. Гертель особливо відзначає цінність їхнього внеску — поєднання технічної експертизи з педагогічним досвідом.
Чому саме термодинаміка?
Термодинаміка виявилася ідеальним полігоном для тестування глибини розуміння штучного інтелекту, пояснює Гертель.
«Вона фундаментальна для нашого розуміння природи, має компактні базові закони, але в застосуванні вимагає точного розрізнення між змінними стану та процесу, теплом чи роботою, оборотними чи необоротними процесами. Саме тут здатність до міркувань відділяється від простого запам’ятовування», — наголошує фізикохімік.
Команда вже планує наступні кроки: розширити UTQA завданнями про реальні гази, суміші, фазові діаграми та стандартні цикли — усе те, що становить ядро університетського курсу термодинаміки.
«Чим краще моделі справлятимуться з мультимодальним зв’язуванням, тобто комбінацією тексту та зображень, а також необоротними режимами, тим ближче ми підійдемо до надійних, предметно-чутливих ШІ-тьюторів», — резюмує Гертель.
Чому це важливо знати
Для України, яка активно впроваджує цифрові технології у вищій освіті навіть під час війни, такі дослідження показують як можливості, так і обмеження використання ШІ. З одного боку, великі мовні моделі можуть зменшити навантаження на викладачів і допомогти студентам засвоювати матеріал у власному темпі. З іншого — їхня ненадійність у критичних темах, таких як термодинаміка, доводить, що роль викладача залишається незамінною.
Це нагадує: Україні слід інвестувати не лише в цифровізацію, а й у якісну педагогічну підготовку кадрів, які зможуть ефективно інтегрувати ШІ без шкоди для якості знань. Досвід німецьких колег показує — технології мають доповнювати, а не заміщати людський фактор в освіті.