Штучний інтелект передбачає успіх публічного виступу за 7 секунд
Штучний інтелект передбачає успіх публічного виступу за 7 секунд

Штучний інтелект здатен за перші фрази точно передбачити, наскільки вдалим буде публічний виступ. Це доводить нове дослідження Мічиганського державного університету (Michigan State University), опубліковане на arXiv (Schmälzle et al., 2025).
Автори використали великі мовні моделі (Large Language Models, LLMs) GPT-4o-mini (OpenAI) та Gemini 1.5 Flash (Google) для оцінювання якості 128 наукових виступів на основі коротких уривків стенограм — від 1% до 75% обсягу тексту. Найменші фрагменти містили лише 15–60 слів, що відповідало менш ніж 30 секундам промови2504.10768v1.
Основні результати дослідження:
- Вже 5% тексту достатньо, щоб із високою точністю передбачити загальну якість виступу (кореляція ≈ 0,6–0,7).
- Точність оцінок майже не зростає після 10% тексту — тобто перші кілька хвилин є критичними2504.10768v1.
- Оцінки LLM практично збігалися з оцінками 60 людських експертів (коефіцієнт кореляції 0,69)2504.10768v1.
Науковий контекст: Підхід «тонких слайсів» (thin-slicing) — здатність робити точні висновки за мінімальною кількістю інформації — був уперше описаний Наталі Амбаді (Nalini Ambady) та Робертом Розенталем (Robert Rosenthal) ще в 1990-х роках. Вони довели, що студенти можуть оцінити викладача, переглянувши 30-секундний беззвучний фрагмент його лекції.
Сучасне дослідження вперше застосувало цей підхід до стенограм публічних наукових виступів, тобто чисто вербального контенту без візуальних або голосових підказок.
Методологія:
- Корпус: 128 наукових виступів тривалістю 8–12 хвилин у VR-середовищі.
- Транскрипція: автоматично через Whisper (OpenAI) з ручною перевіркою.
- Оцінювання: дві моделі LLM із п’ятьма варіантами підказок; понад 11 500 оцінок.
- Перевірка: паралельне оцінювання людськими експертами.
Практичні висновки:
- Якщо перші речення виступу не залучають аудиторію, втримати її буде вкрай важко.
- LLM можна використовувати як швидкий, масштабований і доступний інструмент для оцінювання і вдосконалення публічних виступів.
- Найближчим часом очікується розширення аналізу на аудіо- та відео-фрагменти — тобто мультимодальну оцінку невербальних і вербальних сигналів одночасно.
Провідний автор дослідження, професор Ральф Шмельцле (Ralf Schmälzle), підкреслив: моделі LLM вловлюють саме ті сигнали, які слухачі інтуїтивно зчитують у перші секунди контакту зі спікером.
Чому це важливо знати:
Це дослідження доводить, що перші моменти виступу несуть критичну інформацію для формування враження. Інтеграція LLM у тренінги ораторської майстерності відкриває шлях до швидкої, об’єктивної та масштабованої оцінки публічних виступів. У майбутньому такі системи зможуть оцінювати не лише тексти, але й відео та аудіо — створюючи повноцінні інструменти для політиків, викладачів, підприємців та науковців.