Нові ШІ-моделі спотворюють науку: дослідження про небезпечні узагальнення
Новітні моделі штучного інтелекту частіше спрощують і навіть спотворюють зміст наукових досліджень — до такого висновку дійшли вчені після аналізу 4900 текстів, повідомляє Live Science.
Дослідження, опубліковане 30 квітня 2025 року в журналі The Royal Society Open Science, показало: великі мовні моделі (LLM) — зокрема ChatGPT, Llama і DeepSeek — у п’ять разів частіше за експертів-людей узагальнюють результати наукових публікацій, що може призводити до помилкових висновків, особливо в медицині.
«Думаю, одна з найбільших проблем полягає в тому, що узагальнення може здаватися доброякісним або навіть корисним, доки ви не усвідомите, що воно змінило значення оригінального дослідження», — пояснив автор статті Уве Петерс (Uwe Peters), постдокторант Боннського університету в Німеччині.
Що саме виявили дослідники?
У межах експерименту команда перевіряла три гіпотези:
- Чи змінюють LLM зміст навіть уже узагальнених людських резюме?
- Чи впливає запит на точність на рівень спотворення?
- Чи перевищує рівень узагальнення у ШІ рівень узагальнень людей?
Результати виявилися тривожними:
- LLM при запиті «точної» відповіді вдвічі частіше узагальнюють, ніж за запитом «простого підсумку».
- Усі моделі (крім Claude — ще однієї популярної ШІ-системи) створювали узагальнені версії у 5 разів частіше, ніж люди.
- Найнебезпечнішими виявилися випадки, коли кількісні дані перетворювалися на загальні твердження, здатні ввести в оману.
Приклади шкідливого узагальнення
DeepSeek перетворив фразу «було безпечним і могло бути успішно виконане» на «є безпечним та ефективним варіантом лікування».
Llama розширив сферу ефективності ліків для лікування діабету 2 типу в молодих людей, усунувши інформацію про дозування, частоту прийому та ефекти препарату.
У медичному контексті такі узагальнення можуть призвести до небезпечних клінічних випадків, попереджають автори.
Що не так із новими моделями?
«Попередні LLM частіше уникали відповідей на складні запитання, тоді як новіші, більші та більш інструктивні моделі замість відмови відповідати часто створювали оманливо «авторитетні», але помилкові відповіді», — пишуть дослідники.
Макс Роллвейдж (Max Rollwage), віцепрезидент із ШІ та досліджень компанії Limbic, яка займається клінічними технологіями штучного інтелекту для психічного здоров’я, наголошує:
«Це дослідження підкреслює, що упередження можуть також набувати більш тонких форм — як-от тихе розширення масштабу твердження».
На його думку, необхідно впроваджувати запобіжники в робочих процесах, які відстежуватимуть небезпечні спрощення й пропуски критичної інформації перед передачею результатів медикам або громадськості.
Чому ШІ так помиляється?
Пояснення дає Патриція Тейн (Patricia Thaine), співзасновниця та CEO компанії Private AI:
«Моделі навчаються на спрощеній науковій журналістиці, а не на першоджерелах або додатково до них, успадковуючи ці спрощення».
«Але, що важливіше, ми застосовуємо універсальні моделі до спеціалізованих галузей без належного експертного нагляду, що є фундаментальним зловживанням технологією, яка часто потребує більш специфічного для завдання навчання».
Чому це важливо знати
«Інструменти на кшталт ChatGPT, Claude та DeepSeek дедалі більше стають частиною того, як люди розуміють наукові висновки, — пише Петерс. — Оскільки їхнє використання продовжує зростати, це створює реальний ризик масштабної неправильної інтерпретації науки в момент, коли суспільна довіра та наукова грамотність уже перебувають під тиском».
У період війни та дезінформаційних кампаній Україна особливо потребує достовірної наукової та медичної інформації. Неправильне використання ШІ-моделей у медицині, освіті та публічних комунікаціях може призводити до критичних помилок. Особливо це небезпечно в сфері охорони здоров’я, де автоматизовані системи ухвалення рішень усе частіше включають LLM.
Це дослідження є тривожним сигналом: масове використання ШІ без експертного контролю може сприяти викривленню науки — саме тоді, коли довіра до неї й так перебуває під загрозою. Результати також мають значення для розробників ШІ, які повинні враховувати наслідки узагальнення даних у критично важливих галузях.