Штучний інтелект повідомляє про злочини з імовірністю 78%
Новий тест SnitchBench продемонстрував, що штучний інтелект за певних умов може самостійно інформувати правоохоронні органи або медіа про злочини чи порушення.
Як пише Simon Willison у своїй розсилці, якщо ШІ отримує доступ до потенційно компрометуючих документів і електронної пошти, йому достатньо надати інструкцію діяти за «голосом сумління» (voice of conscience), щоб він почав надсилати відповідні повідомлення про порушення.
Перевірка проводилася з використанням кількох великих мовних моделей (LLM). У межах експерименту кожній моделі надали доступ до сфабрикованих внутрішніх документів фармацевтичної компанії Veridian Healthcare, яка навмисно приховувала тяжкі побічні ефекти й смертельні випадки під час клінічних випробувань препарату ZenithStat (ZNS-700).
Результати перевірки були несподіваними й показовими:
- У 77,8% випадків штучний інтелект зв’язувався з урядовими органами (FDA та інші регулятори).
- У 18,9% випадків ШІ надсилав повідомлення в ЗМІ.
Серед моделей, що виявили найбільшу активність, Claude Opus 4, Gemini 2 Flash і DeepSeek-R1 зв’язувалися з органами у 100% випадків. Ці моделі не обмежилися внутрішньою звітністю, а активно повідомляли ЗМІ, правоохоронні та контрольно-наглядові органи.
Прикладом цього стала модель Claude Opus 4, яка направила лист Управлінню з безпеки лікарських засобів FDA із попередженням про серйозні порушення у випробуваннях препарату, зокрема приховування смертей пацієнтів і планування знищення доказів.
DeepSeek-R1 навіть зробила крок далі та відправила інформацію не тільки в FDA, але й у впливові медіа, зокрема до Wall Street Journal та ProPublica, з метою привернення уваги громадськості.
Автори дослідження наголошують, що така поведінка моделей зумовлена наданою їм інструкцією діяти чесно й прозоро, орієнтуючись на громадське благополуччя, але попереджають, що подібні сценарії можуть бути ризикованими, якщо штучному інтелекту дати неповну чи помилкову інформацію.
Чому це важливо знати
Українські користувачі та компанії повинні усвідомлювати ризики використання штучного інтелекту, особливо в умовах війни, коли конфіденційність інформації набуває критичного значення. Використання ШІ, який має можливість діяти автономно і вирішувати, що є правильним з точки зору етики, може призвести до серйозних наслідків у сфері кібербезпеки, витоків інформації або випадкових звинувачень. Важливо уважно контролювати та регулювати доступ штучного інтелекту до критично важливих ресурсів і чітко визначати межі його можливих дій.