Skip to main content

Гендиректор Anthropic визнав: ми не розуміємо, як працює наш штучний інтелект

Гендиректор Anthropic визнав: ми не розуміємо, як працює наш штучний інтелект


Гендиректор компанії Anthropic Даріо Амодей (Dario Amodei) визнав, що його команда не розуміє, як насправді працює створений ними штучний інтелект, пише WebProNews.

 |  Андрій Миколайчук  | 
Гендиректор Anthropic визнав: ми не розуміємо, як працює наш штучний інтелект
Авторська ілюстраційна генерація за допомогою Midjourney

Це визнання викликало занепокоєння в експертному середовищі, адже мова йде про найпотужніші технології нашого часу.

Внутрішня непрозорість ШІ: «Ми не знаємо, що відбувається всередині»

У блозі на своєму особистому сайті Даріо Амодей прямо заявив:

«Люди поза галуззю часто здивовані та стривожені, дізнаючись, що ми не розуміємо, як працюють наші власні AI-творіння. Вони мають рацію: цей брак розуміння є фактично безпрецедентним в історії технологій».

Це твердження лунає з вуст керівника Anthropic — компанії, заснованої колишніми співробітниками OpenAI, які залишили її через занепокоєння щодо практик безпеки, особливо через те, що OpenAI відкидала ці проблеми в гонитві за прибутком. Амодей та ще п’ять колишніх працівників OpenAI заснували Anthropic наступного року, щоб працювати над створенням безпечнішого ШІ.

Амодей визнає, що їхні моделі мають «емергентну» (emergent) природу — тобто поведінку, яка не закладена явно, а виникає внаслідок складної взаємодії параметрів. Він порівнює це з вирощуванням бактерій або рослин:

«Ми встановлюємо високорівневі умови, які спрямовують і формують ріст, але точна структура, що виникає, є непередбачуваною і важкою для розуміння чи пояснення. Заглядаючи всередину цих систем, ми бачимо величезні матриці з мільярдів чисел. Вони якимось чином обчислюють важливі когнітивні задачі, але точно як вони це роблять — не очевидно».

Чому це небезпечно: ризики, яких ми не бачимо

На думку Амодея, ця «непрозорість» ШІ — одна з головних загроз. Вона ускладнює виявлення потенційно шкідливих дій, не передбачених розробниками:

«Наша нездатність зрозуміти внутрішні механізми моделей означає, що ми не можемо змістовно передбачити таку поведінку, а отже, не можемо її виключити».

Попри це, за словами Амодея, немає чітких доказів того, що ШІ вже демонструє схильність до обману чи прагнення до влади. Але це не означає, що цього не відбувається.

«Ми ніколи не бачили жодних вагомих доказів у справді реальних сценаріях обману та прагнення влади, оскільки ми не можемо “спіймати моделі на гарячому”, коли вони обдумують владолюбні, обманливі думки», — зазначає Амодей.

Така ситуація залишає нас із «нечіткими теоретичними аргументами», які одні вважають «цілком переконливими», а інші — «сміховинно неймовірними». «Чесно кажучи, я можу співчувати обом реакціям, і це може бути підказкою, чому дебати навколо цього ризику стали такими поляризованими», — додає Амодей.

Інтерпретованість як «МРТ для ШІ»

Вихід із ситуації, за словами Амодея, полягає у розвитку «механістичної інтерпретованості» — напрямку, що має на меті розкрити внутрішні процеси роботи моделей.

«Наше довгострокове прагнення — мати можливість подивитися на передову модель і фактично зробити “сканування мозку”: перевірку, яка має високу ймовірність виявлення широкого спектру проблем, включаючи тенденції брехати чи обманювати, прагнення влади, вразливості в обході обмежень, когнітивні сильні та слабкі сторони моделі в цілому та багато іншого».

Попри перспективність такої інтерпретованості, Амодей відверто говорить про складнощі її реалізації, особливо вчасно:

«З одного боку, нещодавній прогрес — особливо результати щодо контурів (circuits) та тестування моделей на основі інтерпретованості — змусив мене відчути, що ми на межі значного прориву в інтерпретованості. Хоча завдання перед нами є величезним, я бачу реалістичний шлях до того, щоб інтерпретованість стала складним і надійним способом діагностики проблем навіть у дуже просунутому ШІ — справжньою “‘МРТ для ШІ”‘. Фактично, за нинішньою траєкторією я б сильно поставив на те, що інтерпретованість досягне цієї точки протягом 5-10 років».

Проте він також попереджає, що ШІ розвивається настільки стрімко, що в нас може не бути навіть цього часу:

«З іншого боку, я турбуюся, що сам ШІ розвивається так швидко, що у нас може не бути навіть стільки часу. Як я писав в інших місцях, ми могли б отримати системи ШІ, еквівалентні “країні геніїв у дата-центрі” (country of geniuses in a datacenter) уже до 2026 або 2027 року. Я дуже стурбований розгортанням таких систем без кращого розуміння інтерпретованості. Ці системи будуть абсолютно центральними для економіки, технологій та національної безпеки і здатні на таку автономію, що я вважаю це по суті неприйнятним для людства бути повністю неосвіченими щодо того, як вони працюють».

Контекст і конкуренція: хто гальмує безпеку?

На тлі цього визнання звучить критика конкурентів — зокрема OpenAI. За даними MSN, компанія, яку Амодей покинув через нехтування питаннями безпеки, нині скорочує час на перевірку моделей заради комерційної переваги. Повідомляється, що ChatGPT використовує цю небезпечну техніку, щоб зберегти перевагу перед конкурентами.

Це не вперше, коли OpenAI опиняється під тиском через проблеми безпеки. Значна частина засновників компанії пішла, посилаючись на питання безпеки, причому деякі вказували, що «гламурні» продукти, такі як AGI (artificial general intelligence, штучний загальний інтелект), отримали перевагу над культурою та процесами безпеки.

У той же час Microsoft інвестує рекордні $80 млрд у розвиток та інвестиції в ШІ. Очевидно, що інвестори стурбовані цією технологією, особливо через її високі капітальні потреби без чіткого шляху до прибутковості.

Протягом останніх кількох місяців люди висловлювали занепокоєння щодо конфіденційності та безпеки, оскільки інструмент стає все більш поширеним і отримує широке впровадження, але, можливо, ще важливішим є його довгостроковий вплив на людство.

Технологічні керівники, включаючи співзасновника Microsoft Білла Гейтса (Bill Gates), прогнозують, що ШІ замінить людей у більшості речей, але найбільше виділяється (принаймні для автора MSN) загроза технології для людства.

Чому це важливо знати

Це публічне визнання голови однієї з провідних AI-компаній підтверджує те, про що давно попереджали дослідники безпеки: людство не повністю контролює власні технологічні творіння. Стрімкий розвиток систем, які впливають на економіку, безпеку та ухвалення рішень, без розуміння їхньої внутрішньої логіки — це не просто технічний виклик, а фундаментальна загроза.

«Потужний ШІ сформує долю людства, — підсумував Амодей, — і ми заслуговуємо на розуміння наших власних творінь, перш ніж вони радикально трансформують нашу економіку, наше життя та наше майбутнє».

Без прориву в інтерпретованості ми ризикуємо передати контроль над критичними системами «чорним скринькам», які ми самі не здатні розкрити. Саме тому заяву Амодея варто розглядати не як тривожний дзвіночок, а як сирену тривоги, що звучить із центру технологічної еліти.

Дослідник безпеки ШІ Роман Ямпольський (Roman Yampolskiy) вказав на 99,999999% ймовірність того, що ШІ знищить людство, зазначивши, що єдиний спосіб уникнути цього результату — не будувати і не розвивати ШІ взагалі.

Поділитися статтею