CVPR 2026: як ШІ навчився читати мозок та бачити у 3D

На CVPR 2026 (Conference on Computer Vision and Pattern Recognition) — найбільшій у світі конференції з комп’ютерного зору — дослідники представили роботи, що переводять медичний ШІ (штучний інтелект) від «кращого розпізнавання знімків» до автоматизації лабораторій, реконструкції відео з мозкових хвиль і розуміння простору без спеціальних датчиків, повідомляє leiphone.com. Нові системи навчаються на 1% звичайного обсягу даних, синхронізують рухи тіла з відео з точністю до мілісекунди, а прості ШІ-агенти вже перевершують фахових дослідників в оптимізації задач з обробки зображень. Головне зрушення конференції: від питання «чи бачить ШІ краще за людину» — до питання «чи готовий ШІ до реальної наукової роботи».

28 Травня 2026 о 9:12|Наука і технології|⏱ 14 хв читання|Поділитися:

Ілюстрація роботи медичного штучного інтелекту: аналіз КТ-знімків та тривимірної моделі тіла на CVPR 2026

Ілюстрація: медична лабораторія майбутнього, де ШІ аналізує МРТ, КТ та ультразвук. AI-генерація, Midjourney

Від «дивитися на знімки» до «виконувати завдання»

Медичний ШІ тривалий час існував у зручному, але штучному середовищі. Вчені тренували моделі на чистих датасетах, домагалися рекордних балів на стандартних бенчмарках і звітували про «перевищення людської точності». Але між лабораторним результатом і реальною клінікою — прірва.

Справжня медицина це не один уніфікований датасет. Це десятки різних апаратів КТ (комп’ютерна томографія) з різними протоколами сканування, ультразвукові зображення, де навіть досвідчений лікар покладається на роки інтуїції, патогістологічні зрізи тканин з хаотичною анотацією, і рентгени, які потрібно «читати» одночасно з двох ракурсів.

Тому тренд CVPR 2026 — не «більша модель», а «корисніша система». Дослідники ставлять нові питання:

Як ШІ швидко адаптується до нової лабораторії?
Як навчається на крихітних вибірках?
Як поєднує КТ, текст, сигнали датчиків і навіть активність мозку в єдине розуміння?

Коли простий ШІ-агент перевершує фахівця

Команди з Каліфорнійського технологічного інституту, Корнельського університету, Техаського університету в Остіні та Ренселерського політехнічного інституту поставили незручне запитання: чи потрібні взагалі «розумні» автоматизовані системи з великими бібліотеками функцій і складною архітектурою, якщо мова йде про оптимізацію реального наукового процесу?

Відповідь виявилася несподіваною. Дослідники взяли три реальні інструменти біомедичного аналізу — Polaris для визначення місця молекул, Cellpose для сегментації клітин та MedSAM для медичної сегментації зображень. Потім запустили простого ШІ-агента, який автоматично писав код попередньої обробки та постобробки для цих інструментів — і порівняли результати з офіційними оптимізаціями від авторів цих інструментів.

Прості агенти перевершили експертів, особливо помітно на MedSAM. Висновок: у завданнях з чіткою метою, обмеженим обсягом даних і конкретним інструментом — проста, прозора, дешева система виявляється ефективнішою за складну. Складна архітектура не тільки не допомагає — вона іноді «перенавчається» на маленькій верифікаційній вибірці та дає гірший результат.

Це важливо не лише як теорія. Це означає, що лабораторія без великого AI-бюджету може зараз автоматизувати значну частину рутини з підбору параметрів — просто запустивши агента на базі доступних мовних моделей.

Навчити медичний ШІ міркувати — майже без прикладів

Тренування медичних мовних моделей — дороге задоволення. Потрібні тисячі прикладів із «ланцюжком міркувань»: не просто «це пневмонія», а «на знімку є затемнення в нижній частці, характерне для бактеріальної пневмонії, що диференціюється від вірусної за такими ознаками…». Такі дані дорого анотувати, і їх хронічно не вистачає.

Команда з Східнокитайського педагогічного університету, університету Мухаммада ібн Зайєда зі ШІ, університету Монаша та Шанхайської лабораторії ШІ запропонувала метод DIQ (Difficulty-Influence Quadrant — квадрант складності та впливу). Ідея: не збільшувати датасет, а навчитися вибирати правильні приклади.

Проблема з наївним відбором даних у тому, що «складні» приклади часто виявляються зашумленими або надто специфічними, а «легкі» — поверховими. DIQ ділить кожен приклад за двома вимірами: складність медичного міркування (обчислюється через спеціалізований класифікатор BiomedBERT) та вплив на оптимізацію моделі (через градієнтну схожість). Відбираються лише ті приклади, де обидві оцінки високі: складне — і при цьому те, на чому модель реально вчиться.

Результат: на датасетах Huatuo та FineMed всього 1% відібраних прикладів дає результат, порівнянний із навчанням на повному датасеті. При 10% — DIQ стабільно перевершує всі базові стратегії відбору. Причому «відібрані» приклади якісно відрізняються: у них більше диференційної діагностики, перевірки безпеки та посилань на докази — саме те, що відрізняє клінічне мислення від поверхневої відповіді.

«Розв’язати» зір і мову: легка адаптація до будь-якої галузі

Великі мультимодальні моделі — ті, що одночасно «бачать» і «говорять» — мають одну неприємну особливість. Якщо ви хочете адаптувати таку модель до медичних знімків, рослинних хвороб або космічних зображень, вам доводиться перенавчати всю систему або принаймні мовну частину. Це не лише дорого — це ламає ту саму здатність до логічних пояснень, яку ви цінуєте.

Команда Amazon Web Services та UCLA запропонувала CRAFT — метод, де адаптується тільки візуальний енкодер, а мовна модель залишається заморожена. Ключ — дискретний «кодбук»: словник зафіксованих «візуальних слів», між якими навчається вибирати візуальний кодувальник. Замість того щоб передавати в заморожену мовну модель довільний неперервний вектор, CRAFT «перекладає» зображення в узгоджений набір токенів, які ця модель вже вміє розуміти.

На 10 різних датасетах — від медичних питань VQA-RAD до сегментації зображень кишківника Kvasir — CRAFT показав середнє покращення на 13,5% порівняно з базовою дискретною моделлю. При цьому здатність до пояснень виявилася стабільнішою, ніж у стандартних методів тонкого налаштування.

Практична цінність: один адаптований візуальний кодувальник можна підключити до різних заморожених мовних моделей. Це значно дешевше, ніж перенавчати кожну пару «зір + мова» окремо.

КТ у трьох вимірах: базова модель, яку давно чекали

Комп’ютерна томографія — золотий стандарт діагностики. Але для ШІ вона є кошмаром. Звичайна КТ — це не одна картинка, а сотні зрізів, де кожен воксель ще й анізотропний (нерівний у різних напрямках). Стандартні моделі зору, натреновані на двовимірних фото, просто не вміють з цим працювати.

Команда Університету Технології Ейндгофена запропонувала SPECTRE — першу повноцінну базову модель для об’ємного КТ, побудовану виключно на Transformer-архітектурі. Архітектура двоярусна: «локальний ViT (Vision Transformer)» обробляє деталі в тривимірних вікнах, «глобальний ViT» інтегрує всю інформацію сканування. Навчання поєднує самоконтрольоване та крос-модальне — модель одночасно вчиться геометрії та клінічній мові радіологічних звітів.

Результати SPECTRE на задачах прогнозування онкомаркерів, сегментації органів та текст-КТ-пошуку перевершують більшість базових систем. Особливо помітно покращення у задачі знаходження знімків за текстовим описом — тобто «знайди мені КТ з характерними ознаками раку підшлункової».

Важливо: автори принципово навчали модель лише на публічних даних і відкрили код. Для медичного ШІ, де «ексклюзивні лікарняні датасети» є бар’єром для входу, це суттєво.

Ультразвук: найскладніша мова для ШІ

УЗД (ультразвукова діагностика) — найпоширеніший метод медичної візуалізації у світі, але для ШІ він найменш «освоєний». Зображення залежать від того, як лікар тримає датчик, від тканинного оточення, від досвіду оператора. Та головне — ультразвукові звіти сповнені специфічної клінічної мови: «гіпоехогенне утворення з чіткими контурами і заднім акустичним підсиленням» — для нетренованого ока ці слова не дають нічого.

Команда Чжецзянського міського університету, Гонконзького баптистського університету, Чжецзянського університету та двох клінічних центрів побудувала Ultrasound-CLIP з нуля. По-перше, зібрали датасет US-365K — понад 364 000 пар «ультразвукове зображення + звіт», 52 анатомічні категорії. По-друге, розробили UDT — таксономію ультразвукової діагностики, де 9 класів атрибутів (луна, контур, заднє акустичне явище, кровотік тощо) поєднані з анатомічними рівнями.

На цій основі побудований Ultrasound-CLIP: модель не просто зіставляє «зображення — текст», а вчиться розуміти, що «гіпоехогенне» не є просто словом, а описом конкретної візуальної характеристики з клінічним значенням. Точність класифікації атрибутів: 59,6% проти 33,8% у найкращого базового рішення BiomedCLIP. У ближній перспективі це означає ШІ, який не просто «бачить» ультразвукове зображення, а розуміє, що на ньому клінічно важливо.

Від зрізу тканини — до карти генів

Уявіть: ви маєте звичайне гістологічне зображення тканини (забарвлення H&E — гематоксилін та еозин, яке роблять у будь-якій лабораторії) і хочете дізнатися, які гени і де саме активні в цій тканині. Для повної відповіді потрібен метод просторової транскриптоміки — дорогий, складний і не завжди доступний.

Команда Сямейського університету, Шанхайської лабораторії ШІ, Університету Цінхуа та Пенченської лабораторії запропонувала HyperST — систему, яка «передбачає» генну активність прямо з патологічного зображення. Ключова ідея: жива тканина має ієрархічну структуру. Є окрема «пляма» (spot) — і є мікрооточення (niche), де ця пляма живе серед інших клітин. Ця ієрархія справжня — і модель повинна її поважати.

Для цього HyperST переводить обидва рівні (зображення та генна активність) у гіперболічний простір — математичну структуру, яка природно кодує дерева та ієрархії. Контрастне навчання з ієрархічними обмеженнями вчить модель розуміти: «spot відноситься до niche так само, як конкретне входить у загальне».

На чотирьох датасетах просторової транскриптоміки (нирка, товста кишка, шкіра, легені з HEST-1K) HyperST стабільно перевершує попередні методи. Зовнішня перевірка: модель, натренована на товстій кишці, використана для нульового передбачення на даних TCGA-COADREAD — і показала AUROC (площа під ROC-кривою) 0,719 для класифікації мікросателітної нестабільності (MSI), що важливо для вибору терапії колоректального раку.

Синхронізувати тіло і відео з точністю до мілісекунд

Носимі датчики IMU (інерціальні вимірювальні блоки) в розумних годинниках та спортивних браслетах фіксують прискорення й обертання. Відеокамери фіксують те, як виглядає людина. Але «склеїти» ці два потоки автоматично — завдання значно складніше, ніж здається.

Команда Австралійського інституту машинного навчання Університету Аделаїди запропонувала MoBind. Ключове рішення: не порівнювати сирі пікселі з сирими IMU-сигналами, а спочатку витягти з відео скелет — і вже скелетний рух порівнювати з датчиком. Далі: кожна частина тіла — окремо. Рух правої руки порівнюється з датчиком правого зап’ястка, рух торсу — з поясним датчиком. Три рівні порівняння: токен-рівень, рівень частин тіла, рівень усього тіла.

Результати MoBind на датасетах mRi, TotalCapture та EgoHumans вражають. На 20-секундних відеофрагментах зі штучно внесеним зміщенням до 7 секунд середня похибка синхронізації — лише 0,05 секунди на TotalCapture та 0,04 секунди на EgoHumans. Точність у 200-мілісекундному вікні — 0,98 і 1,00 відповідно.

Це означає: система може відповісти, хто з кількох людей у кадрі носить конкретний датчик і на якій частині тіла — навіть без ручного маркування. Для спортивного аналізу, реабілітації та мультимодальних наукових досліджень це серйозний інструмент.

Що ви бачили уві сні: ШІ реконструює відео з мозкових хвиль

Один із найамбітніших проєктів конференції. Команда Пекінського університету поштового зв’язку та Суррейського університету поставила таке завдання: людина дивиться відео; в цей час знімається фМРТ (функціональна МРТ — магнітно-резонансна томографія) — сигнали мозкової активності. Чи можна з цих сигналів відновити, що саме людина бачила?

Попередні системи відновлювали статичні зображення або давали відео з «блукаючими» об’єктами, де людина в першому кадрі виглядала інакше, ніж в останньому. SemVideo вирішує це через триярусну семантику. Спочатку з реального відео «добувається» три рівні сенсу: статичний «якірний» опис першого кадру, динамічний опис руху та загальне резюме сцени. Потім мозкові сигнали «прив’язуються» до цих трьох шарів — і з них генерується відео.

SemVideo на датасетах CC2017 та HCP 7T досягає кращих результатів на 8 з 10 метрик у трьох вимірах оцінки. Але, мабуть, найцікавіше — побічний продукт: карта важливості мозкових зон. Виявилося, що статична семантика (що за об’єкт) пов’язана з вищими зоровими кортексами, а динамічна семантика (як рухається) — з зонами MT, MST і TPOJ, відомими як центри обробки руху. Це не просто «ШІ генерує відео з мозку» — це нейронаукове відкриття у пакеті зі згенерованим відео.

Рентген з двох боків — як справжній безпечник

На митниці й у метро безпечники перевіряють сумки на рентгені, як правило, дивлячись на два екрани одночасно: вид зверху і вид збоку. Людський мозок інтегрує ці два ракурси — і розуміє тривимірну форму предмета. Сучасні ШІ-системи, зазвичай, аналізують лише один ракурс.

Команда Пекінського університету залізничного транспорту та Бейханзького університету сформулювала питання точно: «Чи може другий ракурс зображення бути мовою?» Тобто — чи можна навчити модель сприймати другий вид рентгену не просто як «ще одну картинку», а як додаткову семантичну інформацію, яка обмежує можливі інтерпретації першого виду?

Для тестування побудували DualXrayBench: 45 613 пар рентгенів з двох ракурсів, 12 класів заборонених предметів, 1 594 питання для оцінки восьми типів крос-ракурсного міркування (підрахунок, перекриття, просторові відносини тощо).

Модель GSR на базі Qwen3-VL-MoE-8B, навчена структурованим міркуванням (спочатку — аналіз верхнього виду, потім — бокового, потім — висновок), досягла 65,4% точності та 70,6 F1 — краще, ніж GPT-4o, Gemini-2.5-Pro та Qwen3-VL-235B. Важлива деталь з абляційних тестів: просто «додати другий ракурс» недостатньо. Тільки поєднання двох ракурсів зі структурованим ланцюжком міркувань дає стабільне покращення.

Об’єкт у просторі: точна поза без перенавчання

Тепер переходимо до тривимірного бачення поза медициною — але з прямим зв’язком до неї (роботи, хірургічні асистенти, промислова інспекція).

Задача: є кілька камер, що знімають сцену з різних ракурсів. Є 3D-модель об’єкта (mesh). Потрібно визначити точне положення та орієнтацію (6D pose) цього об’єкта в просторі — і зробити це для будь-якого нового об’єкта, без перенавчання. Це «generalized 6D pose estimation», і це дуже складно.

Команда Чеського технічного університету в Празі запропонувала AlignPose. Замість того щоб об’єднувати незалежні оцінки з кожної камери (і «голосувати»), AlignPose обирає найкращих кандидатів з усіх ракурсів, переводить їх у спільну систему координат і потім одночасно мінімізує різницю між «синтетичним рендером у поточній позі» та «реальним зображенням» — одразу по всіх камерах. Ця спільна оптимізація («multi-view feature-metric refinement») і є ключем: оптимізується одна глобальна поза, а не кілька незалежних.

На стандартних бенчмарках BOP (YCB-V, T-LESS, ITODD-MV, HouseCat6D) AlignPose показує +11% проти одноракурсних методів і +5% проти найкращих опублікованих мультиракурсних систем. Особливо виразно — для металевих блискучих і прозорих предметів, де будь-який одиночний ракурс дає глибинну неоднозначність.

Мільйон кадрів за секунду: нова система руху для людини

Звичайні відеокамери знімають 30–120 кадрів на секунду. Для аналізу удару в боксі, стрибка з жердиною або швидкого кроку при реабілітації — цього катастрофічно мало. Оптичний motion capture (той, що в кіностудіях) дорогий та обмежений студією. IMU-датчики дають дрейф. Що робити?

Команда Сямейського університету та Шанхайського університету науки і технологій побудувала FlashCap. Ідея: розмістити на тілі LED-маячки, що блимають на різних частотах. Використати event camera — сенсор, що реєструє зміни яскравості асинхронно, а не суцільними кадрами — і дешифрувати ці мерехтіння в 2D-позиції суглобів.

Результат: система автоматично генерує розмітку з частотою 1000 Гц — 1000 «кадрів» на секунду. На цій основі зібрано датасет FlashMotion: 240 відеосекцій, ~7,15 млн анотованих кадрів, 20 волонтерів, 4 модальності (подійна камера, RGB, LiDAR, IMU). Базовий метод ResPose бере RGB-позу як «скелетну підказку», а потім вчиться передбачати тонкий «залишковий рух» між кадрами з подій — і перевершує всі базові системи на задачах точної синхронізації руху.

3D-сцена з однієї фотографії

Ще одна задача з категорії «здається простою, але насправді ні»: дивлячись на одну фотографію кімнати з кількома предметами, відновіть повну тривимірну сцену. З усіма предметами, включно з тими, що частково перекриті.

Команда Університету Цінхуа, Гонконзького університету науки і технологій, IDEA Research та LightIllusions запропонувала SceneMaker. Ключове рішення — не намагатися зробити все в один крок «від пікселів до 3D-сцени», а розбити задачу на три: спочатку «домалювати» перекриті предмети (де-оклюзія), потім отримати 3D-модель кожного предмета окремо, потім визначити позу кожного у спільному просторі.

Де-оклюзія навчена окремо, і подає на вхід image-to-3D системи вже «повний» предмет. Позова оцінка — дифузійна модель, що передбачає позицію, обертання та розмір кожного об’єкта комплексно.

На датасетах MIDI, 3D-Front та відкритих тестових сценах SceneMaker перевершує MIDI3D та PartCrafter не лише в якості геометрії, а й у просторовій зв’язності сцени — тобто предмети стоять так, як вони реально стоять, а не «летять» у повітрі.

Камера рухається — і це вже мова

Фінальний і, мабуть, найфілософськи цікавий результат CVPR 2026. Команда Google DeepMind і Техаського університету в Остіні запитала: якщо прибрати всі пікселі відео і залишити лише рух камери — куди вона рухалась, як оберталась, — чи можна зрозуміти зміст відео?

Ідея виходить з простого спостереження: оператор несвідомо «розмовляє» через рух камери. У першій особі ходьба, бігання, підйом по сходах — це чітко різні траєкторії. У третій особі стеження за спортсменом і панорама порожнього поля — це теж різні рухи. Рух камери є семантичним сигналом.

CamFormer — легкий Transformer, що кодує послідовність поз камери у векторний простір, вирівняний з природною мовою через контрастне навчання. Щоб вирішити проблему «коротка ділянка руху неоднозначна», додано контекстуальне кодування: локальна дія аналізується у ширшому часовому вікні.

На датасетах Ego-Exo4D, Nymeria, UCF101 та FineGym — задачі розпізнавання дій, локалізації ключових моментів, аналізу повторюваних рухів — траєкторія камери без жодного пікселя конкурує з повноцінними відеомоделями у сценах із виразним рухом тіла. Там, де важливіша «візуальна картинка» (готування їжі, ремонт), траєкторія поступається — але при злитті двох модальностей загальна точність зростає.

Це — нова «безкоштовна» модальність. Камери вже всюди. Їхні траєкторії можна обчислити стандартними методами 3D-реконструкції. А тепер виявляється, що в цих траєкторіях закодовано більше сенсу, ніж будь-хто очікував.

Чому це важливо знати

Результати CVPR 2026 змінюють ставлення до медичного ШІ не як до «розумного діагноста майбутнього», а як до практичного інструменту вже сьогодні. Системи, що навчаються на 1% даних, агенти, що замінюють ручне налаштування в лабораторіях, і моделі, що синхронізують рух з відео з точністю до мілісекунди — це не академічні демо, а рішення для реальних клінік, спортивних центрів і наукових лабораторій з обмеженими ресурсами. Для України, де медична інфраструктура відновлюється після руйнувань, ці технології особливо актуальні: вони дозволяють отримати якісний ШІ-аналіз без великих інвестицій у дорогі датасети та потужні обчислення.

Автор