2026-06-11 22:01 · 🤖 AI World

ReRe: ИИ научили пересматривать пространственные гипотезы по видео

На ICML 2026 представили ReRe — фреймворк, который даёт мультимодальным LLM второй шанс: сначала сформировать гипотезу о пространстве, потом проверить её с другой точки зрения. Без дообучения, без правок архитектуры — только умная последовательность инференса.

10 июня 2026 года на arXiv появилась работа команды из восьми исследователей, принятая на ICML 2026. Тема — пространственное мышление мультимодальных языковых моделей (MLLM) при анализе эгоцентрических видео. Задача выглядит просто: посмотри видео от первого лица и скажи, что где находится. На практике это один из самых неудобных типов задач для современных моделей.

Контекст

Эгоцентрическое видео — запись с камеры на теле человека или робота. Обзор ограничен траекторией движения: угол, высота, скорость поворота определяют, что попадёт в кадр. Когда модель смотрит такое видео и отвечает на вопрос «где стол относительно двери?», она работает с заведомо неполной геометрической картиной. Существующие подходы решают это через single-turn inference — один проход, одно решение, опора на семантические паттерны из обучения. Грубо говоря, модель угадывает через «это обычно выглядит вот так», а не через «я вижу это с двух сторон».

Бенчмарки VSI-Bench и STI-Bench фиксируют этот разрыв между open-source и проприетарными моделями: закрытые системы справляются заметно лучше, и разрыв считался структурным — мол, дело в данных и масштабе обучения.

Авторы предложили другой тезис: проблема не в модели, а в протоколе вывода. Если дать модели дополнительную точку зрения — она сама исправит ошибку.

Аналитика

Метод называется ReRe (Reason, then Re-reason). Работает в два этапа. На первом — Reason Phase — MLLM смотрит исходное видео и формирует пространственную гипотезу: где что находится, каковы расстояния, углы. На втором — Re-reason Phase — модель получает синтезированное видео с принципиально другой точки обзора и либо подтверждает гипотезу, либо пересматривает её.

Чтобы синтез работал, авторы построили Geometry-to-Video pipeline: из предсказанной 3D-геометрии сцены рендерится новый ракурс — приподнятый, косой, охватывающий всю сцену. Это не случайный угол: он выбран так, чтобы дать максимально компементарную информацию к исходной записи. При этом архитектура модели не меняется — ей просто подаётся второе видео в стандартный видеоинтерфейс.

Результаты на VSI-Bench и STI-Bench показали, что open-source MLLM с ReRe существенно приближаются к проприетарному SOTA. Это важный сигнал: разрыв между закрытыми и открытыми моделями в пространственном понимании оказался не фундаментальным, а методологическим. Правильный inference-time протокол стоит дороже, чем кажется.

Кейсы применения в бизнесе

B2B-SaaS стартап в области компьютерного зрения (например, складская автоматизация или навигация роботов): подход ReRe можно интегрировать поверх любой открытой MLLM без дообучения. Это означает, что команда из трёх инженеров может получить quality-level закрытых систем на своей инфраструктуре, не платя за API проприетарных провайдеров. Сценарий: взять LLaVA-Video или аналог, обернуть в ReRe-пайплайн, подключить к потоку с камер погрузчиков — и получить надёжную геолокацию объектов без fine-tuning.

Корпорация с legacy-инфраструктурой (производство, логистика, ритейл): если уже есть камеры наблюдения и какой-то pipeline анализа видео, ReRe добавляется как inference-обёртка. Не требует замены модели или переобучения на внутренних данных. Риск — задержка вывода удваивается (два прохода), что в real-time системах нужно учитывать при проектировании.

SMB и локальный бизнес в КР/СНГ: прямое применение пока ограничено — нужна GPU-инфраструктура для рендеринга новых видов. Но как концепция «дай модели второй взгляд» переносится на более простые задачи: мультиагентные системы с перекрёстной проверкой, документооборот с двойным парсингом разными промптами, визуальные чеклисты при приёмке товара.

Кейсы в личной жизни

Разработчик, работающий с компьютерным зрением: попробовать ReRe как паттерн для своих vision-пайплайнов. Логика «сначала предположи, потом проверь с другой стороны» отлично переносится на structured output с LLM — сгенерировать JSON, затем попросить модель проверить его с позиции «что здесь может быть неверно». Принцип тот же, домен другой.

Исследователь или студент ML: работа доступна на arXiv, код обещан на project page. VSI-Bench и STI-Bench — публичные бенчмарки, на которых можно воспроизвести эксперименты. Хорошая точка входа в тему embodied AI и spatial reasoning без дорогих вычислений — ReRe training-free, то есть достаточно inference на готовой модели.

Контент-мейкер или продакт, следящий за трендами AI: ReRe иллюстрирует более широкий паттерн 2025–2026 годов — inference-time compute как новая ось улучшений. Не «обучить лучше», а «думать дольше и умнее во время вывода». Это меняет экономику AI-продуктов: конкурентное преимущество всё больше определяется качеством промптинга и оркестрации, а не только доступом к лучшей модели.

Как применить сегодня

Прочитать препринт на arXiv (2606.11683) — abstract и секцию с методом понятны без глубокого бэкграунда в CV.
Если работаете с vision: посмотреть VSI-Bench как стандарт оценки пространственного reasoning — полезно для постановки собственных тестов.
Перенести принцип «Reason → Re-reason» на текстовые LLM-задачи: двухфазный промпт, где второй шаг явно задаёт модели роль критика первого ответа.
Следить за project page ReRe — авторы анонсировали код; как только выйдет, это станет практически применимым инструментом для open-source video-LLM стеков.
Связать с контекстом inference-time scaling: изучить, как аналогичные подходы (chain-of-thought, self-consistency, tree-of-thought) соотносятся с ReRe по вычислительной цене и качеству — хорошая тема для внутреннего технического разбора команды.

#spatial reasoning #MLLM #computer vision #inference-time #ICML 2026

← Все статьи