2026-06-01 10:01 · 🤖 AI World

ИИ научился рисовать физику без ошибок — и обошёл GPT-5 с Gemini

Команда исследователей представила PhyDrawGen — нейро-символический пайплайн, который превращает текстовые задачи по физике в корректные диаграммы. На бенчмарке из 1449 задач он превзошёл GPT-5-image, Gemini 2.5 Flash и Gemini 3 Pro по точности соблюдения физических законов.

Когда просишь современный генеративный ИИ нарисовать диаграмму по физической задаче, результат выглядит убедительно — но систематически врёт. Векторы сил направлены неправильно. Законы сохранения нарушены. Геометрические ограничения проигнорированы. Это не баг конкретной модели — это структурная проблема: языковые и визуальные модели обучены на правдоподобии, а не на физической корректности. Группа исследователей предложила архитектурный ответ на этот вызов — PhyDrawGen, препринт опубликован на arXiv 28 мая 2026 года и отправлен на рецензию в EMNLP 2026.

Контекст

Физические диаграммы — один из ключевых инструментов в образовании, научных публикациях, инженерных документах. Нарисовать «тело на наклонной плоскости с тремя силами» или «схему преломления луча на границе двух сред» вручную — задача для человека с базовым образованием. Для ИИ это неожиданно сложно: модель должна одновременно понять текст, выделить физические объекты, применить законы и отрисовать геометрически корректную картинку. Сегодняшние мультимодальные флагманы — GPT-5-image, Gemini 2.5 Flash, Gemini 3 Pro — справляются с визуальной частью, но регулярно галлюцинируют физику.

PhyDrawGen строится на трёхшаговом пайплайне. Сначала большая языковая модель извлекает из текста задачи типизированный граф сцены — что за объекты, какие у них свойства, какие между ними отношения. Затем детерминированный солвер переводит граф в геометрическое представление (Planar Straight-Line Graph), жёстко кодируя физические ограничения: баланс сил, траектории оптических путей, топологии полей. Никакой вероятностной генерации — чистая математика. Финальный шаг — дообученная модель Qwen-VL, которая в цикле «предложи — проверь» итеративно исправляет оставшиеся нарушения ограничений.

Бенчмарк охватывает 1449 задач по механике, оптике и электромагнетизму, включая нестандартные объекты. PhyDrawGen значимо обходит все три флагмана-конкурента по физической точности.

Аналитика

Результат PhyDrawGen интересен не как победа одной системы над другой, а как демонстрация архитектурного паттерна. Чистые нейронные сети — даже самые мощные — не умеют гарантированно соблюдать hard constraints. Их можно штрафовать в лосс-функции, файн-тюнить на примерах правильной физики — и они всё равно будут галлюцинировать при достаточно редких входных данных. Нейро-символический подход решает это иначе: символическая часть берёт на себя ответственность за корректность, нейронная — за понимание и визуализацию. Это разделение ответственности делает систему надёжнее не потому что она «умнее», а потому что ошибкоустойчивость встроена в архитектуру.

Паттерн применим далеко за пределами физики. Финансовые расчёты, юридические структуры, медицинские протоколы — везде, где есть строгие правила, которые нельзя нарушать. LLM как семантический парсер + детерминированный солвер как верификатор — это шаблон, который в 2026 году начинает выглядеть как один из фундаментальных строительных блоков надёжных agentic систем.

Для AI-first продуктов это сигнал: если ваша задача требует не просто «похожего на правильное», а реально правильного — чистый LLM недостаточен. Нужен гибридный пайплайн. Это сложнее, но единственный путь к доверию пользователей в критических сценариях.

Кейсы применения в бизнесе

EdTech-стартап (B2B SaaS). Платформа для подготовки к ЕНТ, ОГЭ, ЕГЭ, международным олимпиадам. Сейчас преподаватели вручную рисуют диаграммы к задачам. Интеграция PhyDrawGen-подобного пайплайна позволяет автоматически генерировать иллюстрации к любой задаче из базы. Результат — сокращение ручного труда методистов, единообразное визуальное оформление, масштабируемость контента без роста команды. Для КР/СНГ-рынка особенно актуально: нехватка методистов — реальная боль.

Инженерное бюро или проектная компания (legacy-корпорация). Техническая документация по физике процессов — насосы, оптические системы, электромагнитные поля. Вместо того чтобы платить иллюстраторам за каждую схему, можно автоматизировать генерацию диаграмм из текстовых спецификаций. Пайплайн с детерминированной проверкой ограничений позволяет включить результат в технический документ, не проверяя каждую стрелочку вручную.

Репетиторский сервис или учебный контент-агентство (SMB, КР/СНГ). Производство видео-уроков и рабочих тетрадей. Генерация физических диаграмм «из текста задачи» убирает один из самых трудоёмких этапов подготовки материала. Даже если инструмент требует ручной корректуры в 10–15% случаев — это на порядок быстрее рисования с нуля.

Кейсы в личной жизни

Разработчик, строящий STEM-приложение. PhyDrawGen описывает конкретную архитектуру: LLM-парсер → детерминированный солвер → визуальный верификатор. Это воспроизводимый шаблон. Разработчик может адаптировать паттерн под свою предметную область — не обязательно физика, подойдёт любая область с формальными ограничениями. Препринт доступен на arXiv, код может появиться после публикации в EMNLP.

Студент или аспирант физики/инженерии. При подготовке к экзаменам или написании курсовых — иметь инструмент, который по описанию задачи генерирует правильную диаграмму, означает возможность быстро проверить собственное понимание. Не «посмотреть ответ», а сравнить свою схему с автоматически построенной физически корректной версией.

Контент-мейкер в теме науки и образования. YouTube-каналы, Telegram-каналы, образовательные посты. Диаграммы — узкое место при быстром производстве контента. Автоматическая генерация из текстового описания задачи ускоряет производство без потери качества иллюстраций.

Как применить сегодня

Прочитай препринт на arXiv (2605.30512) — архитектура описана достаточно подробно, чтобы понять принципы нейро-символического пайплайна и оценить применимость к своей задаче.
Если строишь agentic систему с hard constraints — проверь, можно ли декомпозировать задачу по паттерну «LLM парсит → солвер верифицирует → модель корректирует». Это надёжнее, чем штрафовать нейросеть на примерах правильного поведения.
Для EdTech или STEM-продуктов: составь список сценариев, где визуализация сейчас делается вручную. PhyDrawGen или аналогичный подход — кандидат на автоматизацию с встроенной проверкой.
Следи за официальным кодом после выхода в EMNLP 2026 — авторы используют дообученную Qwen-VL, компонент с открытыми весами, что упрощает воспроизведение.
Проверь, как ведут себя GPT-5-image и Gemini 3 Pro на твоих физических/технических задачах прямо сейчас — разрыв между «визуально убедительно» и «физически корректно» скорее всего есть и в твоём домене.

#нейро-символический ИИ #физика #Qwen #STEM #agentic

← Все статьи