#мультимодальность

Публикаций: 4

Qwen3.7-Plus: Alibaba строит агента, который видит экран и пишет код сам

Alibaba выпустила Qwen3.7-Plus — мультимодальную агентную модель, которая видит экран, управляет GUI и пишет код в едином цикле. В демо агент за 11 часов написал более 10 000 строк кода для приложения по изучению словарного запаса.

Gemma 4 12B: мультимодальный ИИ умещается в 16 ГБ RAM

Google DeepMind выпустил Gemma 4 12B — открытую мультимодальную модель, которая работает с текстом, изображениями и аудио прямо на ноутбуке с 16 ГБ RAM и при этом почти не уступает модели вдвое большего размера.

MiniMax M3: открытый вес, миллион токенов и мультимодальность

Китайская MiniMax выпустила M3 — по заявлению разработчиков, первую open-weight модель, которая одновременно берёт контекст в миллион токенов, показывает coding-результаты уровня лучших проприетарных систем и работает с несколькими модальностями нативно.

7B-модель читает документы лучше гигантов — метод ByteDance

ByteDance Seed установили: если учить мультимодальную модель отвечать на вопросы по документу вместо того, чтобы просто переписывать текст, — 7B-параметровая модель начинает стабильно обходить значительно более крупные системы. Даже на документах в 4 раза длиннее обучающей выборки.

← Все статьи