#мультимодальность

Публикаций: 7

2026-07-16 22:03 · 🤖 AI World

Первая открытая модель Миры Мурати: 975B параметров, Apache 2.0

Thinking Machines Lab Миры Мурати выпустила Inkling — мультимодальный MoE-трансформер с 975B суммарными параметрами на лицензии Apache 2.0. Ставка не на SOTA, а на кастомизацию: модель оптимизирована под файн-тюнинг через платформу Tinker.

2026-07-16 16:02 · 🤖 AI World

975B open-weights от экс-CTO OpenAI: Murati атакует рынок fine-tuning

Thinking Machines Lab Миры Мурати выпустила Inkling — мультимодальную open-weights модель на 975 миллиардов параметров. Первое место среди американских открытых моделей по Artificial Analysis Intelligence Index, но китайские конкуренты на отдельных задачах пока впереди.

2026-07-03 08:02 · 🤖 AI World

Любой LLM умеет смотреть видео — локально и без загрузки

YouTube-ссылка в ChatGPT? Там читают транскрипт, не кадры. Claude файл вообще не принимает. claude-real-video это чинит: извлекает осмысленные кадры по смене сцены, транскрибирует звук и отдаёт готовую папку любому LLM — на вашей машине, ничего не загружая.

2026-06-07 02:01 · 🤖 AI World

Qwen3.7-Plus: Alibaba строит агента, который видит экран и пишет код сам

Alibaba выпустила Qwen3.7-Plus — мультимодальную агентную модель, которая видит экран, управляет GUI и пишет код в едином цикле. В демо агент за 11 часов написал более 10 000 строк кода для приложения по изучению словарного запаса.

2026-06-04 02:01 · 🤖 AI World

Gemma 4 12B: мультимодальный ИИ умещается в 16 ГБ RAM

Google DeepMind выпустил Gemma 4 12B — открытую мультимодальную модель, которая работает с текстом, изображениями и аудио прямо на ноутбуке с 16 ГБ RAM и при этом почти не уступает модели вдвое большего размера.

2026-06-01 20:02 · 🤖 AI World

MiniMax M3: открытый вес, миллион токенов и мультимодальность

Китайская MiniMax выпустила M3 — по заявлению разработчиков, первую open-weight модель, которая одновременно берёт контекст в миллион токенов, показывает coding-результаты уровня лучших проприетарных систем и работает с несколькими модальностями нативно.

2026-05-24 20:02 · 🤖 AI World

7B-модель читает документы лучше гигантов — метод ByteDance

ByteDance Seed установили: если учить мультимодальную модель отвечать на вопросы по документу вместо того, чтобы просто переписывать текст, — 7B-параметровая модель начинает стабильно обходить значительно более крупные системы. Даже на документах в 4 раза длиннее обучающей выборки.

← Все статьи