2026-06-14 00:01 · 🤖 AI World

Count Anything: ИИ научился считать всё подряд по текстовому запросу

Новая модель Count Anything претендует на универсальный счётчик объектов на изображениях — от толпы людей до клеток под микроскопом. Одна текстовая подсказка заменяет ручную разметку и сокращает ошибки вдвое.

Исследователи представили модель Count Anything — по заявлению авторов, первую систему, способную считать произвольные объекты на любых изображениях с помощью текстового промпта. Области применения охватывают противоположные края шкалы: от подсчёта людей в толпе до клеток в микроскопическом срезе. По сравнению с предыдущими специализированными моделями ошибка подсчёта снижается вдвое.

Контекст

Подсчёт объектов — задача, которая кажется тривиальной, пока не столкнёшься с ней в реальном производстве. Традиционные подходы делились на два лагеря: детекторы объектов (YOLO и подобные), которые хорошо работают на конечном наборе классов, и специализированные counting-модели — обученные на конкретной доменной задаче, будь то клетки, деревья или автомобили. Переносить их на новые типы объектов дорого: нужна разметка, дообучение, валидация.

Параллельно развивается направление few-shot и zero-shot counting — модели, которым достаточно нескольких примеров или вообще только описания. Именно сюда попадает Count Anything. Архитектурно подобные решения опираются на визуально-языковые модели (VLM): текстовый энкодер понимает, что именно нужно считать, визуальный — ищет это на картинке. Без языковой составляющей обобщение на произвольный класс объектов невозможно.

Рынок computer vision для промышленного применения измеряется миллиардами долларов. Медицинская диагностика, агрономия, производственный контроль, розничный ритейл — во всех этих сферах точный подсчёт объектов либо делается вручную, либо требует дорогих специализированных систем.

Аналитика

Снижение ошибки вдвое — значимый результат, потому что предыдущая планка была нехорошей. Классические counting-модели на незнакомых доменах часто давали ошибку в 20–40%, что делало их неприменимыми без ручной проверки. Половина от плохого — это уже «условно пригодно» для ряда задач. Но сам факт, что авторы акцентируют именно этот метрика, говорит о том, что абсолютные значения погрешности всё ещё высоки.

Два признанных слабых места модели — плотные объекты и неоднозначные формулировки — не случайны. Плотные сцены (зерно в силосе, клетки в тканевом срезе высокой плотности) — это проблема окклюзии и масштаба, которую текстовые подсказки не решают: нужна другая архитектура или специализированное предобучение. Неоднозначные термины — проблема выравнивания: что именно считать под словом «дерево» в парке с кустарниками? Это не баг Count Anything, это фундаментальная проблема zero-shot понимания.

Тренд очевиден: specialization-as-a-prompt. Вместо того чтобы обучать отдельную модель на каждый класс объектов, индустрия движется к универсальным foundation-моделям с task-specific инструкциями. Count Anything — ещё одна точка на этом графике, рядом с Segment Anything от Meta и универсальными детекторами на базе LLM. Практическая ценность подхода — не в том, что модель идеальна, а в том, что она убирает порог входа: не нужен датасет, не нужен ML-инженер для дообучения.

Кейсы применения в бизнесе

B2B-SaaS стартап в агро или медтехе. Если продукт включает анализ изображений — Count Anything как базовый слой для feature «подсчёт объектов» без построения собственного пайплайна. Запрос через API, текстовый промпт задаёт класс объектов, результат возвращается как число и карта плотности. Экономия: месяцы разработки и разметка обучающего датасета.

Корпорация с legacy в ритейле или логистике. Инвентаризация на складе, подсчёт товаров на полке, контроль заполненности паллет — задачи, которые сейчас решаются либо вручную, либо через дорогие специализированные системы с ограниченным набором SKU. Универсальная модель позволяет описать новый товар текстом и сразу получить счётчик без переобучения. Пилот: один склад, три месяца, замер точности против ручного учёта.

SMB и локальный бизнес в КР/СНГ. Небольшое производство, теплицы, рыбоводческое хозяйство — там, где профессиональный computer vision был недоступен по цене. Мобильное приложение или Telegram-бот с интеграцией модели: сфотографировал, написал «посчитай рассаду», получил число. Реальный сценарий для агропроизводителей Чуйской долины без IT-отдела.

Кейсы в личной жизни

Исследователь или студент биологии/медицины. Подсчёт клеток, колоний, точек на микрофотографии — типичная рутина в лабораторной работе. Сейчас это либо ручная разметка в ImageJ, либо платные плагины. Count Anything как бесплатный инструмент с текстовым интерфейсом потенциально сокращает часы до минут. Попробовать стоит уже сейчас — если модель открыта, её достаточно запустить локально или через Hugging Face Spaces.

Контент-мейкер или аналитик данных. Задачи типа «сколько людей на этом фото», «сколько машин на парковке в разное время суток» — для визуального сторителлинга или социальных исследований. Без Count Anything это или разметка руками, или найм аннотаторов. С моделью — промпт и результат за секунды.

Разработчик, строящий vision-продукт. Быстрый прототип без ML-экспертизы: взять модель, обернуть в простой API, протестировать продуктовую гипотезу за день вместо спринта. Если гипотеза работает — дальше можно думать о точности и специализации.

Как применить сегодня

Найти репозиторий Count Anything на arXiv или GitHub — искать по ключевому слову «Count Anything model 2025» — и проверить, есть ли публичный демо-стенд или Hugging Face Space.
Если есть доступ к модели — протестировать на своём доменном изображении: сформулировать промпт максимально конкретно («круглые зелёные клетки» вместо просто «клетки») и сравнить результат с ручным подсчётом.
Для плотных сцен — разбивать изображение на тайлы и считать по частям: это стандартный workaround для слабого места подобных моделей.
Зафиксировать метрику точности на своих данных до и после — без этого сравнение с «ошибкой вдвое меньше» останется абстрактным.
Если задача регулярная — обернуть в скрипт или Telegram-бот: промпт + путь к изображению + вывод числа. Это решается за полдня на Python даже без глубокого ML-бэкграунда.

#computer vision #подсчёт объектов #zero-shot #VLM #агропром

← Все статьи