2026-05-11 22:02 · 🌐 СНГ (tech/AI)

Шесть YOLO-моделей читают чертёж вместо технолога

Команда из машиностроительного производства построила пайплайн, который извлекает параметры детали из PDF-чертежа автоматически — тип, габариты, квалитеты, шероховатости, резьбы, материал, масса — и отдаёт их в калькулятор стоимости в виде JSON. До автоматизации каждый чертёж занимал у технолога от 5 до 15 минут ручной работы.

Один технолог, несколько десятков запросов в день, и каждый раз — от 5 до 15 минут на открытие чертежа и ручное снятие параметров. Команда автоматизировала этот процесс: PDF на вход, структурированный JSON на выходе. Внутри — шесть YOLO-моделей, кастомный OCR на инженерных шрифтах по ГОСТ и стрелочная логика для определения габаритных размеров. Система работает в производственном потоке.

Контекст

В машиностроении расчёт стоимости детали начинается с чертежа. Входящий запрос типичен: PDF и строчка «нужно 50 штук». Технолог вручную снимает девять параметров — тип детали, габариты, количество размеров, квалитет самого точного размера, минимальную шероховатость, резьбы, материал, массу, сечения. Точность критична: разница между Ra 1.6 и Ra 16 — это разные технологические операции и существенно разная цена. IT6 требует шлифовки, IT14 — черновое фрезерование; разница в стоимости может быть пятикратной.

Компьютерное зрение для технической документации — не новая идея, но реальные производственные чертежи оказываются сложнее учебных датасетов. Чертёж А1 при 288 DPI даёт изображение 5000×7000 пикселей, тогда как стандартная YOLO обучена на 640×640. Ось вращения — штрихпунктирная и слабо контрастная. Индексы допусков — 10–15 пикселей высотой. Текст стоит под произвольными углами, через него иногда проходят линии.

Команда прошла путь до production: простые валы, корпусные детали с десятками сечений, кривые сканы, карандашные правки поверх печати. Все пороги и запасные сценарии — результат конкретных ошибок на конкретных чертежах, не теория.

Аналитика

Архитектура из шести специализированных YOLO-моделей вместо одной универсальной — показательное инженерное решение. Штрихпунктирная ось и индекс допуска в 10 пикселей слишком разные по масштабу и контексту для единой сети. Модели разбиты по классам: области и штамп, числовые размеры с допусками, метаданные штампа, оси вращения (порог уверенности намеренно снижен до 0.1 из-за слабого контраста штрихпунктира), символы шероховатости Ra, сечения и размерные стрелки.

Мультимасштабная детекция на DPI 10, 20, 50, 70 параллельно с дедупликацией через IoU решает проблему, которая убивает наивные подходы: объекты разного размера на одном листе. На DPI 10 весь А1 — около 170×240 пикселей; штамп, занимающий 3% площади листа, детектируется стабильно именно на этом масштабе. Это паттерн, применимый далеко за пределами чертежей — везде, где документ содержит элементы разного порядка величины.

Стрелочная логика — тот случай, когда стандарт документации становится алгоритмическим ключом. По ГОСТ габаритная стрелка всегда идёт снаружи контура детали, внутренние стрелки — через контур. Это геометрическое ограничение надёжнее, чем попытка распознать «главный» размер из набора чисел. Разделение линий по толщине (distance transform + скелетизация Zhang–Suen + порог Otsu) на 1200 DPI даёт устойчивое разделение контура детали от размерных линий — на 288 DPI разница составляет лишь 1–2 пикселя, и Otsu нестабилен.

Кейсы применения в бизнесе

Машиностроительное или металлообрабатывающее производство (СМБ, КР/СНГ). Поток запросов на расчёт стоимости — главная нагрузка на технолога. Пайплайн переводит расчёт из ручного в автоматический: на выходе JSON, который идёт напрямую в калькулятор. Ожидаемый эффект — снижение времени обработки с 5–15 минут до секунд, увеличение пропускной способности без дополнительного найма. Порог входа: открытый стек (YOLO Ultralytics, PaddleOCR, OpenCV), обучение на собственных чертежах.

B2B-SaaS платформа для производства или закупок. Автоматическое извлечение параметров из чертежей — готовый модуль для тендерных платформ, ERP-систем или маркетплейсов производственных услуг. Загрузил PDF — получил структурированные данные для сравнения предложений или генерации ТЗ. Это снижает барьер входа для заказчиков и ускоряет цикл сделки. Нишевая функциональность, которую ни один универсальный облачный OCR не закроет.

Корпорация с инженерным документооборотом. Тысячи архивных чертежей, перевод бумажных оригиналов в цифру, стандартизация данных для PLM. Пайплайн с кастомным OCR на ГОСТ-шрифтах закрывает именно ту задачу, где общие решения ломаются: инженерная графика с её специальными символами (∅, ±, °, Ra) и стандартными шрифтами — отдельный домен, требующий дообучения.

Кейсы в личной жизни

Разработчик, работающий с технической документацией. Статья — детальная карта решений: мультимасштабная детекция, разделение линий по толщине, семь углов для OCR, нормализация шероховатостей по стандартному ряду ГОСТ. Особенно ценна секция про запасные сценарии — именно там живёт разница между proof-of-concept и production. Читать как методологию, не только как кейс.

ML-инженер или исследователь. Приёмы переносятся в смежные задачи: распознавание электрических схем, строительных чертежей, медицинских форм со специфическими символами. Кастомное дообучение PaddleOCR на узком домене, намеренно заниженный порог уверенности для слабоконтрастных объектов, OCR-нормализация типовых ошибок («ГСТАЛЬ» → «СТАЛЬ») — это готовые паттерны.

Фрилансер или технический предприниматель в КР/СНГ. Производственный сектор Центральной Азии недооцифрован. Описанный подход реализуем как MVP на открытом стеке за разумное время. Спрос на автоматизацию технологических расчётов у местных производственных компаний есть — конкурентного предложения почти нет. Это конкретная ниша, а не абстрактная «автоматизация производства».

Как применить сегодня

Прочитать оригинальную статью полностью — там детально разобраны пороги, DPI-решения и запасные сценарии для каждого этапа; это не обзор, а технический разбор.
Поднять базовый стек YOLO Ultralytics + PaddleOCR + OpenCV — все три open-source, документация зрелая, CUDA-ускорение поддерживается из коробки.
Начать с одной специализированной модели под конкретный тип объектов своей задачи; шесть моделей — результат итерации, не стартовая точка.
Применить мультимасштабную детекцию для документов большого формата: запустить YOLO на нескольких DPI параллельно, объединить результаты через IoU-дедупликацию.
Для OCR на специфических шрифтах или символах — дообучить на кастомном датасете; стандартные модели на инженерной документации ошибаются предсказуемо и систематически, и это исправляется нормализацией типовых ошибок.

#компьютерное зрение #YOLO #OCR #машиностроение #автоматизация

← Все статьи