#документооборот

Публикаций: 1

2026-06-29 00:02 · 🤖 AI World

OCRmyPDF: превращаем горы сканов в поисковую базу за один скрипт

OCRmyPDF — open-source Python-инструмент, который добавляет настоящий текстовый слой к отсканированным PDF через Tesseract. Берёт папку с тысячами документов, прогоняет батчем и отдаёт архивный PDF/A плюс sidecar.txt — готовый к индексации и RAG-пайплайнам.

← Все статьи