#документооборот

Публикаций: 1

OCRmyPDF: превращаем горы сканов в поисковую базу за один скрипт

OCRmyPDF — open-source Python-инструмент, который добавляет настоящий текстовый слой к отсканированным PDF через Tesseract. Берёт папку с тысячами документов, прогоняет батчем и отдаёт архивный PDF/A плюс sidecar.txt — готовый к индексации и RAG-пайплайнам.

← Все статьи