OCRmyPDF: превращаем горы сканов в поисковую базу за один скрипт
OCRmyPDF — open-source Python-инструмент, который добавляет настоящий текстовый слой к отсканированным PDF через Tesseract. Берёт папку с тысячами документов, прогоняет батчем и отдаёт архивный PDF/A плюс sidecar.txt — готовый к индексации и RAG-пайплайнам.