Skip to main content

实用开源小工具推荐:pdf-inspector解决的是一个很实际的问题:并不是所有 PDF 都需要 OCR

  1. 实用开源小工具推荐:pdf-inspector


    解决的是一个很实际的问题:并不是所有 PDF 都需要 OCR。
    比方说你扔给它一个 PDF,它先判断这个 PDF 到底是什么类型——是正常的文字版(比如用 Word 导出的)、还是扫描版(图片),然后决定怎么处理。如果是文字版,直接本地提取,几百毫秒搞定;如果是扫描版,再走 OCR 服务。这样就避免了把每一个 PDF 都送去做 OCR,省钱省时间。很适合文档智能、知识库构建、RAG 数据预处理等情景。

    https://github.com/firecrawl/pdf-inspector