目录

知识库Dify和cherry无法解析影印pdf-word解决方案

知识库Dify和cherry无法解析影印pdf word解决方案

近期收到大量读者反馈:上传pdf/图文PDF到Dify、Cherry Studio等知识库时,普遍存在 格式错乱、图片丢失、表格失效 三大痛点。

在试用的几款知识库中除了 ragflow 具备图片解析的能力外,其他的都只能解析文本。

https://i-blog.csdnimg.cn/img_convert/d6f4623d3e3801181e76b7e7e0c4e674.png

https://i-blog.csdnimg.cn/img_convert/405caae4b2216434a90b45c6c4a1368c.png

如果想要解析扫描件,或者带图片的pdf或word,怎么办?

通过工具将文档转成markdown

私密性的文件,建议本地部署,本地模型,非私密性的文件,可以使用一些在线服务。

marker

在github上21.6k星

总结下用途

  • 多格式转换 :支持 PDF、图像、PPTX/DOCX/XLSX/HTML/EPUB → Markdown/JSON/HTML
  • 复杂内容提取 :表格、公式、代码块、链接,支持图像保留与 OCR 修复,适配论文、金融文档等场景。
  • 可扩展优化 :通过 --use_llm 调用 Gemini/Ollama 等模型提升准确率,支持自定义处理规则。

优点

  1. 速度与精度 :单页平均处理仅 0.18 秒(H100 GPU),基准测试优于 Llamaparse/Mathpix;
  2. 灵活性强 :兼容 GPU/CPU/MPS,支持批量并发(122 页/秒多 GPU 模式);
  3. 开源易扩展 :模块化设计,可自定义 Processor/Renderer。

缺点

  1. 文档复杂度限制 :复杂嵌套表格需依赖 LLM 辅助;
  2. 商业化壁垒 :模型权重非商用,企业使用需营收<$5M;
  3. 硬件高需求 :GPU 加速依赖显存(单进程峰值 5GB)。

所需硬件资源

  • 基础配置 :CPU/MPS(Mac 芯片)可轻量运行,但速度下降;
  • 推荐配置 :多 CUDA GPU(如 H100/A100)提升吞吐,显存≥16GB 优化并行;
  • LLM 附加 :启用 --use_llm 需联网调用云服务(Gemini/Claude/Ollama)。

markitdown

在github上39.4k星

用途

将多种文件类型(PDF、Office文档、图像、音频、HTML、ZIP、YouTube等)转换为Markdown格式,支持文本分析、索引生成等场景,并提供插件扩展能力。

优点

  1. 格式丰富 :支持超过20种文件格式(含音视频、图像OCR、YouTube字幕)。
  2. 灵活安装 :按需选择依赖(如pdf/docx),减少冗余资源占用。
  3. 扩展性强 :支持第三方插件(GitHub搜索 #markitdown-plugin ),适配定制需求。
  4. 集成AI能力 :结合Azure文档智能、OpenAI模型(如GPT-4o)增强OCR、音频转录与图像描述功能。
  5. 多场景适配 :提供CLI、Python API、Docker镜像,适合本地开发与云环境。

缺点

  1. 依赖管理复杂 :需手动选择安装依赖项(默认不全覆盖),可能引发兼容性问题。
  2. 外部服务依赖 :Azure/OpenAI功能需API密钥和网络支持,增加配置门槛。
  3. 版本变更风险 :v0.0.1至v0.0.2存在破坏性更新,旧项目迁移需调整。

所需硬件资源

  • 基础配置 :适用于常规文件处理(CPU/RAM需求低)。
  • 复杂任务 :大文件处理、AI模型调用(如OCR/语音转录)建议高配置CPU/内存。
  • 云服务依赖 :Azure或OpenAI功能需稳定网络环境及对应API资源。

MinerU

在github上27.1k星

用途

  • 文档结构化转换 :PDF转Markdown/JSON,保留文本、表格、公式、图像结构。
  • 学术/技术处理 :精准提取论文公式(LaTeX)、表格(HTML)。
  • 多语言OCR :支持84种语言的扫描文档识别。

优点

  1. 高效精准 :多模型加速(10倍+速度),跨页拼接优化。
  2. 多模态支持 :图文表公式一体化提取。
  3. 跨平台加速 :兼容CPU/GPU/NPU/MPS,灵活部署。

缺点

  1. 场景局限 :复杂布局(杂志/艺术册)、垂直文本支持不足。
  2. 硬件门槛 :GPU需8GB+显存,NPU需华为Ascend生态。
  3. 小语种误差 :变音符号或罕见字符OCR可能偏差。

所需硬件资源

  • 最低配置 :8GB内存+SSD(CPU模式)。
  • 推荐配置
    • GPU:RTX 3060+(8GB显存);
    • NPU:华为Ascend 910B;
    • Apple:M2芯片+16GB内存(禁用公式识别优化性能)。

官方硬件推荐

https://i-blog.csdnimg.cn/img_convert/6f91d18478b46dd5b1f72816619aa64b.png

本想在线体验下,打开报

https://i-blog.csdnimg.cn/img_convert/090e7384a24afb6efd7538a015f0c51a.png

docling

在github上23.2k星,让deepseek联网搜索,竟然没有找到这个的产

用途

Docling 是文档处理工具,支持多格式解析(PDF、DOCX、HTML、图片等),重点增强 PDF 的布局、表格、代码、公式理解及 OCR 功能,提供统一文档结构表达,并与 LangChain、LlamaIndex 等 AI 框架集成,助力生成式 AI 应用开发。

优点

  1. 多格式支持 :覆盖 PDF、DOCX、HTML 等常见格式。
  2. 高级 PDF 解析 :精准识别布局、表格、公式、图像分类。
  3. 本地化执行 :支持敏感数据和断网环境。
  4. 生态系统集成 :无缝对接 LangChain 等 AI 工具链。
  5. OCR 能力 :有效处理扫描件与图片文本提取。

缺点

  1. 复杂结构支持待完善 :图表、分子结构等理解功能标注为“即将推出”。
  2. 外部模型依赖 :需遵守第三方模型许可协议,可能存在版权风险。
  3. 实验性功能 :部分功能(如 VLM 管道)可能稳定性不足。

所需硬件资源

  • 跨平台支持 :macOS/Linux/Windows(x86_64 及 arm64)。
  • 推荐配置 :未明确具体需求,但 OCR 与视觉模型可能需中等以上 CPU/GPU 资源,本地执行时需预留存储空间(依赖 HuggingFace 模型缓存)。
  • 轻量场景 :基础文档解析可在普通配置运行,复杂任务建议配备 GPU 加速。

然后我deepseek综合对比了下这款产品,各有优缺点,联网竟然没有查到Docling

工具适用场景优点缺点硬件资源需求
Marker复杂PDF解析(财报、学术文献),支持段落、表格、图片提取,适用于RAG场景。- 段落解析准确 - 表格转Markdown格式 - 开源(GitHub Star 14.5k)- 表格标题行易识别错误 - 目录误判为表格 - 复杂表格解析混乱需较高计算资源(可能依赖GPU加速)
MinerUPDF解析(技术文档、报告),强调结构化输出(版面分析、表格定位)- 版面分析精准 - 表格定位能力强 - 目录和标题识别优于Marker- 表格未优化处理(保存为图片) - 图片识别偶尔错误需较强CPU性能(对GPU依赖较低)
MarkitDown多格式转换(Office文件、PDF、图片→Markdown),适合内容创作、开发者及AI分析场景- 支持多格式转换(含OCR) - 可结合AI模型生成智能描述 - MIT开源协议,灵活扩展- 依赖外部AI模型(成本高) - 复杂PDF解析能力有限轻量级设计,但大文件(多页PPT/高清图片)需较高内存
Docling无信息无信息无信息无信息
这些产品都得自己折腾。

在线服务TextIn

一个群友强烈安利我这款产品 Textln ,有在线体验,注册可以免费解析100页,(我不会告诉你,我加了他们的小助手后,给我增加了1000页)。我拿着群友发的影印件体验了下。大家可以扫描体验。

https://i-blog.csdnimg.cn/img_convert/77a34f32086121e20fe6f6b799b5269a.png

https://i-blog.csdnimg.cn/img_convert/d55a683cb8deae51138fae7892f9df9d.png

  • 点击位置 1 上传文件,上传文件以后先不要执行
  • 点击位置 2 参数配置
  • 调整完参数点击 3

特别注意:它家的速度贼快,第一次没注意配置,上传一个99页的演示稿,直接点击识别,几秒就用了99页的免费额度。

https://i-blog.csdnimg.cn/img_convert/1c4ef79bf30065f96243527a57ec3b01.png

  • 这里 1 可以设置从哪页开始解析
  • 同时可以设置解析的页数 2
  • 如果pdf有密码,可以输入pdf的密码
  • 最重要的是要设置下 4 全文识别

https://i-blog.csdnimg.cn/img_convert/9c8f9521752bc7752d8e7ef33dcb6b0f.png

  • 可以通过 1 查看识别出来的表格、公式等是否正确,特别是公式
  • 通过 2 可以看到整个的识别还是蛮准确的
  • 通过 3 可以复制出结果
  • 通过 4 可以导出结果,我们一般用这个
  • 通过 5 可以对文档进行编辑,目前的识别准确率还是很不错的。

导出结果如下。

https://i-blog.csdnimg.cn/img_convert/c5d8f670d1ec9f3e1da022e3cca32053.png

https://i-blog.csdnimg.cn/img_convert/010c5c544b2c6ffd33cc774f1b10ff12.png

在dify中建立知识库,导入文档。

https://i-blog.csdnimg.cn/img_convert/d5a637d27e8be03b616fd4892dd754c6.png

  • 注意分段标识符, 1 位置使用正则 ^###(?!#)\s
  • 2 设置把分段长度往长了设置,如果文档不大全文作为整体
  • 3 子分段以句号为分隔符

按照官方的说法,是可以按照https://regexr.com/ 进行正则解析的,但是我在实际使用的时候,官方是可以的,到dify中并没有生效。

https://i-blog.csdnimg.cn/img_convert/f9ca845068b2239ead39aa43db7bd969.png

https://i-blog.csdnimg.cn/img_convert/197cc860cb8af189056950dd8b720021.png

然后我又看了下表格解析。

https://i-blog.csdnimg.cn/img_convert/8402b02ce7334a8e933fe6e393cfd081.png

好家伙,影印件中那么模糊的文本,都能扫描出来,我特意用自己高度近视的眼睛(堪比24K钛合金探测器)逐字比对,结果发现字符识别零误差,实在是太强大,速度又快,准确率又高。

Textln 不仅有文档解析,还有很多的其他的服务。

https://i-blog.csdnimg.cn/img_convert/a1227d39275ba3bb94530d7b06d36e0f.png

这么好用的东西,我以前竟然没有发现,而且这个公司我以前怎么没听过,然后看了一下公司业务。

https://i-blog.csdnimg.cn/img_convert/08994d74b0cd746d4f8c05f5701a5adf.png

噢,原来是,扫描全能王,以前经常用的app。

在cherry studio和dify中无法上传影印件的同学,可以去试试,注意,别上传隐私信息。另外他家也有本地化部署服务。

相关资料

清华DeepSeek相关资料

北京大学DeepSeek相关资料

零基础使用DeepSeek

ollama的docker镜像

deepseek的模型(ollama上pull下来的)

dify相关镜像

ragflow相关资料和模型

公众号案例

总入口(有时候会被屏蔽):

提取码:HiyL

系列文档:

DeepSeek本地部署相关

DeepSeek相关资料

DeepSeek个人应用

dify相关

ragflow相关

关于我

资深全栈技术专家 | 互联网领域十年架构沉淀

技术纵深:高并发架构 | 应用调优 | 分布式系统

技术版图:Java/Vue/Go/Python

管理沉淀:8年技术团队管理 | 百万级DAU经验

专注输出:

✓ 架构思维 × 技术管理 × 全栈实战

✓ 新技术应用 × 行业趋势前瞻

📢【三连好运 福利拉满】📢

🌟 若本日推送有收获:
👍 点赞 → 小手一抖,bug没有
📌 在看 → 一点扩散,知识璀璨
📥 收藏 → 代码永驻,防止迷路
📤 分享 → 传递战友,功德+999
🔔 关注 → 关注5ycode,追更不迷路,干货永同步

💬 若有槽点想输出:
👉 评论区已铺好红毯,等你来战!