知识库Dify和cherry无法解析影印pdf-word解决方案

JAY.LIN 收录于知识库

2025-03-07 约 3713 字预计阅读 8 分钟

https://bing.ee123.net/img/rand?artid=146087246

知识库Dify和cherry无法解析影印pdf word解决方案

近期收到大量读者反馈：上传pdf/图文PDF到Dify、Cherry Studio等知识库时，普遍存在 格式错乱、图片丢失、表格失效 三大痛点。

在试用的几款知识库中除了 ragflow 具备图片解析的能力外，其他的都只能解析文本。

如果想要解析扫描件，或者带图片的pdf或word，怎么办？

通过工具将文档转成markdown

私密性的文件，建议本地部署，本地模型，非私密性的文件，可以使用一些在线服务。

marker

在github上21.6k星

总结下用途

多格式转换 ：支持 PDF、图像、PPTX/DOCX/XLSX/HTML/EPUB → Markdown/JSON/HTML
复杂内容提取 ：表格、公式、代码块、链接，支持图像保留与 OCR 修复，适配论文、金融文档等场景。
可扩展优化 ：通过 --use_llm 调用 Gemini/Ollama 等模型提升准确率，支持自定义处理规则。

优点

速度与精度 ：单页平均处理仅 0.18 秒（H100 GPU），基准测试优于 Llamaparse/Mathpix；
灵活性强 ：兼容 GPU/CPU/MPS，支持批量并发（122 页/秒多 GPU 模式）；
开源易扩展 ：模块化设计，可自定义 Processor/Renderer。

缺点

文档复杂度限制 ：复杂嵌套表格需依赖 LLM 辅助；
商业化壁垒 ：模型权重非商用，企业使用需营收<$5M；
硬件高需求 ：GPU 加速依赖显存（单进程峰值 5GB）。

所需硬件资源

基础配置 ：CPU/MPS（Mac 芯片）可轻量运行，但速度下降；
推荐配置 ：多 CUDA GPU（如 H100/A100）提升吞吐，显存≥16GB 优化并行；
LLM 附加 ：启用 --use_llm 需联网调用云服务（Gemini/Claude/Ollama）。

markitdown

在github上39.4k星

用途

将多种文件类型（PDF、Office文档、图像、音频、HTML、ZIP、YouTube等）转换为Markdown格式，支持文本分析、索引生成等场景，并提供插件扩展能力。

优点

格式丰富 ：支持超过20种文件格式（含音视频、图像OCR、YouTube字幕）。
灵活安装 ：按需选择依赖（如^pdf/_docx），减少冗余资源占用。
扩展性强 ：支持第三方插件（GitHub搜索 #markitdown-plugin ），适配定制需求。
集成AI能力 ：结合Azure文档智能、OpenAI模型（如GPT-4o）增强OCR、音频转录与图像描述功能。
多场景适配 ：提供CLI、Python API、Docker镜像，适合本地开发与云环境。

缺点

依赖管理复杂 ：需手动选择安装依赖项（默认不全覆盖），可能引发兼容性问题。
外部服务依赖 ：Azure/OpenAI功能需API密钥和网络支持，增加配置门槛。
版本变更风险 ：v0.0.1至v0.0.2存在破坏性更新，旧项目迁移需调整。

所需硬件资源

基础配置 ：适用于常规文件处理（CPU/RAM需求低）。
复杂任务 ：大文件处理、AI模型调用（如OCR/语音转录）建议高配置CPU/内存。
云服务依赖 ：Azure或OpenAI功能需稳定网络环境及对应API资源。

MinerU

在github上27.1k星

用途

文档结构化转换 ：PDF转Markdown/JSON，保留文本、表格、公式、图像结构。
学术/技术处理 ：精准提取论文公式（LaTeX）、表格（HTML）。
多语言OCR ：支持84种语言的扫描文档识别。

优点

高效精准 ：多模型加速（10倍+速度），跨页拼接优化。
多模态支持 ：图文表公式一体化提取。
跨平台加速 ：兼容CPU/GPU/NPU/MPS，灵活部署。

缺点

场景局限 ：复杂布局（杂志/艺术册）、垂直文本支持不足。
硬件门槛 ：GPU需8GB+显存，NPU需华为Ascend生态。
小语种误差 ：变音符号或罕见字符OCR可能偏差。

所需硬件资源

最低配置 ：8GB内存+SSD（CPU模式）。
推荐配置 ：
- GPU：RTX 3060+（8GB显存）；
- NPU：华为Ascend 910B；
- Apple：M2芯片+16GB内存（禁用公式识别优化性能）。

官方硬件推荐

本想在线体验下，打开报

docling

在github上23.2k星，让deepseek联网搜索，竟然没有找到这个的产

用途

Docling 是文档处理工具，支持多格式解析（PDF、DOCX、HTML、图片等），重点增强 PDF 的布局、表格、代码、公式理解及 OCR 功能，提供统一文档结构表达，并与 LangChain、LlamaIndex 等 AI 框架集成，助力生成式 AI 应用开发。

优点

多格式支持 ：覆盖 PDF、DOCX、HTML 等常见格式。
高级 PDF 解析 ：精准识别布局、表格、公式、图像分类。
本地化执行 ：支持敏感数据和断网环境。
生态系统集成 ：无缝对接 LangChain 等 AI 工具链。
OCR 能力 ：有效处理扫描件与图片文本提取。

缺点

复杂结构支持待完善 ：图表、分子结构等理解功能标注为“即将推出”。
外部模型依赖 ：需遵守第三方模型许可协议，可能存在版权风险。
实验性功能 ：部分功能（如 VLM 管道）可能稳定性不足。

所需硬件资源

跨平台支持 ：macOS/Linux/Windows（x86_64 及 arm64）。
推荐配置 ：未明确具体需求，但 OCR 与视觉模型可能需中等以上 CPU/GPU 资源，本地执行时需预留存储空间（依赖 HuggingFace 模型缓存）。
轻量场景 ：基础文档解析可在普通配置运行，复杂任务建议配备 GPU 加速。

然后我deepseek综合对比了下这款产品，各有优缺点，联网竟然没有查到Docling

工具	适用场景	优点	缺点	硬件资源需求
Marker	复杂PDF解析（财报、学术文献），支持段落、表格、图片提取，适用于RAG场景。	- 段落解析准确 - 表格转Markdown格式 - 开源（GitHub Star 14.5k）	- 表格标题行易识别错误 - 目录误判为表格 - 复杂表格解析混乱	需较高计算资源（可能依赖GPU加速）
MinerU	PDF解析（技术文档、报告），强调结构化输出（版面分析、表格定位）	- 版面分析精准 - 表格定位能力强 - 目录和标题识别优于Marker	- 表格未优化处理（保存为图片） - 图片识别偶尔错误	需较强CPU性能（对GPU依赖较低）
MarkitDown	多格式转换（Office文件、PDF、图片→Markdown），适合内容创作、开发者及AI分析场景	- 支持多格式转换（含OCR） - 可结合AI模型生成智能描述 - MIT开源协议，灵活扩展	- 依赖外部AI模型（成本高） - 复杂PDF解析能力有限	轻量级设计，但大文件（多页PPT/高清图片）需较高内存
Docling	无信息	无信息	无信息	无信息
这些产品都得自己折腾。

在线服务TextIn

一个群友强烈安利我这款产品 Textln ，有在线体验，注册可以免费解析100页，（我不会告诉你，我加了他们的小助手后，给我增加了1000页）。我拿着群友发的影印件体验了下。大家可以扫描体验。

点击位置 1 上传文件，上传文件以后先不要执行
点击位置 2 参数配置
调整完参数点击 3

特别注意：它家的速度贼快，第一次没注意配置，上传一个99页的演示稿，直接点击识别，几秒就用了99页的免费额度。

这里 1 可以设置从哪页开始解析
同时可以设置解析的页数 2
如果pdf有密码，可以输入pdf的密码
最重要的是要设置下 4 全文识别

可以通过 1 查看识别出来的表格、公式等是否正确，特别是公式
通过 2 可以看到整个的识别还是蛮准确的
通过 3 可以复制出结果
通过 4 可以导出结果，我们一般用这个
通过 5 可以对文档进行编辑，目前的识别准确率还是很不错的。

导出结果如下。

在dify中建立知识库，导入文档。

注意分段标识符， 1 位置使用正则 ^###(?!#)\s 。
2 设置把分段长度往长了设置，如果文档不大全文作为整体
3 子分段以句号为分隔符

按照官方的说法，是可以按照https://regexr.com/ 进行正则解析的，但是我在实际使用的时候，官方是可以的，到dify中并没有生效。

然后我又看了下表格解析。

好家伙，影印件中那么模糊的文本，都能扫描出来，我特意用自己高度近视的眼睛（堪比24K钛合金探测器）逐字比对，结果发现字符识别零误差，实在是太强大，速度又快，准确率又高。

Textln 不仅有文档解析，还有很多的其他的服务。

这么好用的东西，我以前竟然没有发现，而且这个公司我以前怎么没听过，然后看了一下公司业务。

噢，原来是，扫描全能王，以前经常用的app。

在cherry studio和dify中无法上传影印件的同学，可以去试试，注意，别上传隐私信息。另外他家也有本地化部署服务。

系列文档：

DeepSeek本地部署相关

DeepSeek相关资料

DeepSeek个人应用

’

dify相关

ragflow相关

关于我

资深全栈技术专家 | 互联网领域十年架构沉淀

技术纵深：高并发架构 | 应用调优 | 分布式系统

技术版图：Java/Vue/Go/Python

管理沉淀：8年技术团队管理 | 百万级DAU经验

专注输出：

✓ 架构思维 × 技术管理 × 全栈实战

✓ 新技术应用 × 行业趋势前瞻

📢【三连好运 福利拉满】📢

🌟 若本日推送有收获：
👍 点赞 → 小手一抖，bug没有
📌 在看 → 一点扩散，知识璀璨
📥 收藏 → 代码永驻，防止迷路
📤 分享 → 传递战友，功德+999
🔔 关注 → 关注5ycode，追更不迷路，干货永同步

💬 若有槽点想输出：
👉 评论区已铺好红毯，等你来战！

目录

知识库Dify和cherry无法解析影印pdf-word解决方案

知识库Dify和cherry无法解析影印pdf word解决方案

marker

总结下用途

优点

缺点

所需硬件资源

markitdown

用途

优点

缺点

所需硬件资源

MinerU

用途

优点

缺点

所需硬件资源

docling

用途

优点

缺点

所需硬件资源

在线服务TextIn

相关资料

系列文档：

DeepSeek本地部署相关

DeepSeek相关资料

DeepSeek个人应用

dify相关

ragflow相关

关于我