Deep-research深度研究ChatGPT-Gemini-Perplexity-Grok哪家最强实测对比分析

JAY.LIN 收录于未分类

2025-03-12 约 2940 字预计阅读 6 分钟

https://bing.ee123.net/img/rand?artid=146195104

Deep research深度研究：ChatGPT/ Gemini/ Perplexity/ Grok哪家最强？（实测对比分析）

目前推出深度研究和深度检索的AI大模型有四家：

OpenAI和Gemini 的deep research，以及Perplexity 和Grok的deep search，都能生成带参考文献引用的主题报告。

致力于“几分钟之内生成一份完整的主题调研报告，解决人力几小时甚至几天的工作量。大大提升研究效率。”

本文娜姐会针对一个文献综述主题，来测试对比一下这四家的实际生成效果。

首先，这几款工具技术参数和价格对比如下：

2 各家效果测试对比：

下面娜姐以一篇综述主题“炎症相关脂肪因子与痴呆的研究进展”为例，详细对比一下各家的输出效果：

我要求按照如下框架内容展开，并包含一个总结性表格：

1 炎症相关脂肪因子的具体分类；2 脂肪因子在神经炎症中的作用机制；3 脂肪因子与不同类型痴呆的关系；4 临床研究和动物实验的最新进展；5 潜在的治疗靶点及干预策略

2.1 Perplexity：

为防止用中文对话，Perplexity查找的都是中文信息源，我强调要查找英文文献，并用中文撰写综述，Perplexity听懂了：

但是，对于不同脂肪因子与痴呆症的作用机制，并没有深入讨论，只列举了相关性：

最后听话照做输出了总结性表格，只是内容总结的不够全面：

总结一下：

Perplexity deep search的优点是生成带参考文献引文的报告。内容的准确度还可以（对比刚上线时候功能似乎有改进），但是不够全面，对于研究型主题来说，深度也不够。好在它末尾的“关联问题”很有启发性，你可以继续深挖，补全信息，比如继续让它深度思考机制问题：

2.2 Grok3 deep search：

虽然我强调了检索英文文献，但是最后用中文输出报告，但是Grok还是检索的中文信息源：

然后换成用英文提问，要求中文回复，这下可以了。

Grok的深度搜索检索了20篇学术文献，并汇总结果用中文呈现给我。对比Perplexity的文献大多来自Pubmed、Semantic Scholar，Grok的文献来源更学术和多样化：包括ScienceDirect、Wiley、Oxford Academic等学术出版机构。

但是它的参考文献没有在报告中引用，不好确认相关性：

Grok表格总结和Perplexity总结的主要脂肪因子种类一样，但其他类目不同。Perlexity比Grok的总结更符合学术论文风格：

2.3 Gemini deep research：

Gemini和OpenAI的深度研究都是智能体驱动的，Gemini的底层模型是1.5 pro，在输出报告之前，都会先出一个内容框架，和你对齐需求，最终生成一份带参考文献来源的3000多字综述报告。

脂肪因子和痴呆的作用机制探讨，Gemini比Perplexity和Grok深入一点，但是对于学术论文的文献综述，还太浅了：

表格总结方面，Gemini总结的是所有炎症相关脂肪因子，而不是和痴呆相关的，对主题的理解有偏差：

2.4 OpenAI deep research：

用时7分钟，调研了35篇文献后，deep research给我输出了一份2万多字的完整综述：

毫无疑问，这份报告的质量是最高的，不是因为字数最多，而是它的报告足够有深度、准确性高、文献是最新的。

表格总结，OpenAI deep research是最全面准确和最有深度的，并且全部带有引文链接：

相比之下，Perplexity和Grok deep search脂肪因子总结不够全面，且分析较浅；Gemini Deep Research总结更全面，但是准确度有待核实，有一些不相关的脂肪因子总结进来。且表格其他项目没有OpenAI总结深入。

总结一下：

Perplexity和Grok的深度搜索工具重在搜索和汇总信息，两者结果呈现相当。Groq搜索来源更广泛，但是文中不带引文，不好核实来源；Perplexity会在文中和文末同时附带参考文献。

Gemini和OpenAI的深度研究相比，Gemini虽然背靠谷歌搜索，但是由于底层大模型1.5 pro不够给力，充其量只能算deep search的升级版，因为一份深度的研究报告除了对信息的检索，还包括对信息的判断、分析和汇总。

OpenAI deep research胜在其底层模型o3，专门针对深度研究的使用场景，采用 “端到端的强化训练”方法，获得了很好的效果。

3 OpenAI deep research特点分析

该智能体从用户的问题出发，直接学习每一步该怎么办：例如应该搜索什么关键词、点击哪个链接、在页面中寻找哪些信息、何时结束搜索开始撰写报告等等。整个决策链条都是通过强化学习一体化学得的。

不需要人为告诉它该搜索什么关键词、点击哪个链接、在页面中寻找哪些信息、什么时候结束搜索开始撰写报告等等。

（OpenAI deep research自主创建关键词，检索、分析、汇总信息的过程）

正因为o3模型在信息判断和分析综合能力的提升，它特别适合学术类文献综述任务。

当然，正如娜姐之前那篇关于OpenAI deep research文章的总结，它也不是没有缺点的：

1 完成一个任务要多次尝试，速度慢，deep research完成一份报告要5-30分钟；且需要较高的算力支持（所以收费贵，plus用户每月才10次）。

2 在文献来源方面，存在单篇文献过度引用和引用不全面的问题。在阐述某一个观点时，找到契合观点的文献可能一整段都会只引用1-2篇文献。所以，deep research出的报告一般都是20-30篇参考文献。即使你要求更多，也不会超出50篇。

你看它的智能体运行过程，会发现，它在找到某一个观点的支撑文献之后，就会进入下一个任务，并不会就这个关键词继续全面检索文献。

但是，不同于Gemini的一次性深度研究报告，OpenAI的deep research可以在同一个对话框继续对话，你可以针对报告中的某一个主题继续拓展，还能添加附件资料让它学习。

4 学员群提问关于deep research的问题汇总：

4.1 怎么样算是调用了deep research，我的是不是被降智了？

Deep research的回复分为两步，第一步对齐需求，第二步开始研究。进度条开启就是成功调用deep research，就会算一次（plus每月10次额度），最后生成的报告一定是带参考文献引用的。

如果没有分两步进行，直接在第一次就回答了你的问题，且没有进度条展示和参考文献。那就是被降智了。概率问题，无解。

4.2 该如何选择运行deep research的大模型？

现在ChatGPT也有五六款模型可以选择了，用哪一个模型进行深度研究效果最好呢？

deep research的回答分为两步：第一步是根据你的提问和你对其需求，这一步可以自由选择模型，默认是4o，还可以选择其他推理模型o1；第二步是启动深度分析，这一步是调用专门训练用于深度研究的o3来完成的，选其他的也没用。

4.3 报告怎么下载？

不同于Gemini的deep research，可以直接生成谷歌文档，以附件形式下载。OpenAI的深度研究报告不能以附件形式下载，只能在报告末尾左下角点“复制”按钮，复制到word文档查看。

并且，参考文献都是附在文中，链接有时候还不能跳转。好在，有标题信息，都能溯源。

好了，以上就是近期四款主流的AI大模型ChatGPT/ Gemini/ Perplexity/ Grok的深度搜索和深度研究功能对比。我们可以根据场景和自己的需求选择不同的深度研究工具，提升科研效率。

目录

Deep-research深度研究ChatGPT-Gemini-Perplexity-Grok哪家最强实测对比分析

Deep research深度研究：ChatGPT/ Gemini/ Perplexity/ Grok哪家最强？（实测对比分析）