目录

Deep-research深度研究ChatGPT-Gemini-Perplexity-Grok哪家最强实测对比分析

Deep research深度研究:ChatGPT/ Gemini/ Perplexity/ Grok哪家最强?(实测对比分析)

目前推出深度研究和深度检索的AI大模型有四家:

OpenAI和Gemini 的deep research,以及Perplexity 和Grok的deep search,都能生成带参考文献引用的主题报告。

致力于“几分钟之内生成一份完整的主题调研报告,解决人力几小时甚至几天的工作量。大大提升研究效率。”

本文娜姐会针对一个文献综述主题,来测试对比一下这四家的实际生成效果。

首先,这几款工具技术参数和价格对比如下:

https://i-blog.csdnimg.cn/img_convert/2c0d023a5a8ed36afdec03e03c98fedf.png

2 各家效果测试对比:

下面娜姐以一篇综述主题“炎症相关脂肪因子与痴呆的研究进展”为例,详细对比一下各家的输出效果:

我要求按照如下框架内容展开,并包含一个总结性表格:

1 炎症相关脂肪因子的具体分类;2 脂肪因子在神经炎症中的作用机制;3 脂肪因子与不同类型痴呆的关系;4 临床研究和动物实验的最新进展;5 潜在的治疗靶点及干预策略

2.1 Perplexity:

为防止用中文对话,Perplexity查找的都是中文信息源,我强调要查找英文文献,并用中文撰写综述,Perplexity听懂了:

https://i-blog.csdnimg.cn/img_convert/b1d555853a820b4c887ce3a8d0f83be5.png

但是,对于不同脂肪因子与痴呆症的作用机制,并没有深入讨论,只列举了相关性:

https://i-blog.csdnimg.cn/img_convert/4442b8a75ea21a19af9ae1a3c846e53f.png

最后听话照做输出了总结性表格,只是内容总结的不够全面:

https://i-blog.csdnimg.cn/img_convert/62304476e56f117e464c360ec4d31055.png

总结一下:

Perplexity deep search的优点是生成带参考文献引文的报告。内容的准确度还可以(对比刚上线时候功能似乎有改进),但是不够全面,对于研究型主题来说,深度也不够。好在它末尾的“关联问题”很有启发性,你可以继续深挖,补全信息,比如继续让它深度思考机制问题:

https://i-blog.csdnimg.cn/img_convert/46f7091abf7b78a8ddc651543e21d649.png

2.2 Grok3 deep search:

虽然我强调了检索英文文献,但是最后用中文输出报告,但是Grok还是检索的中文信息源:

https://i-blog.csdnimg.cn/img_convert/75127c1457eccdb59f5b97b6202df0b8.png

然后换成用英文提问,要求中文回复,这下可以了。

Grok的深度搜索检索了20篇学术文献,并汇总结果用中文呈现给我。对比Perplexity的文献大多来自Pubmed、Semantic Scholar,Grok的文献来源更学术和多样化:包括ScienceDirect、Wiley、Oxford Academic等学术出版机构。

但是它的参考文献没有在报告中引用,不好确认相关性:

https://i-blog.csdnimg.cn/img_convert/47d74a1dadf0c73e4f50c4a03ecdba18.png

Grok表格总结和Perplexity总结的主要脂肪因子种类一样,但其他类目不同。Perlexity比Grok的总结更符合学术论文风格:

https://i-blog.csdnimg.cn/img_convert/7f257a468d233f1da58036acea22ab7e.png

2.3 Gemini deep research:

Gemini和OpenAI的深度研究都是智能体驱动的,Gemini的底层模型是1.5 pro,在输出报告之前,都会先出一个内容框架,和你对齐需求,最终生成一份带参考文献来源的3000多字综述报告。

https://i-blog.csdnimg.cn/img_convert/c6c91c9f9f340038d31569c4983cdc40.png

https://i-blog.csdnimg.cn/img_convert/b60570d2c3c16dc601df796f1dbcbb96.png

脂肪因子和痴呆的作用机制探讨,Gemini比Perplexity和Grok深入一点,但是对于学术论文的文献综述,还太浅了:

https://i-blog.csdnimg.cn/img_convert/480cb9e4cd1922270b239d6fe5e2bf0c.png

表格总结方面,Gemini总结的是所有炎症相关脂肪因子,而不是和痴呆相关的,对主题的理解有偏差:

https://i-blog.csdnimg.cn/img_convert/45398e7bb48cb0ee737a016a33328aef.png

2.4 OpenAI deep research:

用时7分钟,调研了35篇文献后,deep research给我输出了一份2万多字的完整综述:

https://i-blog.csdnimg.cn/img_convert/1f00f1612488d06b0a648a6ccc995f90.png

https://i-blog.csdnimg.cn/img_convert/2ac04b30cc996ba09e8310827a0f1b33.png

https://i-blog.csdnimg.cn/img_convert/7ed3968201039466173af34cb4946799.png

毫无疑问,这份报告的质量是最高的,不是因为字数最多,而是它的报告足够有深度、准确性高、文献是最新的。

表格总结,OpenAI deep research是最全面准确和最有深度的,并且全部带有引文链接:

https://i-blog.csdnimg.cn/img_convert/58ce33b4840cfa4a98c0b95defe0e69f.png

https://i-blog.csdnimg.cn/img_convert/5f5da47335124fa9339278a2b60cf418.png

相比之下,Perplexity和Grok deep search脂肪因子总结不够全面,且分析较浅;Gemini Deep Research总结更全面,但是准确度有待核实,有一些不相关的脂肪因子总结进来。且表格其他项目没有OpenAI总结深入。

总结一下:

Perplexity和Grok的深度搜索工具重在搜索和汇总信息,两者结果呈现相当。Groq搜索来源更广泛,但是文中不带引文,不好核实来源;Perplexity会在文中和文末同时附带参考文献。

Gemini和OpenAI的深度研究相比,Gemini虽然背靠谷歌搜索,但是由于底层大模型1.5 pro不够给力,充其量只能算deep search的升级版,因为一份深度的研究报告除了对信息的检索,还包括对信息的判断、分析和汇总。

OpenAI deep research胜在其底层模型o3,专门针对深度研究的使用场景,采用 “端到端的强化训练”方法,获得了很好的效果。

3 OpenAI deep research特点分析

该智能体从用户的问题出发,直接学习每一步该怎么办:例如应该搜索什么关键词、点击哪个链接、在页面中寻找哪些信息、何时结束搜索开始撰写报告等等。整个决策链条都是通过强化学习一体化学得的。

不需要人为告诉它该搜索什么关键词、点击哪个链接、在页面中寻找哪些信息、什么时候结束搜索开始撰写报告等等 。

https://i-blog.csdnimg.cn/img_convert/97ccdde7c1c7e60ab8baec0ef45a93c1.png

(OpenAI deep research自主创建关键词,检索、分析、汇总信息的过程)

正因为o3模型在信息判断和分析综合能力的提升,它特别适合学术类文献综述任务。

当然,正如娜姐之前那篇关于OpenAI deep research文章的总结,它也不是没有缺点的:

1 完成一个任务要多次尝试,速度慢,deep research完成一份报告要5-30分钟;且需要较高的算力支持(所以收费贵,plus用户每月才10次)。

2 在文献来源方面,存在单篇文献过度引用和引用不全面的问题。在阐述某一个观点时,找到契合观点的文献可能一整段都会只引用1-2篇文献。所以,deep research出的报告一般都是20-30篇参考文献。即使你要求更多,也不会超出50篇。

你看它的智能体运行过程,会发现,它在找到某一个观点的支撑文献之后,就会进入下一个任务,并不会就这个关键词继续全面检索文献。

但是,不同于Gemini的一次性深度研究报告,OpenAI的deep research可以在同一个对话框继续对话,你可以针对报告中的某一个主题继续拓展,还能添加附件资料让它学习。

https://i-blog.csdnimg.cn/img_convert/4eddcf38e5ca0a1ba8b0c690d4076be3.png

https://i-blog.csdnimg.cn/img_convert/5c837bede87da651e70187854ffc55c1.png

4 学员群提问关于deep research的问题汇总:

4.1 怎么样算是调用了deep research,我的是不是被降智了?

Deep research的回复分为两步,第一步对齐需求,第二步开始研究。进度条开启就是成功调用deep research,就会算一次(plus每月10次额度),最后生成的报告一定是带参考文献引用的。

如果没有分两步进行,直接在第一次就回答了你的问题,且没有进度条展示和参考文献。那就是被降智了。概率问题,无解。

4.2 该如何选择运行deep research的大模型?

现在ChatGPT也有五六款模型可以选择了,用哪一个模型进行深度研究效果最好呢?

deep research的回答分为两步:第一步是根据你的提问和你对其需求,这一步可以自由选择模型,默认是4o,还可以选择其他推理模型o1;第二步是启动深度分析,这一步是调用专门训练用于深度研究的o3来完成的,选其他的也没用。

4.3 报告怎么下载?

不同于Gemini的deep research,可以直接生成谷歌文档,以附件形式下载。OpenAI的深度研究报告不能以附件形式下载,只能在报告末尾左下角点“复制”按钮,复制到word文档查看。

https://i-blog.csdnimg.cn/img_convert/1acfedff404c654ed4ec0ea0983a3573.png

并且,参考文献都是附在文中,链接有时候还不能跳转。好在,有标题信息,都能溯源。

好了,以上就是近期四款主流的AI大模型ChatGPT/ Gemini/ Perplexity/ Grok的深度搜索和深度研究功能对比。我们可以根据场景和自己的需求选择不同的深度研究工具,提升科研效率。