在 Jan 中复刻深度研究

像 OpenAI、Gemini 和 Qwen 那样的深度研究功能在 Jan 中尚未完全实现,因此本文重点介绍我们为打造一个可与迄今为止最佳实现相媲美的、结合本地与云端的混合深度研究系统所迈出的初步步伐。

什么是深度研究?

究竟什么是深度研究,它是如何工作的?深度研究是一种通过结合系统的网络搜索与信息综合来生成全面研究报告的方法论。这一过程由 OpenAI 首创,并于 2025 年 2 月发布。

深度研究有两个核心特点:

  • 穷尽式搜索:这种搜索的特点是两种方法并行,即广度搜索以求全面,深度搜索以求深入。
  • 报告生成:这一步将通过穷尽式搜索收集到的所有输入信息进行综合,形成一份全面的报告。此步骤的输入信息可能是上一步收集的原始资料,也可能是根据这些资料生成的摘要。

解读深度研究

如果你曾使用过深度研究功能(无论提供商是谁)来生成一份全面的报告,你可能会对其输出结果感到惊叹。然而,更令人惊叹的是,其搜索和综合信息的底层过程竟是惊人地系统化和可复现的。但不容易复现的是基础模型(通常是一个具备思考能力模型)及其在研究过程中使用工具的能力

深度研究作为一个结构化的流程运作,包含规划、搜索、分析和综合等不同阶段。尽管各提供商的具体实现有所不同,但核心工作流程似乎是相似的,并且一些组织已经采取措施来重现它,例如 LangChain(在新标签页中打开)Hugging Face(在新标签页中打开)。例如,一个简单的流程可能如下所示:

Deep Research Flow Excalidraw

这个流程的各个组成部分凸显了一种结构化的查询处理方法,它将查询路由到具备或不具备思考能力模型,将复杂任务分解为不同阶段,执行并行搜索,并分层综合结果以生成全面的输出。

OpenAI 的深度研究 API 指南(在新标签页中打开)非常概括地阐述了他们实现深度研究的方法,暗示了基础模型和工具使用的重要性,因为其中似乎省略了一些中间步骤。

OpenAI's Deep Research UX Flow

OpenAI 的深度研究功能可能被许多人认为是最好的,但其他平台也紧随其后。以下是其他参与者如何实现深度研究的简要调查:

平台关键特性使用的来源时长(分钟)导出选项深度研究使用
OpenAI澄清式提问10–3010–15PDF、Docx、纯文本付费
Grok 的 DeeperSearch能够访问整个 Twitter70–1005–10能够指定格式(PDF / Markdown)免费
Claude广度 + 深度搜索100+5–10PDF、Markdown、Artifact付费
Gemini可编辑的规划50+10–20导出到 Google Docs免费
Perplexity能够指定来源50–1003–5PDF、Markdown、Docx、Perplexity 页面付费和有限免费
Kimi交互式综合50–10030–60+PDF、交互式网站免费

在我们的测试中,我们使用了以下提示词来评估上述提供商生成的报告质量。你可以在这里(在新标签页中打开)参考生成的报告。


生成一份关于过去一周人工智能发展状况的综合报告。请包含所有
来自不同来源的新模型发布和值得注意的架构改进。

Google 生成的报告(在新标签页中打开)最为详尽,长达 23 页,读起来像一份专业的情报简报。报告以执行摘要开篇,系统地对发展动态进行分类,并提供了前瞻性的战略见解——将 OpenAI 的开源权重发布与更广泛的民主化趋势联系起来,并将基础设施投资与竞争定位联系起来。

OpenAI(在新标签页中打开)生成了引用最多的输出,10 页内有 134 处引用(尽管其中大部分来自同一来源)。

Perplexity(在新标签页中打开)提供了一份最具操作性的 6 页报告,在保持可读性的同时最大化了信息密度。尽管篇幅最短,但它捕捉了所有主要发展动态,并为决策提供了足够的背景信息。

Claude(在新标签页中打开)生成了一份全面的分析报告,有趣的是它忽略了时间限制,涵盖了 2025 年 1 月至 8 月的 8 个月期间,而不是所要求的一周(2025 年 7 月 31 日至 8 月 7 日)。Claude 没有罗列近期事件,而是追溯了数月来趋势的演变。

Grok(在新标签页中打开)生成了一份结构良好但相对肤浅的 5 页学术风格报告,读起来更像是事件目录而非战略分析。

Kimi(在新标签页中打开)生成了一份长达 13 页的综合报告,组织系统,涵盖了行业发展、研究突破和政策变化,但值得注意的是,尽管声称使用了 50-100 个来源,其大部分内容都缺乏适当的引文。

理解搜索策略

Claude 的研究模式(在新标签页中打开)中,一个*分类器*被用来确定用户查询是*广度优先*还是*深度优先*。这导致了用于进行研究的流程的定制化。例如,一个复杂的*广度优先*查询可能会启动*子代理*来并行研究用户查询的各个部分。相反,一个*深度优先*查询可能会启动单个代理,以更集中的方式研究整个查询。

以下是该功能在 Claude 桌面版中的实际截图: Claude 代理桌面版 Claude 报告可视化工具

用 Jan 复刻深度研究结果

在测试和观察了不同平台上的深度研究功能后,我们思考,如何在 Jan 中复刻这一功能?特别是,我们如何能通过结合本地和云端模型的混合方法来复刻它,同时保持您的数据本地化?

💡

此实验使用了最新版本的 Jan v0.6.7,但理论上可以在任何包含模型上下文协议(Model Context Protocol)的版本中复刻(>v0.6.3)。

关键在于:助手 + 工具

在 Jan 中进行深度研究可以通过结合自定义助手(在新标签页中打开)MCP 搜索工具(在新标签页中打开)来实现。这种组合使得任何模型——无论是本地模型还是云端模型——都能遵循系统的研究工作流程,生成与其他提供商类似的报告,但目前存在一些可见的局限性。

以下是使用的助手提示词:


你是一名研究分析师。今天是 2025 年 8 月 7 日。请严格按照以下流程操作:
至少进行 5-10 次搜索。搜索次数越多,奖励越高。
- 每个搜索查询必须是唯一的 - 不要重复之前的搜索
- 从不同角度搜索:统计数据、专家意见、案例研究、最新新闻、行业报告
- 使用 scrape 工具读取搜索结果中的全文
- 使用 google_search 工具从页面中提取元数据
写作阶段(研究完成后进行)
撰写一份全面的报告,包含:
- 包含关键发现的执行摘要
- 每个论点都附有引用的、基于证据的分析
- 附有理由的可行性建议
- 报告末尾附上来源链接

在这里,我们利用模型上下文协议(MCP)为模型提供搜索能力。MCP 是一种开放标准,用于将 AI 助手连接到数据所在的系统,充当通用连接器,标准化 AI 应用程序与外部工具和数据源的集成方式。在此示例中,我们使用了 Serper,这是一个提供 MCP 服务器实现的网页搜索 API,它提供两个主要工具:google_search 用于执行网页搜索,以及 scrape 用于从网页中提取内容,并保留文档结构和元数据。

我们测试了什么

对于我们的研究查询(与我们用来测试不同平台的查询相同),我们使用了Jan-Nano(4B 本地模型)(在新标签页中打开)、GPT-4o 和 o3(通过 API)并使用了相同的提示词。目标是:看看我们能多接近不同商业深度研究产品的质量。

性能发现

模型处理时间找到的来源数搜索查询次数生成的 Token 数与商业深度研究产品的输出质量对比
Jan-Nano(本地)3 分钟中等71,112效果不错,但深度明显不足
GPT-4o1 分钟最少11660速度快但来源覆盖范围有限
o33 分钟最多241,728三者中最好,但仍低于商业产品质量

现实情况:

  • 速度 vs 来源:GPT-4o 优先考虑速度而非彻底性,而 o3 则花时间收集更全面的来源。
  • 本地 vs 云端:Jan-Nano 的处理时间与 o3 相当,但具有完全数据隐私的优势。
  • 质量差距:所有三个模型都生成了不错的研究报告,但没有一个能达到 OpenAI 或 Claude 等专用深度研究工具的深度和全面性。
  • 足够好因素:虽然无法与商业产品质量相媲美,但输出结果是可靠的近似品,足以满足许多研究需求。

结论

这是在 Jan 中创建一个顶级的混合深度研究实现路线图上的初步探索。虽然我们目前的方法需要手动设置,但目标是实现开箱即用的原生集成。我们将继续改进,直到这个工具在 Jan 中原生发布。

App screenshots

新机器的灵魂

要了解 Jan 的所有最新研究,请订阅《新机器的灵魂》