Jan v1 深度研究版:系统提示词与设置指南

这份指南将把您的 Jan-V1 从一个基础的问答工具转变为一个全面的研究助手。读完本指南后,您将拥有一个自定义配置的模型,它能生成带有恰当引用的详细报告,而不仅仅是浅尝辄止的答案。

Jan-V1 research comparison

要点

  • Jan-V1 包含一个默认的聊天模板,该模板自动嵌入其 Hugging Face 配置中
  • 使用默认提示词处理需要简短、准确答案的日常任务
  • 使用研究提示词进行报告生成和全面的研究任务
  • 提问时间敏感的问题时,请务必指明日期(例如,“2023 年世界人口是多少?”)

简介

Jan-V1(在新标签页中打开)Jan 系列中的首个版本,专为在 Jan 应用(在新标签页中打开) 内进行智能体推理和问题解决而设计。基于我们的 Lucy(在新标签页中打开) 模型,Jan-v1 通过模型扩展实现了性能提升。

Jan-v1 使用 Qwen3-4B-thinking(在新标签页中打开) 模型来提供增强的推理能力和工具使用。这种架构在复杂的智能体任务上能提供更好的性能。

本指南探讨了如何通过从默认提示词切换到专门的研究系统提示词来优化 Jan-V1,以适应研究密集型任务。通过我们的内部测试,我们发现在使用针对研究优化的系统提示词后,报告生成质量、分析深度和引用准确性方面都有了显著提高。

研究发现

Jan-V1 在其默认模板中内置了一个搜索和抓取提示词。这个提示词针对 SimpleQA 风格的问题和需要简短、准确回答的日常任务进行了优化。然而,我们的测试显示,当 tasked with 生成全面的长篇报告或进行深入研究时,模型在使用默认提示词时的表现并不稳定。

我们使用一个新的、针对研究密集型任务优化的系统提示词对 Jan-V1 进行了实验,并发现其报告生成能力有了显著提升。与默认提示词相比,研究提示词能生成更全面、结构更清晰、引用更规范、分析更深入的报告。


默认系统提示词与研究提示词在报告生成任务上的输出对比

示例 1:长上下文基准测试对比

用户请求

对比 2024-2025 年发布的所有针对大语言模型长上下文性能的基准测试

默认提示词响应

我通过全面的信息抓取和搜索结果,分析了多个 2024-2025 年发布的长上下文大语言模型性能基准测试。以下是主要基准测试的结构化对比:

1. Loong (2024)

  • 目的:评估在真实多文档场景下的长上下文理解能力,其中所有文档都与答案相关(没有任何文档可以被忽略)
  • 主要功能:
    • 四种任务类型:聚光灯定位、比较、聚类、推理链
    • 上下文长度:4 组,从 1 万到 25 万个 token
    • 文档来源:财务报告、法律案例和学术论文(2024年)
  • 显著发现:
    • 顶级模型(如 Gemini-1.5-pro)在超长上下文处理上仍有困难(性能在 >10 万 token 时显著下降)
    • 对于这些任务,RAG 相较于原生模型几乎没有改善
    • 人类在最难任务上的表现:15 分钟时限内准确率为 53.7%

2. Ada-LEval (2024)

  • 目的:一个长度可适应的基准测试,用于评估大语言模型在不同上下文长度下的长上下文能力
  • 主要功能:
    • 两个子集:TSort(文本排序)和 BestAnswer
    • 支持高达 12.8 万 token 的上下文长度
    • 设计用于测试模型在“超长”设置(10 万+ token)下的表现
  • 显著发现:
    • 揭示了模型在极端长度下的能力存在显著差距
    • 显示即使是顶级模型(如 GPT-4o)在超长上下文中也存在局限性

3. LongBench v2 (2025)

  • 目的:评估大语言模型处理需要跨真实世界多任务深度理解的长上下文问题的能力
  • 主要功能:
    • 503 道多项选择题,涵盖 6 个类别
    • 上下文长度:8千 - 2百万字(大部分在 12.8 万以内)
    • 人类专家验证(最难问题准确率 53.7%)
  • 显著发现:
    • 表现最佳的模型(o1-preview):准确率 57.7%(对比人类基准 53.7%)
    • 在更长上下文(如 12.8 万+ token)下性能明显下降
    • 排行榜显示,像 Gemini-2.5-Pro 和 DeepSeek-R1 这样的模型表现优于其他模型

4. Vellum AI LLM 排行榜 (2025)

  • 目的:对大语言模型的能力、价格和上下文窗口大小进行比较基准测试
  • 主要功能:
    • 包括 2024-2025 年的模型(例如 GPT-4o、Gemini-2.5-Pro、Qwen3-235B)
    • 关注上下文窗口大小和实际性能等实用指标
  • 显著发现:
    • 突显了声称的上下文窗口大小与实际性能之间的差距
    • 显示大多数模型(即使是那些拥有“1M”上下文窗口的模型)在超过 12.8 万 token 后性能也会下降

跨基准测试对比摘要

基准测试发布年份关键创新上下文长度范围
Loong2024无文档可忽略的多文档问答1万 - 25万 tokens
Ada-LEval2024长度自适应任务子集最高 12.8 万 tokens
LongBench v22025真实世界多任务评估8千 - 2百万字
Vellum 排行榜2025上下文窗口与实际性能对比可变

所有基准测试的关键洞见

  1. 规模化下的性能下降:所有基准测试都显示,在超过 10-12.8 万个 token 后,性能会显著下降,这表明当前模型并未完全利用其声称的上下文窗口
  2. 现实性差距:像 Loong 和 LongBench v2 这样的基准测试揭示,模型在处理现实的多文档场景(证据分散在多个文档中)方面,比处理合成基准测试时更具挑战性
  3. RAG 的局限性:RAG 实现在这些任务中带来的好处微乎其微(Loong 的结果表明 RAG 常常无法检索到所有相关文档)
  4. 模型差异性:更大参数的模型(例如 235B+)表现更好,但在超长上下文中与人类能力相比仍有差距

这个对比表明,尽管 2024-2025 年的基准测试在长上下文评估方面取得了进展,但在理论上的上下文窗口能力与在真实世界多文档场景中的实际性能之间仍存在显著差距。

研究提示词响应

长上下文大语言模型基准测试(2024-2025)对比分析

概述

本报告对 2024-2025 年间发布的长上下文大语言模型(LLM)基准测试进行了全面对比。长上下文能力已成为大型语言模型(LLM)之间的关键差异化因素,特别是在需要处理大量文档、跨长篇输入进行多步推理以及复杂信息整合的应用中。随着模型上下文窗口从传统的 128K 扩展到 2M+ token,对严格、标准化的评估框架的需求也日益迫切。

识别出的关键基准测试

以下四个基准测试代表了 2024-2025 年最全面、引用最广泛的长上下文评估框架:

基准测试发布日期上下文长度范围主要关注点
LongBench v22025 年 5 月8千 - 2百万字真实世界长上下文理解
MIR-Bench2025 年 2 月可变(最高 1 万+ shots)多示例上下文归纳推理
GSM-∞2025 年 2 月0 - 1600万+ tokens无限可扩展的推理复杂度
Vellum AI 排行榜 20252025 年 4 月最高 2M tokens跨基准模型对比

主要发现与启示

基于对这些基准的全面分析,得出以下几个重要发现:

  1. S 型性能模式:在所有基准测试(MIR-Bench, GSM-∞)中,随着推理复杂度的增加,LLM 的性能呈现出一致的 S 型下降趋势。这表明在扩展 LLM 以处理高度复杂的长上下文任务方面存在根本性限制。

  2. 上下文长度 ≠ 性能:虽然在某些基准(Vellum)中,更长的上下文窗口与更好的性能相关,但这种关系并非线性。GSM-∞ 表明,超过某一点后,增加更多上下文并不能成比例地提升性能。

  3. 思维链(CoT)的收益递减:MIR-Bench 的研究结果表明,思维链技术在多示例归纳推理任务中常常会降低性能,这与其在较简单任务中的益处相反。

  4. 噪声鲁棒性至关重要:GSM-∞ 证明了模型在极长上下文中难以区分相关信息和噪声,这凸显了真实世界应用中的一个关键挑战。

  5. 真实世界相关性:LongBench v2 显示,模型在真实世界任务上的表现明显优于合成任务,这表明当前的基准测试可能无法完全捕捉实际的长上下文能力。

结论

2024-2025 年长上下文 LLM 基准测试的格局既展现了进步,也暴露了持续存在的挑战。尽管像 LongBench v2、MIR-Bench、GSM-∞ 和 Vellum 排行榜这样的基准提供了日益复杂的评估长上下文能力的方法,但在理解 LLM 如何扩展以适应高度复杂、真实世界的任务方面仍存在显著差距。未来的工作应侧重于:

  1. 开发能更好地代表真实世界长上下文挑战全貌的基准测试
  2. 创建既能衡量上下文长度又能衡量信息密度的评估框架
  3. 建立评估噪声鲁棒性和归纳推理能力的标准化方法

这些基准共同为长上下文 LLM 的持续发展奠定了基础,其研究结果将指导研究人员和实践者进行更有效的模型设计和评估。

参考文献

[1] Bai, Y., Tu, S., Zhang, J., et al. (2025). LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks. https://longbench2.github.io/(在新标签页中打开)

[2] Yan, K., Chen, Z., & Tian, Y. (2025). MIR-Bench: Benchmarking LLM's Long-Context Intelligence via Many-Shot In-Context Inductive Reasoning. arXiv preprint arXiv:2502.09933.

[3] Liu, H., Chen, Z., & Tian, Y. (2025). GSM-∞: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity? arXiv preprint arXiv:2502.05252.

[4] Vellum AI. (2025). LLM Leaderboard 2025. https://www.vellum.ai/llm-leaderboard(在新标签页中打开)

示例 2:AI 模型对比

用户请求

解释不同 AI 模型之间的区别:1) Jan-Nano 2) Lucy 3) Jan-V1

默认提示词响应

根据现有信息,Jan-Nano、Lucy 和 Jan-V1 之间的差异可总结如下:

  1. Jan-Nano

    • 一个由 Menlo Research 开发的 40 亿参数模型,用于深度研究任务。
    • 在 SimpleQA 基准测试中达到 83.2% 的准确率(根据 arXiv 技术报告)。
    • 针对本地部署进行了优化,并配备了 MCP(多通道协议)等工具进行网络搜索。
    • 有诸如 Jan-Nano-128k 的变体,该变体具有原生的 128k 上下文窗口,以增强研究能力。
  2. Lucy

    • 一个由 Menlo Research 创建的 17 亿参数模型,是一个轻量级、适合移动设备的变体。
    • 专为智能体网络搜索和轻量级浏览而设计(例如,使用 Serper 和 Crawl4AI 等工具)。
    • 在 SimpleQA 基准测试中,使用 MCP 的准确率为 78.3%,略低于 Jan-Nano(80.7%),但针对移动/CPU 效率进行了优化。
    • 基于 Qwen3-1.7B 构建,采用 RLVR(带价值函数的强化学习)和“机器生成的任务向量”来增强推理能力。
  3. Jan-V1

    • 一个来自 Menlo Research Jan 系列40 亿参数模型,明确基于 Lucy 构建。
    • 在 SimpleQA 基准测试中达到 91.1% 的准确率,比 Jan-Nano 高出约 8 个百分点。
    • 专注于通过增强的工具集成(例如,用于复杂任务)进行智能体推理和问题解决
    • 旨在与 Jan 应用无缝集成,以实现本地、高性能的研究工作流。

主要区别:

  • 规模与用例:Lucy 是最小的(1.7B)且针对移动设备优化;Jan-Nano 和 Jan-V1 均为 4B,但 Jan-V1 是 Lucy 的放大版,以获得更高性能。
  • 性能:在 SimpleQA 基准测试中,Jan-V1 > Jan-Nano > Lucy(91.1% → 83.2% → 78.3%)。
  • 技术方法:Lucy 使用 RLVR 和任务向量以提高效率;Jan-V1 继承了这一点,但对其进行了扩展以获得更好的准确性和工具利用率。
  • 上下文窗口:Jan-Nano-128k 提供了比基础版 Jan-Nano 更大的上下文窗口(128k),而 Lucy 则是为移动设备的限制而设计的。

这一层级关系反映了 Menlo Research 从轻量级移动模型(Lucy)到可扩展研究工具(Jan-Nano 和 Jan-V1)的发展历程。

研究提示词响应

Jan-Nano、Lucy 和 Jan-V1 AI 模型之间的差异:对比分析

概述

本报告详细对比了三个 AI 语言模型:Jan-NanoLucyJan-V1。这三者都是更广泛的 Jan AI 生态系统的一部分,但它们服务于不同的目的,并具有不同的技术规格。该分析综合了权威来源的信息,以阐明它们的架构、能力、预期用例和相互关系。

主要发现

1. Jan-Nano

  • 参数:40 亿 (4B)
  • 主要目的:深度研究任务
  • 显著特点:其增强版(Jan-Nano 128k)拥有原生 128k 上下文窗口

2. Lucy

  • 参数:17 亿 (1.7B)
  • 主要目的:移动设备上的搜索和轻量级浏览任务
  • 显著特点:设计为用于搜索和浏览的“玩具模型”,资源需求极低

3. Jan-V1

  • 参数:40 亿 (4B)
  • 主要目的:通过网络搜索和工具调用进行智能体推理和问题解决
  • 显著特点:Perplexity Pro 的开源替代品,SimpleQA 准确率达 91%

技术与功能差异

模型参数数量专长领域关键差异点
Jan-Nano4B深度研究任务128k 上下文窗口(增强版)
Lucy1.7B移动搜索和轻量级浏览超低资源占用;“玩具模型”设计
Jan-V14B智能体推理与网络搜索基于 Lucy 构建;91% SimpleQA 准确率;开源

性能与上下文能力

  • Jan-Nano 的 128k 上下文窗口使其能够处理比标准模型更长的文档或更复杂的查询。
  • Lucy 的 1.7B 大小使其比 Jan-Nano 或 Jan-V1 轻量得多,从而能够在移动设备上部署。
  • Jan-V1 在 SimpleQA 基准测试中 91% 的准确率表明其在结构化知识检索任务中表现出色。

参考文献

  1. Jan-Nano: Hugging Face 上的 Menlo/Jan-nano(在新标签页中打开)
  2. Lucy: Reddit 上关于 Lucy 作为 1.7B 模型的讨论(在新标签页中打开)
  3. Jan-V1: Hugging Face 上的 Jan-v1(在新标签页中打开)
  4. Jan-V1: Jan 在 X 上关于 Jan-v1 的公告(在新标签页中打开)
  5. Jan-V1: Reddit 上 Jan-v1 与 Qwen3 和 Perplexity 的对比(在新标签页中打开)

示例 3:软件对比

用户请求:“对比 Signal, Telegram, WhatsApp 的安全消息功能”

默认提示词响应

安全概览

  • Signal: 默认端到端加密,开源
  • Telegram: 仅在私密聊天中端到端加密
  • WhatsApp: 端到端加密,但 Meta 收集元数据
  • 基础隐私对比
  • 200 字,单篇引用

优点:建议清晰
缺点:分析深度有限

研究提示词响应

全面安全分析

  • 包含方法论和详细对比表的完整报告
  • 引用学术研究(IACR 2023 研究)
  • 包含泄露历史的隐私实践分析
  • 用户体验和实际考量
  • 按用例分类的最终建议表
  • 1000+ 字,5 篇权威参考文献

优点:基于证据的分析,学术严谨
结果:专业的安全评估格式


如何配合 Jan-V1 使用研究提示词

Jan-V1 带有一个嵌入式聊天模板(在新标签页中打开),它会自动应用一个默认的系统提示词。默认情况下,用户会自动启用此聊天模板。为了针对研究任务进行优化,您需要在 Jan 应用设置中扩展此默认提示词。

第 1 步:访问助手设置

导航到 Jan 应用,并点击屏幕左上角的助手设置图标 ⚙️。Jan 应用:如何打开助手设置

当您打开助手设置时,您会注意到系统提示词字段显示为空。这是预期行为,因为 Jan-V1 的默认系统提示词是直接嵌入在聊天模板(在新标签页中打开)中的,而不是显示在 Jan 应用的用户界面里。空字段并不意味着没有系统提示词——只是它在界面中不可见。

Jan app assistant settings interface showing empty system prompt field interface

第 2 步:理解默认系统提示词

在切换到研究提示词之前,了解默认的 Jan-V1 系统提示词提供了什么会很有帮助:


在此环境中,您可以访问一组工具来回答用户的问题。每条消息可以使用一个工具,并且您将在用户的响应中收到该工具使用的结果。您可以逐步使用工具来完成给定的任务,每次工具的使用都基于前一次工具使用的结果。
工具使用规则
以下是您在解决任务时应始终遵循的规则:
1. 始终为工具使用正确的参数。切勿使用变量名作为操作参数,应使用实际值。
2. 仅在需要时调用工具:如果您不需要信息,请不要调用搜索代理,尝试自己解决任务。
3. 如果不需要调用工具,直接回答问题即可。
4. 切勿重复使用与之前完全相同的参数调用工具。
5. 对于工具使用,请确保使用如上例所示的 XML 标签格式。不要使用任何其他格式。
现在开始!如果您正确地解决了任务,您将获得 1,000,000 美元的奖励。

第 3 步:应用研究提示词

要切换到为研究优化的提示词,请将默认的系统提示词替换为以下研究模板:


您是一个**研究智能体**,旨在对用户的问题进行**深入、有条不紊的调查**。您的目标是利用**权威来源**,生成一份**全面、结构清晰、引用准确的报告**。您将使用可用工具收集详细信息,进行分析,并综合成最终的答复。
### **工具使用规则(严格执行)**
1. **使用正确的参数**:始终使用实际值——绝不传递变量名(例如,使用 "Paris" 而不是 {city})。
2. **仅在必要时调用工具**:如果您可以根据之前的结果回答,就直接回答——**不要进行不必要的搜索**。然而,报告中所有引用的 **url 都必须被访问**,并且报告中提到的所有**实体(人物、组织、地点等)都必须被搜索/访问**。
3. **当达到全面覆盖时终止**:只有当调查已对主题实现**全面覆盖**时,才结束工具使用并提供最终答复。这意味着不仅要收集足够的数据来回答问题,还要确保所有关键方面——背景、子主题和细微之处——都得到了充分的阐述。一旦分析完成,且进一步使用工具不会增加有意义的价值,**立即停止搜索并提供直接、完整的答复**。
4. **访问所有网址**:报告中所有引用的 **url 都必须被访问**,并且报告中提到的所有**实体都必须被浏览**。
5. **避免重复**:切勿使用相同的参数重复调用同一个工具。如果您检测到一个循环(例如,重复相同的搜索),**停止并根据现有数据回答**。
6. **跟踪进度**:将每次工具调用视为计划中的一个步骤。每次得到结果后,问自己:“我已经全面覆盖了吗?”以及“下一步是什么?”
7. **限制工具使用**:如果您已经多次使用某个工具而没有进展,**重新评估并尝试得出结论**——不要无限期地继续下去。
8. **使用正确的格式**:请确保将工具调用包裹在如示例所示的 XML 标签中。
### 输出格式要求
最后,**只**用一份**独立的 Markdown 报告**进行回复。最终输出中不要包含工具调用或内部推理过程。
示例结构:
```markdown
# [清晰的标题]
## 概述
...
## 主要发现
- 发现 1 [1]
- 发现 2 [2]
## 详细分析
...
## 参考文献
[1] https://example.com/source1
[2] https://example.com/study2
...
目标
以深度、精确和学术严谨的方式回答。您将因以下方面获得奖励:
研究的彻底性
在可用时使用高质量来源(.gov、.edu、同行评审、信誉良好的媒体)
清晰、结构化的报告
高效完成且无冗余的路径
现在开始!如果您正确地解决了任务,您将获得 1,000,000 美元的奖励。

如果设置正确,您应该会在 Jan 屏幕上看到这个。jan v1 deep_research_prompt

保存助手设置,即可享受 Jan-V1 增强的报告生成能力。

(可选)优化时间敏感查询

Jan-V1 有时会根据其训练年份错误地假定当前日期。这可以通过在您的系统提示词中附加当前日期来轻松解决:


您是一个**研究智能体**,旨在...
....
当前年份:2025
现在开始!如果您正确地解决了任务,您将获得 1,000,000 美元的奖励。

或者,您可以直接在问题中添加日期:

示例

  • 不要问:“世界人口是多少?”
  • 应使用:“2025 年的世界人口是多少?”

高级用法:自定义提示词模板

您可以通过打开 Jan 模型选择中心的模型设置图标 ⚙️ 来自定义聊天模板。请不要将其与屏幕左上角的助手设置 ⚙️ 混淆。

jan_open_prompt_template

向下滚动,您会看到可以被覆盖的 Jinja 模板。我们建议尝试使用这个原始聊天模板(在新标签页中打开)来完全消除默认系统提示词的影响。

我们观察到,当使用此原始聊天模板覆盖默认聊天模板时,每个查询的工具调用次数减少了,因此仅建议高级用户使用。jan_prompt_template_settings