在本地运行 Qwen3-30B-A3B 的最佳设置

如果你正在本地运行 Qwen3-30B-A3B,不要凭感觉猜测设置。本指南将根据 Qwen 的官方文档和我们的实践经验,告诉你哪些设置真正有效。

💡

快速摘要

  • Qwen3-30B-A3B 有两种模式:思考模式和非思考模式
  • 每种模式需要不同的生成设置
  • 贪婪解码会破坏思考模式——请避免使用
  • 不要将 <think> 块记录在聊天历史中

Qwen3 带有一个独特的切换开关:enable_thinking。当它开启时,模型会进行“思考”,分解问题,逐步推理,并将其部分输出包裹在 <think>...</think> 块中。当它关闭时,模型会跳过所有这些步骤,直接给出答案。

这改变了你的配置方式。


思考模式 (enable_thinking=True)

此模式适用于推理、数学、编程、逻辑等任何能从逐步生成中受益的任务。

使用这些生成设置


Temperature: 0.6
TopP: 0.95
TopK: 20
Max tokens: 32,768
不要使用贪婪解码

重要性: 思考模式功能强大,但贪婪解码会破坏其输出。它会导致模型重复或卡住。坚持使用采样方法,并为其提供足够的 Token 空间来完成思考过程。


快速摘要

Qwen3 settings

非思考模式 (enable_thinking=False)

此模式用于快速、通用的回复。例如指令遵循、聊天、创意写作等——没有 <think> 块,没有额外的步骤。

使用这些设置


Temperature: 0.7
TopP: 0.8
TopK: 20

非思考模式更快、更高效,因此默认的 Token 长度通常足够了。如果你不处理长篇任务,不必担心这一点。


软切换与硬切换

你可以在提示中使用以下命令动态切换思考模式:


/think # 开启思考模式
/no_think # 关闭思考模式

这仅在代码中设置了 enable_thinking=True 时才有效。如果将其设置为 False,软切换将不起任何作用。


大多数人会忽略的重点

  • 不要将 think 块记录在聊天历史中。 Qwen 建议只保留最终答案。否则,下一次回复会变得冗长且偏离主题。
  • 贪婪解码是一个陷阱。 为了获得一致性而使用它很诱人,但 Qwen3 的输出在没有采样的情况下会变差,有时甚至会损坏。
  • YaRN 并非总是必需。 模型默认支持高达 32k 的上下文。只有当你经常超出这个范围时才需要使用 YaRN。

使用 Jan 在本地运行 Qwen3

在本地运行 Qwen3-30B-A3B 的最简单方法是通过 Jan。

  1. 下载并安装 Jan(在新标签页中打开)
  2. 打开 Jan 并导航到 Jan Hub
  3. 在模型列表中找到 Qwen3Qwen3-30B-A3B
  4. 点击“下载”以获取模型

Jan Hub 中的 Qwen3

你可以在 Jan Hub 中轻松找到 Qwen3 模型

Qwen3 in Jan Hub

下载后,Jan 会处理所有技术设置,因此你可以专注于使用模型而不是配置它。本指南中介绍的设置在通过 Jan 使用 Qwen3 时会自动应用。

如何在 Jan 中自定义 Qwen3-30B-A3B 设置

你也可以随时通过打开 Jan 中的右侧面板并调整参数来根据你的需求自定义这些设置。

Qwen3 settings in Jan app

总结

如果你在本地运行 Qwen3-30B-A3B,请将其视为一个二合一的模型。根据任务切换思考模式,相应地调整生成设置,让它按照其设计的方式工作。

需要帮助?

加入我们的 Discord 社区(在新标签页中打开),获取关于使用 Jan 作为你的离线 ChatGPT 替代方案的支持和技巧。

App screenshots

新机器的灵魂

要了解 Jan 的所有最新研究,请订阅《新机器的灵魂》