Qwen3:大型语言模型的新里程碑
在人工智能飞速发展的今天,大型语言模型不断推陈出新,为各个领域带来了前所未有的变革。Qwen3作为Qwen系列大型语言模型的最新成员,凭借其卓越的性能和丰富的功能,成为了众多开发者和企业关注的焦点。本文将为您详细介绍Qwen3,包括它是什么、有哪些特点、能做什么、官网信息、免费在线体验方式、模型及价格、常见问题、如何部署到本地、硬件要求以及使用教程资源等方面。
一、Qwen3是什么
Qwen3 是Qwen系列大型语言模型的最新力作。该系列推出了多个不同参数规模的模型,涵盖了开源的两个MoE模型(Qwen3 - 235B - A22B和Qwen3 - 30B - A3B)以及六个Dense模型(Qwen3 - 32B、Qwen3 - 14B、Qwen3 - 8B、Qwen3 - 4B、Qwen3 - 1.7B和Qwen3 - 0.6B)。这些模型均在Apache 2.0许可下开源(Github开源地址),这意味着开发者可以免费下载、使用这些模型,还能将其用于开发商业产品,为开源社区和企业应用提供了极大的便利。
二、Qwen3的特点
1. 多种思考模式
Qwen3 支持思考模式和非思考模式。在思考模式下,模型会逐步进行推理,这种模式非常适合处理复杂问题,能够深入分析问题并给出准确的答案。例如,在解决数学难题、进行逻辑推理等方面,思考模式可以发挥出强大的优势。而非思考模式则提供快速响应,适用于对速度要求较高的简单问题,比如日常的简单问答、信息查询等。这两种模式的结合增强了模型“思考预算”的控制能力,用户可以根据实际需求在成本效益和推理质量之间实现更优的平衡。而且,在这两种模式之间切换时,模型几乎不损失性能,真正做到了 “一脑双模,稳定输出”。
2. 多语言支持
Qwen3支持119种语言和方言,涵盖了印欧语系、汉藏语系、亚非语系、南岛语系、德拉威语系、突厥语系、壮侗语系、乌拉尔语系、南亚语系等多个语系。这一特性为国际应用开辟了新的可能,使得不同语言背景的用户都能够使用Qwen3进行交流和协作,打破了语言障碍,促进了全球范围内的信息共享和沟通。
3. 增强的Agent能力
Qwen3优化了Agent和代码能力,加强了对MCP的支持,在工具调用能力方面表现出色。它原生支持强大的工具调用能力,能够灵活地调用外部API或工具来完成各种任务,比如查询天气、预订机票、操作软件等。这使得Qwen3不仅是一个语言交互工具,还可以成为用户的智能助手,帮助用户完成各种实际操作。
4. 预训练数据扩展
与Qwen2.5相比,Qwen3的预训练数据集显著扩展,使用了约36万亿个token,并且同样涵盖了119种语言和方言。在构建数据集时,Qwen3不仅从网络收集数据,还从PDF文档中提取信息,并利用专家模型合成数学和代码数据。这种多元化的数据来源使得Qwen3能够学习到更广泛、更深入的知识,从而提高其性能和泛化能力。
5. 训练阶段合理
Qwen3的预训练分为三个阶段,逐步提升模型的能力。后训练实施四阶段训练流程,通过这种科学合理的训练方式,开发出了具备思考推理和快速响应能力的混合模型。这种训练模式使得Qwen3在不同场景下都能够表现出色,既能够深入思考复杂问题,又能够快速响应用户的简单需求。
6. 性能强大
Qwen3采用混合专家(MoE)架构,总参数量达到235B,但激活仅需22B。评测显示,Qwen3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强,创下了所有国产模型及全球开源模型的性能新高。例如,在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新了开源纪录;在考察代码能力的LiveCodeBench评测中,Qwen3突破70分大关,表现甚至超过了Grok3;在评估模型人类偏好对齐的ArenaHard测评中,Qwen3以95.6分超越了OpenAI - o1及DeepSeek - R1。这些优异的成绩充分证明了Qwen3的强大性能。
7. 成本降低
Qwen3的参数量仅为DeepSeek - R1的1/3,成本大幅下降。其部署成本仅为同等性能的DeepSeek - R1的35% ,仅需4张H20即可部署Qwen3满血版,显存占用也仅为性能相近模型的三分之一。这使得Qwen3在成本效益方面具有明显的优势,对于企业和开发者来说,能够以更低的成本获得更强大的模型性能。
8. 开源免费商用
从参数量0.6B的“小不点”到235B的“巨无霸”,Qwen3总共推出了8款不同尺寸的模型,并且全部采用宽松的Apache 2.0协议开源。这意味着开发者可以自由地下载、使用这些模型,无论是进行学术研究还是开发商业产品,都无需担心版权问题。这种开源免费商用的模式为人工智能的发展和应用提供了更广阔的空间。
三、Qwen3能做什么
1. 通用问答
Qwen3可以回答各种领域的问题,无论是科学知识、历史文化、生活常识还是娱乐八卦等,都能提供准确的答案。在思考模式下,它能够深入推理复杂问题,给出详细的解答和分析;在非思考模式下,它可以快速响应简单问题,满足用户的即时需求。
2. 代码相关任务
在代码领域,Qwen3有出色的表现。它可以进行代码生成,根据用户的需求生成各种编程语言的代码;还能够进行代码理解,对已有的代码进行分析和解释。在考察代码能力的LiveCodeBench评测中,Qwen3突破70分大关,表现甚至超过了Grok3,这充分证明了它在代码处理方面的强大能力。
3. 多语言交流
由于 Qwen3 支持119种语言和方言,它能够满足不同语言用户的交流需求。无论是跨国企业的商务沟通、国际学术交流还是个人的跨文化交流,Qwen3都可以作为一个有效的语言桥梁,帮助用户实现无障碍交流。
4. Agent交互
通过 Qwen - Agent,Qwen3 可以进行工具调用,与环境进行交互,完成特定任务。例如,用户可以让 Qwen3 查询天气情况、预订机票、操作软件等。Qwen3 会根据用户的指令,调用相应的外部 API 或工具来完成任务,为用户提供便捷的服务。
5. 创意写作与角色扮演
Qwen3 具有卓越的人类偏好对齐能力,在创意写作、角色扮演、多轮对话和指令跟随方面表现出色。它可以根据用户的要求创作各种类型的文章,如故事、诗歌、小说等;还可以扮演不同的角色,与用户进行互动,提供更自然、更吸引人和更具沉浸感的对话体验。
四、官网
如果您想了解更多关于Qwen3的信息或试用该模型,可以通过以下途径:
- Qwen Chat网页版:访问chat.qwen.ai,在网页上直接试用Qwen3。
- 手机APP:可以在手机上下载相应的APP,随时随地使用Qwen3。
- 阿里云百炼:通过阿里云百炼可以调用Qwen3的API服务,满足企业级的应用需求。
- PAI Model Gallery:[访问地址](https://pai.console.aliyun.com/#/quick - start/models),该平台支持云上一键部署Qwen3 全尺寸模型,方便开发者进行模型的部署和使用。
五、免费在线体验
目前,有多种方式可以免费在线体验Qwen3:
- Qwen Chat网页版和手机APP:您可以在chat.qwen.ai网页版或手机APP中直接试用Qwen3,感受它的强大功能。
- 夸克:夸克即将全线接入Qwen3,届时用户可以在夸克平台上使用Qwen3。
- 魔搭社区、HuggingFace等平台:全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace等平台下载Qwen3模型并商用,为开发者提供了更多的选择和便利。
六、模型 & 价格
模型
Qwen3系列提供了多种不同参数规模的开源模型,满足不同用户的需求:
1. MoE模型
- Qwen3 - 235B - A22B:拥有2350多亿总参数和220多亿激活参数的大模型,是Qwen3系列的性能天花板,各项指标全球领先。它适合对安全性有要求、对性能有极致要求的企业级应用和科研探索,如金融风险评估、复杂科学计算等。
- Qwen3 - 30B - A3B:拥有约300亿总参数和30亿激活参数的小型MoE模型,性能堪比之前的Qwen2.5 - 32B,但实现了10倍以上的性能杠杆。它适用于消费级显卡部署,非常适合个人开发者、AI爱好者本地部署,以及对性能和成本有均衡要求的场景,如个人智能助手开发、小型企业的智能客服系统等。
2. Dense模型
Qwen3 - 32B、Qwen3 - 14B、Qwen3 - 8B、Qwen3 - 4B、Qwen3 - 1.7B和Qwen3 - 0.6B是传统的稠密型模型,参数量相对较小或中等,适合不同层级的应用和部署需求。例如,Qwen3 - 0.6B可以用于资源受限的设备,如移动终端;而Qwen3 - 32B则可以用于对性能要求较高的场景,如大型企业的数据分析和处理。
各模型具体参数如下: |
Models | Layers | Heads (Q / KV) | Tie Embedding | Context Length |
---|---|---|---|---|---|
Qwen3 - 0.6B | 28 | 16 / 8 | Yes | 32K | |
Qwen3 - 1.7B | 28 | 16 / 8 | Yes | 32K | |
Qwen3 - 4B | 36 | 32 / 8 | Yes | 32K | |
Qwen3 - 8B | 36 | 32 / 8 | No | 128K | |
Qwen3 - 14B | 40 | 40 / 8 | No | 128K | |
Qwen3 - 32B | 64 | 64 / 8 | No | 128K |
Models | Layers | Heads (Q / KV) | # Experts (Total / Activated) | Context Length |
---|---|---|---|---|
Qwen3 - 30B - A3B | 48 | 32 / 4 | 128 / 8 | 128K |
Qwen3 - 235B - A22B | 94 | 64 / 4 | 128 / 8 | 128K |
价格
目前,虽然已知Qwen3成本仅为DeepSeek - R1约三分之一,但尚未查询到具体的定价信息。不过,从其开源免费商用的特点以及成本降低的优势来看,Qwen3在价格方面应该具有一定的竞争力,值得开发者和企业期待。
七、常见问题
目前暂未搜索到关于Qwen3的常见问题相关内容。如果您在使用过程中遇到问题,可以关注官方网站或社区论坛,获取最新的帮助和支持。
八、如何部署到本地
1. 使用通用工具部署
对于本地使用,您可以使用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。例如,通过运行简单的命令ollama run qwen3:30b - a3b
,就可以使用ollama与模型进行交互。
2. 创建API endpoint
部署时,您可以使用sglang>=0.4.6.post1
或vllm>=0.8.4
来创建一个与OpenAI API兼容的API endpoint:
- SGLang:使用命令
python - m sglang.launch_server --model - path Qwen/Qwen3 - 30B - A3B --reasoning - parser qwen3
。 - vLLM:使用命令
vllm serve Qwen/Qwen3 - 30B - A3B --enable - reasoning --reasoning - parser deepseek_r1
。 - 如果您想禁用思考模式,可以移除参数
--reasoning - parser
(以及--enable - reasoning
)。
3. 在Mac设备上借助Ollama部署
- 安装Ollama:访问Ollama官方网站(ollama.ai)下载适用于Mac的安装包并进行安装。
- 拉取Qwen3模型:打开终端,使用
ollama run <model_name>
命令拉取您想要部署的Qwen3模型。<model_name>
会根据Qwen3在Ollama模型库中的命名而定,通常会包含模型尺寸和量化方式,例如qwen:7b - chat - q4_0
。Ollama会自动下载所需的模型文件。 - 运行模型:模型下载完成后,Ollama会自动启动模型,您就可以在终端中直接与模型进行交互了。您也可以通过Ollama提供的API或与其他支持Ollama的应用进行集成。
4. 使用阿里云PAI Model Gallery进行云上一键部署
- 在Model Gallery模型广场找到Qwen3系列模型,或通过链接直达该模型。
- 在模型详情页右上角点击「部署」,已支持SGLang、vLLM高性能部署框架。在选择计算资源后,即可一键完成模型的云上部署。
- 部署成功后,在服务页面可以点击“查看调用信息”获取调用的Endpoint和Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。
九、硬件要求
1. 通用硬件要求
Qwen3的部署成本大幅下降,仅需4张H20即可部署Qwen3满血版,显存占用仅为性能相近模型的三分之一。这使得Qwen3在硬件资源的利用上更加高效,降低了部署的门槛。
2. Mac设备硬件要求
在Mac设备上部署Qwen3模型时,内存(统一内存)是决定可以运行哪个尺寸模型以及其性能的关键因素:
- 8GB统一内存:建议加载的模型尺寸在0.6B到8B之间。GGML文件大小通常在0.2GB到4.8GB。运行此类模型时,除了模型本身,系统和KV缓存也需要占用内存,因此仍需给系统保留约1.5GB到8GB内存。对于上下文长度较小的应用(<=2k token)较为适合。推荐使用Q4_0量化的0.6B,1.7B,4B,8B模型。
- 16GB统一内存:可以考虑加载8B (Q8_0) 或14B (Q4_0)模型,GGML文件大小约为1.6GB到8.7GB。在保证系统运行和KV缓存空间的前提下,可以支持更长的上下文。例如,KV缓存4k tokens大约再吃2 - 3GB内存,仍能并行运行VSCode和Chrome等应用。推荐使用Q8_0量化的8B模型或Q4_0量化的14B模型。
- 32GB统一内存:建议加载14B (Q8_0)、30B (A3B) 或32B (Q4_0)模型。GGML文件大小在15.7GB到18.7GB。拥有超过10GB的KV缓存空间,支持长上下文。推荐使用Q8_0量化的14B模型,A3B量化的30B模型,或Q4_0量化的32B模型。
- 64GB统一内存:可以轻松运行32B (Q8_0)、30B (A3B) 或30B (Q5_K/M)模型。GGML文件大小约为37GB或22GB。足够支持128k上下文或同时运行多个模型。推荐使用Q8_0量化的32B模型,A3B量化的30B模型,或Q5_K/M量化的30B模型。
- 96/128GB统一内存:可以挑战235B - A22B (Q4_0) 或更高精度的32B/30B A3B模型。GGML文件大小约为133GB (Q4_0)。对于235B - A22B Q8_0量化版本,其大小超过250GB,运行可能较为勉强,需要关闭其他大型程序。
十、使用教程资源
1. Hugging Face中使用示例
在Hugging Face transformers
中,提供了使用Qwen3 - 30B - A3B的标准示例代码。通过这些代码,您可以实现文本生成等功能,还可以通过修改enable_thinking
参数切换思考模式,以满足不同的应用需求。
2. 高级用法
Qwen3提供了软切换机制,允许用户在enable_thinking = True
时,在用户提示或系统消息中添加/think
和/no_think
来逐轮切换模型的思考模式。同时,还给出了多轮对话的示例代码,帮助用户更好地掌握这种高级用法。
3. Agent示例
推荐使用Qwen - Agent来发挥Qwen3的Agent能力。官方给出了定义可用工具、定义Agent以及进行流式生成的示例代码,方便用户进行Agent交互开发。
4. Transformers库使用说明
您可以使用pipeline()
接口或generate()
接口在transformers中用Qwen3生成文本。同时,还给出了使用pipeline进行多轮对话的基本示例代码,并说明了创建pipeline的一些重要参数,帮助用户更好地使用Transformers库与Qwen3进行交互。
综上所述,Qwen3作为一款强大的大型语言模型,具有多种优秀的特点和丰富的功能。无论是对于开发者、研究机构还是企业来说,Qwen3都提供了一个极具吸引力的选择。随着人工智能技术的不断发展,相信Qwen3将在更多的领域发挥重要作用,为我们的生活和工作带来更多的便利和创新。
你觉得这篇文章怎么样?
共有 0 条评论