Qwen3 发布了,简单看了一下创新的地方:
训练数据:这次使用了 36T 的预训练数据,可以说相当大了, DeepSeek V3 是 14.8T。这些数据覆盖了 100 多种语言,还包含了上一代模型生成的数学和代码内容。另一个点是还包含了从图片识别出来的文本。
预训练:这块目前没看出太多特别的,采用的是 128 选 8 的 MoE 并没有使用 shared expert。
后训练:这里是模型产生混合思考能力的关键步骤,在经过 CoT 的 RL 后又加入了一次 SFT 让模型在通用问题上直接出结果。粗略可以理解为有了个类似 DeepSeek R1 那样啥都要思考的模型后又加了些指导,让模型不要什么问题都思考。
整体看下来是个在数据上下了大功夫,局部有创新的模型。但是从架构上看也很难有超预期的表现,还是要看实际使用的体验了。
https://qwenlm.github.io/blog/qwen3/
训练数据:这次使用了 36T 的预训练数据,可以说相当大了, DeepSeek V3 是 14.8T。这些数据覆盖了 100 多种语言,还包含了上一代模型生成的数学和代码内容。另一个点是还包含了从图片识别出来的文本。
预训练:这块目前没看出太多特别的,采用的是 128 选 8 的 MoE 并没有使用 shared expert。
后训练:这里是模型产生混合思考能力的关键步骤,在经过 CoT 的 RL 后又加入了一次 SFT 让模型在通用问题上直接出结果。粗略可以理解为有了个类似 DeepSeek R1 那样啥都要思考的模型后又加了些指导,让模型不要什么问题都思考。
整体看下来是个在数据上下了大功夫,局部有创新的模型。但是从架构上看也很难有超预期的表现,还是要看实际使用的体验了。
https://qwenlm.github.io/blog/qwen3/