# 2025W39 AI大模型领域精选热点 🔥
---
## 1. DeepSeek
> 节前发模型是常规操作,都别想放假。Claude:没错没错,刚刚发布 cluade sonnet 4.5 (现阶段==最强coding模型与构建agent的最强模型==)
+ DeepSeek-V3.2-Exp,一个实验性(Experimental)的版本,==大幅度降价(将降低 50% 以上)==,并且引入==Sparse Attention(一种稀疏注意力机制)==,针对长文本的训练和推理效率进行了探索性的优化和验证。新模型GPU算子包含 ==TileLang== 与 CUDA 两种版本。(DeepSeek建议社区在进行研究性实验时,使用基于 TileLang 的版本以方便调试和快速迭代。)
模型地址:huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
论文地址:github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
+ 更新 DeepSeek-V3.1-Terminus 版本(原有模型V3.1模型bug修复版本)
**语言一致性增强**:缓解了中英文混杂、偶发异常字符等情况;
**Agent 能力增强**:进一步优化了 Code Agent 与 Search Agent 的表现。
模型地址:huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
## 2. Ali
> 据统计,阿里不到2年时间居然发布了 300+ 个模型,卷还得是阿里啊
+ 阿里云栖大会:CEO对于未来的愿景非常大,迈向全模态(单一模型)、10万亿参数量、10M/100M上下文等等 (All in Nvidia)
+ ==又双叒叕火炎焱燚水沝淼㵘==发布和开源了很多个模型
+ Qwen3-Max 上线 ==大就是好== 最智能的非推理模型,官方称超越 Kimi K2 0905!
+ 模型总参数超过1T,预训练使用了36T tokens
+ Qwen3-Max的推理增强版本 Qwen3-Max-Thinking (Heavy)正在全力训练中
+ 详情地址:qwen.ai/blog?id=241398b9cd6353de490b0f82806c7848c5d2777d&from=research.latest-advancements-list
+ 视觉语言模型:Qwen3-VL-235B-A22B-Thinking、Qwen3-VL-235B-A22B-Instruct
+ Instruct 在关键视觉基准测试中的表现优于 Gemini 2.5 Pro
+ Thinking 在多模态推理任务上实现了最佳 (SOTA) 性能
+ 32 种语言的 OCR,256K上下文(可扩展至1M),==视觉agent、带图推理、2D/3D定位、多图理解、视频理解均有demo==
+ 模型地址:huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
+ 博客地址:qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
+ Qwen3Guard-Stream-8B、Qwen3Guard-Stream-0.6B、Qwen3Guard-Stream-4B、Qwen3Guard-gen-0.6B、Qwen3Guard-gen-8B、Qwen3Guard-gen-4B
+ 基于 Qwen3 的==安全审核模型==系列,支持 119 种语言和方言
+ Qwen3Guard-Stream 进行==低延迟、实时流媒体检测==
+ Qwen3Guard-Gen 进行强大的==全上下文安全分析==——非常适合 RL 奖励建模!
+ 模型地址:huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
+ 技术报告:github.com/QwenLM/Qwen3Guard/blob/main/Qwen3Guard_Technical_Report.pdf
+ ==多模态模型==:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking、Qwen3-Omni-30B-A3B-Captioner
+ 支持文本、图像、音频、视频输入,输出音频和视频
+ 支持119种语言,30min 的音频理解
+ 自动语音识别、音频理解和语音对话方面表现优秀
+ 模型地址:huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
+ Qwen-Image-Edit-2509
+ ==多图像联合编辑== 支持1-3张图像同时处理,尤其是"人+人"、"人+物"、"人+场景"的各种组合,特别是==电商场景==,产品+模特+场景的组合编辑
+ 模型地址:huggingface.co/Qwen/Qwen-Image-Edit-2509
+ 博客地址:qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list
+ Qwen3-TTS-Flash 重新定义语音 AI 的全新文本转语音模型 ==闭源==
+ 17 种富有表现力的声音 × 10 种语言,支持 9 种以上中国方言:粤语、闽南语、四川话等
+ 非常适合应用程序、游戏、IVR、内容等任何需要自然、类似人类的语音的地方。
+ 博客地址:qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list
## 3. Google
+ 据传 ==Gemini 3== 将提前到十月初发布
+ 发布一个为==初创公司==写的 ==AI Agent 构建指南==,详情见附件。
+ 如何构建和部署 AI 代理,最大化公司的业务目标效率和生产力。
+ 如何利用 Google Cloud 生成式 AI 工具,包括 Vertex AI 平台以及代理开发套件检索。
+ ==Gemini Robotics 1.5:让机器人有真正的“思考力”的模型==
两个模型协同工作:Gemini Robotics-ER 1.5、Gemini Robotics 1.5,前者充当高级大脑,与人交互、理解环境、协调工具,并制定执行任务的详细计划。 后者负责执行,将指令转化为机器人进行常规移动和行动所需的精确电机指令。模型的预览版已正式上线,可以通过Google AI Studio 体验。
详细地址:deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/
## 4. OpenAI
+ OpenAI 悄悄上线新模型 GPT-5-Chat-Safety,却从未在任何官方文档中提及。过滤用户与 GPT-4o 模型的聊天记录(重写聊天内容)。甚至是任何涉及你过往记忆的对话,只要被系统归类为“有风险”(哪怕只是一丝丝情感流露),用户得到的回复就不是来自 GPT-4o,而是被替换上来的 GPT-5-Chat-Safety。
+ OpenAI 新产品 ChatGPT Pulse,一个AI 助理,基于个人信息(聊天记录、个人资料、关联的日历、邮箱、文档等等),当你晚上睡觉时,ChatGPT 主动地分析你的兴趣、梳理你的日程,甚至推测用户未来的需要。例如:每日新闻早报、行程规划、行动建议、灵感启发。
详细地址:openai.com/index/introducing-chatgpt-pulse/
+ OpenAI发布了300多套各个行业的Prompt Packs(提示词包),从IT、销售到HR、管理、市场、工程、产品,几乎所有常见岗位都能找到对应内容。
详细地址:academy.openai.com/public/tags/prompt-packs-6849a0f98c613939acef841c
## 5. 其他动态
1. Kimi报道,不同模型API供应商提供的模型API服务,虽然都是宣称用的Kimi K2开源模型,但工具调用能力上差异很大。最差的只能到官方的60%左右。Kimi
---
## 1. DeepSeek
> 节前发模型是常规操作,都别想放假。Claude:没错没错,刚刚发布 cluade sonnet 4.5 (现阶段==最强coding模型与构建agent的最强模型==)
+ DeepSeek-V3.2-Exp,一个实验性(Experimental)的版本,==大幅度降价(将降低 50% 以上)==,并且引入==Sparse Attention(一种稀疏注意力机制)==,针对长文本的训练和推理效率进行了探索性的优化和验证。新模型GPU算子包含 ==TileLang== 与 CUDA 两种版本。(DeepSeek建议社区在进行研究性实验时,使用基于 TileLang 的版本以方便调试和快速迭代。)
模型地址:huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
论文地址:github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
+ 更新 DeepSeek-V3.1-Terminus 版本(原有模型V3.1模型bug修复版本)
**语言一致性增强**:缓解了中英文混杂、偶发异常字符等情况;
**Agent 能力增强**:进一步优化了 Code Agent 与 Search Agent 的表现。
模型地址:huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
## 2. Ali
> 据统计,阿里不到2年时间居然发布了 300+ 个模型,卷还得是阿里啊
+ 阿里云栖大会:CEO对于未来的愿景非常大,迈向全模态(单一模型)、10万亿参数量、10M/100M上下文等等 (All in Nvidia)
+ ==又双叒叕火炎焱燚水沝淼㵘==发布和开源了很多个模型
+ Qwen3-Max 上线 ==大就是好== 最智能的非推理模型,官方称超越 Kimi K2 0905!
+ 模型总参数超过1T,预训练使用了36T tokens
+ Qwen3-Max的推理增强版本 Qwen3-Max-Thinking (Heavy)正在全力训练中
+ 详情地址:qwen.ai/blog?id=241398b9cd6353de490b0f82806c7848c5d2777d&from=research.latest-advancements-list
+ 视觉语言模型:Qwen3-VL-235B-A22B-Thinking、Qwen3-VL-235B-A22B-Instruct
+ Instruct 在关键视觉基准测试中的表现优于 Gemini 2.5 Pro
+ Thinking 在多模态推理任务上实现了最佳 (SOTA) 性能
+ 32 种语言的 OCR,256K上下文(可扩展至1M),==视觉agent、带图推理、2D/3D定位、多图理解、视频理解均有demo==
+ 模型地址:huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
+ 博客地址:qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
+ Qwen3Guard-Stream-8B、Qwen3Guard-Stream-0.6B、Qwen3Guard-Stream-4B、Qwen3Guard-gen-0.6B、Qwen3Guard-gen-8B、Qwen3Guard-gen-4B
+ 基于 Qwen3 的==安全审核模型==系列,支持 119 种语言和方言
+ Qwen3Guard-Stream 进行==低延迟、实时流媒体检测==
+ Qwen3Guard-Gen 进行强大的==全上下文安全分析==——非常适合 RL 奖励建模!
+ 模型地址:huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
+ 技术报告:github.com/QwenLM/Qwen3Guard/blob/main/Qwen3Guard_Technical_Report.pdf
+ ==多模态模型==:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking、Qwen3-Omni-30B-A3B-Captioner
+ 支持文本、图像、音频、视频输入,输出音频和视频
+ 支持119种语言,30min 的音频理解
+ 自动语音识别、音频理解和语音对话方面表现优秀
+ 模型地址:huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
+ Qwen-Image-Edit-2509
+ ==多图像联合编辑== 支持1-3张图像同时处理,尤其是"人+人"、"人+物"、"人+场景"的各种组合,特别是==电商场景==,产品+模特+场景的组合编辑
+ 模型地址:huggingface.co/Qwen/Qwen-Image-Edit-2509
+ 博客地址:qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list
+ Qwen3-TTS-Flash 重新定义语音 AI 的全新文本转语音模型 ==闭源==
+ 17 种富有表现力的声音 × 10 种语言,支持 9 种以上中国方言:粤语、闽南语、四川话等
+ 非常适合应用程序、游戏、IVR、内容等任何需要自然、类似人类的语音的地方。
+ 博客地址:qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list
## 3. Google
+ 据传 ==Gemini 3== 将提前到十月初发布
+ 发布一个为==初创公司==写的 ==AI Agent 构建指南==,详情见附件。
+ 如何构建和部署 AI 代理,最大化公司的业务目标效率和生产力。
+ 如何利用 Google Cloud 生成式 AI 工具,包括 Vertex AI 平台以及代理开发套件检索。
+ ==Gemini Robotics 1.5:让机器人有真正的“思考力”的模型==
两个模型协同工作:Gemini Robotics-ER 1.5、Gemini Robotics 1.5,前者充当高级大脑,与人交互、理解环境、协调工具,并制定执行任务的详细计划。 后者负责执行,将指令转化为机器人进行常规移动和行动所需的精确电机指令。模型的预览版已正式上线,可以通过Google AI Studio 体验。
详细地址:deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/
## 4. OpenAI
+ OpenAI 悄悄上线新模型 GPT-5-Chat-Safety,却从未在任何官方文档中提及。过滤用户与 GPT-4o 模型的聊天记录(重写聊天内容)。甚至是任何涉及你过往记忆的对话,只要被系统归类为“有风险”(哪怕只是一丝丝情感流露),用户得到的回复就不是来自 GPT-4o,而是被替换上来的 GPT-5-Chat-Safety。
+ OpenAI 新产品 ChatGPT Pulse,一个AI 助理,基于个人信息(聊天记录、个人资料、关联的日历、邮箱、文档等等),当你晚上睡觉时,ChatGPT 主动地分析你的兴趣、梳理你的日程,甚至推测用户未来的需要。例如:每日新闻早报、行程规划、行动建议、灵感启发。
详细地址:openai.com/index/introducing-chatgpt-pulse/
+ OpenAI发布了300多套各个行业的Prompt Packs(提示词包),从IT、销售到HR、管理、市场、工程、产品,几乎所有常见岗位都能找到对应内容。
详细地址:academy.openai.com/public/tags/prompt-packs-6849a0f98c613939acef841c
## 5. 其他动态
1. Kimi报道,不同模型API供应商提供的模型API服务,虽然都是宣称用的Kimi K2开源模型,但工具调用能力上差异很大。最差的只能到官方的60%左右。Kimi