# 2025W36 AI大模型领域精选热点 🔥
---
## 1. Ali 发布万亿参数模型
+ 阿里推出 Qwen3-Max-Preview (Instruct),拥有超过 1 万亿个参数!可通过 Qwen Chat 和阿里云 API 使用。 基准测试表明,它超越了阿里之前的最佳产品 Qwen3-235B-A22B-2507。内部测试和早期用户反馈证实:性能更强劲,知识面更广,对话、代理任务和指令执行能力更佳。
体验地址:chat.qwen.ai
Alibaba Cloud API: modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview
## 2. Kimi 模型升级
+ Kimi K2-0905 模型升级,Agentic Coding 能力提升,上下文长度从 128K 升级到 256K,优化前端代码生成与工具调用准确率,保证100%工具调用成功率。
技术报告:moonshotai/Kimi-K2-Instruct-0905 模型地址:huggingface.co/moonshotai/Kimi-K2-Instruct-0905
+ 重点:其Turbo API 可以“保证 100% 的工具调用准确率”,Kimi 在论文里面其实也提到他们使用的方法,参考了 lm-format-enforcer 的实现。
Repo地址:github.com/MoonshotAI/walle
## 3. Google 发布新的嵌入模型 Embedding Gemma!
+ 轻量级多语言嵌入模型的全新标杆,模型参数量 308M, 上下文是 2K
+ 基于 Gemma 3 架构,已针对 100 多种语言进行训练,并且体积小巧,经过量化后可在不到 200MB 的 RAM 上运行。
+ 旨在与 Gemma 3n 配合使用,共同为移动 RAG 管道、语义搜索等解锁新的用例。
详情介绍:developers.googleblog.com/en/introducing-embeddinggemma
模型地址:huggingface.co/google/embeddinggemma-300m
集成示例:baseten.co/library/embeddinggemma
## 4. 美团 & 快手 & 腾讯 新模型
+ LongCat-Flash-Chat:美团开源,支持128k上下文,5600亿参数MoE大模型
+ 动态激活机制:上下文驱动激活18.6B~31.3B参数(均值约27B)
+ 开源MIT许可,已适配SGLang和vLLM,支持快速部署和定制,适合研发与实际应用探索。
Repo地址:github.com/meituan-longcat/LongCat-Flash-Chat
模型地址:huggingface.co/meituan-longcat/LongCat-Flash-Chat-FP8
+ Klear-46B-A2.5B:快手发布大模型参数 46B 激活 2.5B, 压缩比达到了接近 18:1;256 个专家激活 8 个 + 1个共享专家 + sigmoid路由,上下文长度64K,像是在积累技术经验。
模型地址:huggingface.co/Kwai-Klear/Klear-46B-A2.5B-Instruct
+ Hunyuan-MT 推出的多语言翻译模型与集成方案,包含 Hunyuan-MT-7B 单模型与首个开源翻译集成模型 Hunyuan-MT-Chimera,支持33种语言互译,涵盖5种中国少数民族语言 。
+ 训练流程覆盖预训练 → 继续预训练 → 监督微调 → 翻译强化学习 → 集成强化学习,系统提升模型质量与泛化能力。
+ 自研 AngleSlim 工具实现FP8与INT4量化,显著提升推理效率,降低部署门槛,无需额外训练即可量化模型。
+ 支持TensorRT-LLM、vLLM、SGLang等多种推理框架,提供Docker镜像快速部署,兼容OpenAI接口标准。
+ 丰富的提示模板覆盖中英及多语言翻译任务,方便接入transformers库,支持多节点分布式训练与微调。
Repo地址:github.com/Tencent-Hunyuan/Hunyuan-MT
+ 腾讯混元世界模型-Voyager(HunyuanWorld-Voyager)发布并开源,基于 HunyuanWorld 1.0 构建,融合了视频生成与 3D 建模技术。能够基于单张输入图像生成具有世界一致性的 3D 点云,并支持用户按照自定义的相机路径进行沉浸式世界探索。能够同时生成精确对齐的深度信息与 RGB 视频,无需后处理即可直接用于高质量三维重建。
Repo地址:github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
模型地址:huggingface.co/tencent/HunyuanWorld-Voyager
技术报告:3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
## 5. 其他动态
1. 英伟达计划对中国市场推出新显卡 B30A 基于Blackwell 架构,售价是当前H20的2倍,性能为其6倍,最早9月向客户交付样品。
2. OpenAI 斥资11亿美金,收购了一家全新的公司Statsig,还顺便「买」了人 Statsig的CEO Vijaye Raji直接空降,成了OpenAI应用部门的新CTO。
3. CUDA 13.0 正式发布
+ 弃旧迎新:放弃 Maxwell(如 GTX 980)、Pascal(如 GTX 1080 Ti)、Volta(如 Titan V、V100)架构的离线编译支持,老旧 GPU 只能用 CUDA 12.x 工具包编译代码。
+ Windows 安装流程调整:CUDA 工具包不再内置 NVIDIA 显卡驱动,需手动安装版本≥580.xx 的驱动,确保兼容性。
+ 性能大幅提升:新增 Blackwell GPU 支持,cublas 中 FP4 gemm 性能爆发,cusolver 推出“仿真 FP32”模式;数学库关键函数(sinhf、coshf、modff)提升近 50%;Ampere 及以后架构的 MPS 服务器客户端限制从 48 提升至 60。
+ 工具链更新:nvprof 和 NVIDIA Visual Profiler 正式退场,推荐迁移至 Nsight Systems 和 Nsight Compute,样例程序需从 GitHub 自行构建,cooperative groups 相关 API 及旧版 NPP 非上下文接口被移除。
+ 开发环境要求:Ubuntu 需升级至 22.04 LTS 及以上,Visual Studio 要求 2017 版本,Intel ICC 更新至 2021.7。
详细信息:docs.nvidia.com/cuda/pdf/CUDA_Toolkit_Release_Notes.pdf
4. Deep Research Agent 训练门槛骤降,30小时H200算力即可超越Sonnet-4,开源工具助力人人可达前沿水平。
技术细节与完整教程地址:art.openpipe.ai/tutorials/open-deep-research
5. 阿里最近发布两个和AI安全有关的项目。
> “AI安全,不该是AI与用户的对抗,也不该是安全与能力的零和博弈,而应是一场共同成长的对话,希望我们离一个更负责任的AI近了一步。”
+ Oyster 系列, Alibaba-AAIG 自研的安全模型,致力于构建负责任的 AI 生态。
Repo 地址:github.com/Alibaba-AAIG/Oyster
+ Strata-Sword 阿里 AAIG 团队提出的一种多级安全评测基准,旨在更全面地评估模型在面对不同思考复杂度下的安全能力,帮助模型开发者更好地理解不同模型的安全边界。
+ 推理复杂度作为安全评估维度:定义并量化“推理复杂度”作为可评估的安全维度。
+ 分级越狱评测集构建:将15种不同的越狱攻击方法按照推理复杂度划分成3个不同的等级,包括700条越狱指令集。
+ 考虑了语言特性,针对中文和英文分别定制攻击方法,引入了三种具有中文特色的越狱攻击方法,包括藏头诗攻击、猜灯谜攻击、和汉字拆解攻击。
Repo地址:github.com/Alibaba-AAIG/Strata-Sword
## Github Repos Recommend
1. 开源的智能眼镜操作系统MentraOS,MIT 许可证。内置数十款应用。用户可享受 AI 助手、通知、翻译、屏幕镜像、字幕等功能。
Repo地址:github.com/Mentra-Community/MentraOS
2.
---
## 1. Ali 发布万亿参数模型
+ 阿里推出 Qwen3-Max-Preview (Instruct),拥有超过 1 万亿个参数!可通过 Qwen Chat 和阿里云 API 使用。 基准测试表明,它超越了阿里之前的最佳产品 Qwen3-235B-A22B-2507。内部测试和早期用户反馈证实:性能更强劲,知识面更广,对话、代理任务和指令执行能力更佳。
体验地址:chat.qwen.ai
Alibaba Cloud API: modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview
## 2. Kimi 模型升级
+ Kimi K2-0905 模型升级,Agentic Coding 能力提升,上下文长度从 128K 升级到 256K,优化前端代码生成与工具调用准确率,保证100%工具调用成功率。
技术报告:moonshotai/Kimi-K2-Instruct-0905 模型地址:huggingface.co/moonshotai/Kimi-K2-Instruct-0905
+ 重点:其Turbo API 可以“保证 100% 的工具调用准确率”,Kimi 在论文里面其实也提到他们使用的方法,参考了 lm-format-enforcer 的实现。
Repo地址:github.com/MoonshotAI/walle
## 3. Google 发布新的嵌入模型 Embedding Gemma!
+ 轻量级多语言嵌入模型的全新标杆,模型参数量 308M, 上下文是 2K
+ 基于 Gemma 3 架构,已针对 100 多种语言进行训练,并且体积小巧,经过量化后可在不到 200MB 的 RAM 上运行。
+ 旨在与 Gemma 3n 配合使用,共同为移动 RAG 管道、语义搜索等解锁新的用例。
详情介绍:developers.googleblog.com/en/introducing-embeddinggemma
模型地址:huggingface.co/google/embeddinggemma-300m
集成示例:baseten.co/library/embeddinggemma
## 4. 美团 & 快手 & 腾讯 新模型
+ LongCat-Flash-Chat:美团开源,支持128k上下文,5600亿参数MoE大模型
+ 动态激活机制:上下文驱动激活18.6B~31.3B参数(均值约27B)
+ 开源MIT许可,已适配SGLang和vLLM,支持快速部署和定制,适合研发与实际应用探索。
Repo地址:github.com/meituan-longcat/LongCat-Flash-Chat
模型地址:huggingface.co/meituan-longcat/LongCat-Flash-Chat-FP8
+ Klear-46B-A2.5B:快手发布大模型参数 46B 激活 2.5B, 压缩比达到了接近 18:1;256 个专家激活 8 个 + 1个共享专家 + sigmoid路由,上下文长度64K,像是在积累技术经验。
模型地址:huggingface.co/Kwai-Klear/Klear-46B-A2.5B-Instruct
+ Hunyuan-MT 推出的多语言翻译模型与集成方案,包含 Hunyuan-MT-7B 单模型与首个开源翻译集成模型 Hunyuan-MT-Chimera,支持33种语言互译,涵盖5种中国少数民族语言 。
+ 训练流程覆盖预训练 → 继续预训练 → 监督微调 → 翻译强化学习 → 集成强化学习,系统提升模型质量与泛化能力。
+ 自研 AngleSlim 工具实现FP8与INT4量化,显著提升推理效率,降低部署门槛,无需额外训练即可量化模型。
+ 支持TensorRT-LLM、vLLM、SGLang等多种推理框架,提供Docker镜像快速部署,兼容OpenAI接口标准。
+ 丰富的提示模板覆盖中英及多语言翻译任务,方便接入transformers库,支持多节点分布式训练与微调。
Repo地址:github.com/Tencent-Hunyuan/Hunyuan-MT
+ 腾讯混元世界模型-Voyager(HunyuanWorld-Voyager)发布并开源,基于 HunyuanWorld 1.0 构建,融合了视频生成与 3D 建模技术。能够基于单张输入图像生成具有世界一致性的 3D 点云,并支持用户按照自定义的相机路径进行沉浸式世界探索。能够同时生成精确对齐的深度信息与 RGB 视频,无需后处理即可直接用于高质量三维重建。
Repo地址:github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
模型地址:huggingface.co/tencent/HunyuanWorld-Voyager
技术报告:3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
## 5. 其他动态
1. 英伟达计划对中国市场推出新显卡 B30A 基于Blackwell 架构,售价是当前H20的2倍,性能为其6倍,最早9月向客户交付样品。
2. OpenAI 斥资11亿美金,收购了一家全新的公司Statsig,还顺便「买」了人 Statsig的CEO Vijaye Raji直接空降,成了OpenAI应用部门的新CTO。
3. CUDA 13.0 正式发布
+ 弃旧迎新:放弃 Maxwell(如 GTX 980)、Pascal(如 GTX 1080 Ti)、Volta(如 Titan V、V100)架构的离线编译支持,老旧 GPU 只能用 CUDA 12.x 工具包编译代码。
+ Windows 安装流程调整:CUDA 工具包不再内置 NVIDIA 显卡驱动,需手动安装版本≥580.xx 的驱动,确保兼容性。
+ 性能大幅提升:新增 Blackwell GPU 支持,cublas 中 FP4 gemm 性能爆发,cusolver 推出“仿真 FP32”模式;数学库关键函数(sinhf、coshf、modff)提升近 50%;Ampere 及以后架构的 MPS 服务器客户端限制从 48 提升至 60。
+ 工具链更新:nvprof 和 NVIDIA Visual Profiler 正式退场,推荐迁移至 Nsight Systems 和 Nsight Compute,样例程序需从 GitHub 自行构建,cooperative groups 相关 API 及旧版 NPP 非上下文接口被移除。
+ 开发环境要求:Ubuntu 需升级至 22.04 LTS 及以上,Visual Studio 要求 2017 版本,Intel ICC 更新至 2021.7。
详细信息:docs.nvidia.com/cuda/pdf/CUDA_Toolkit_Release_Notes.pdf
4. Deep Research Agent 训练门槛骤降,30小时H200算力即可超越Sonnet-4,开源工具助力人人可达前沿水平。
技术细节与完整教程地址:art.openpipe.ai/tutorials/open-deep-research
5. 阿里最近发布两个和AI安全有关的项目。
> “AI安全,不该是AI与用户的对抗,也不该是安全与能力的零和博弈,而应是一场共同成长的对话,希望我们离一个更负责任的AI近了一步。”
+ Oyster 系列, Alibaba-AAIG 自研的安全模型,致力于构建负责任的 AI 生态。
Repo 地址:github.com/Alibaba-AAIG/Oyster
+ Strata-Sword 阿里 AAIG 团队提出的一种多级安全评测基准,旨在更全面地评估模型在面对不同思考复杂度下的安全能力,帮助模型开发者更好地理解不同模型的安全边界。
+ 推理复杂度作为安全评估维度:定义并量化“推理复杂度”作为可评估的安全维度。
+ 分级越狱评测集构建:将15种不同的越狱攻击方法按照推理复杂度划分成3个不同的等级,包括700条越狱指令集。
+ 考虑了语言特性,针对中文和英文分别定制攻击方法,引入了三种具有中文特色的越狱攻击方法,包括藏头诗攻击、猜灯谜攻击、和汉字拆解攻击。
Repo地址:github.com/Alibaba-AAIG/Strata-Sword
## Github Repos Recommend
1. 开源的智能眼镜操作系统MentraOS,MIT 许可证。内置数十款应用。用户可享受 AI 助手、通知、翻译、屏幕镜像、字幕等功能。
Repo地址:github.com/Mentra-Community/MentraOS
2.