# 2025W36 AI大模型领域精选热点 🔥---## 1. Ali 发布万亿参数模型+ 阿里推出 Qwen3-Max-Preview (Instruct)，拥有超过 1 万亿个参数！可通过 Qwen Chat 和阿里云 API 使用

16:43 · Sep 7, 2025 · Sun

# 2025W36 AI大模型领域精选热点 🔥

---

## 1. Ali 发布万亿参数模型

+ 阿里推出 Qwen3-Max-Preview (Instruct)，拥有超过 1 万亿个参数！可通过 Qwen Chat 和阿里云 API 使用。基准测试表明，它超越了阿里之前的最佳产品 Qwen3-235B-A22B-2507。内部测试和早期用户反馈证实：性能更强劲，知识面更广，对话、代理任务和指令执行能力更佳。

体验地址：chat.qwen.ai
Alibaba Cloud API: modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

## 2. Kimi 模型升级

+ Kimi K2-0905 模型升级，Agentic Coding 能力提升，上下文长度从 128K 升级到 256K，优化前端代码生成与工具调用准确率，保证100%工具调用成功率。

技术报告：moonshotai/Kimi-K2-Instruct-0905 模型地址：huggingface.co/moonshotai/Kimi-K2-Instruct-0905

+ 重点：其Turbo API 可以“保证 100% 的工具调用准确率”，Kimi 在论文里面其实也提到他们使用的方法，参考了 lm-format-enforcer 的实现。

Repo地址：github.com/MoonshotAI/walle

## 3. Google 发布新的嵌入模型 Embedding Gemma!

+ 轻量级多语言嵌入模型的全新标杆，模型参数量 308M, 上下文是 2K

+ 基于 Gemma 3 架构，已针对 100 多种语言进行训练，并且体积小巧，经过量化后可在不到 200MB 的 RAM 上运行。
+ 旨在与 Gemma 3n 配合使用，共同为移动 RAG 管道、语义搜索等解锁新的用例。

详情介绍：developers.googleblog.com/en/introducing-embeddinggemma
模型地址：huggingface.co/google/embeddinggemma-300m
集成示例：baseten.co/library/embeddinggemma

## 4. 美团 & 快手 & 腾讯新模型

+ LongCat-Flash-Chat：美团开源，支持128k上下文，5600亿参数MoE大模型

+ 动态激活机制：上下文驱动激活18.6B~31.3B参数（均值约27B）

+ 开源MIT许可，已适配SGLang和vLLM，支持快速部署和定制，适合研发与实际应用探索。

Repo地址：github.com/meituan-longcat/LongCat-Flash-Chat

模型地址：huggingface.co/meituan-longcat/LongCat-Flash-Chat-FP8

+ Klear-46B-A2.5B：快手发布大模型参数 46B 激活 2.5B, 压缩比达到了接近 18:1；256 个专家激活 8 个 + 1个共享专家 + sigmoid路由，上下文长度64K，像是在积累技术经验。

模型地址：huggingface.co/Kwai-Klear/Klear-46B-A2.5B-Instruct

+ Hunyuan-MT 推出的多语言翻译模型与集成方案，包含 Hunyuan-MT-7B 单模型与首个开源翻译集成模型 Hunyuan-MT-Chimera，支持33种语言互译，涵盖5种中国少数民族语言。

+ 训练流程覆盖预训练 → 继续预训练 → 监督微调 → 翻译强化学习 → 集成强化学习，系统提升模型质量与泛化能力。

+ 自研 AngleSlim 工具实现FP8与INT4量化，显著提升推理效率，降低部署门槛，无需额外训练即可量化模型。

+ 支持TensorRT-LLM、vLLM、SGLang等多种推理框架，提供Docker镜像快速部署，兼容OpenAI接口标准。

+ 丰富的提示模板覆盖中英及多语言翻译任务，方便接入transformers库，支持多节点分布式训练与微调。

Repo地址：github.com/Tencent-Hunyuan/Hunyuan-MT

+ 腾讯混元世界模型-Voyager（HunyuanWorld-Voyager）发布并开源，基于 HunyuanWorld 1.0 构建，融合了视频生成与 3D 建模技术。能够基于单张输入图像生成具有世界一致性的 3D 点云，并支持用户按照自定义的相机路径进行沉浸式世界探索。能够同时生成精确对齐的深度信息与 RGB 视频，无需后处理即可直接用于高质量三维重建。

Repo地址：github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
模型地址：huggingface.co/tencent/HunyuanWorld-Voyager
技术报告：3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

## 5. 其他动态

1. 英伟达计划对中国市场推出新显卡 B30A 基于Blackwell 架构，售价是当前H20的2倍，性能为其6倍，最早9月向客户交付样品。

2. OpenAI 斥资11亿美金，收购了一家全新的公司Statsig，还顺便「买」了人 Statsig的CEO Vijaye Raji直接空降，成了OpenAI应用部门的新CTO。

3. CUDA 13.0 正式发布

+ 弃旧迎新：放弃 Maxwell（如 GTX 980）、Pascal（如 GTX 1080 Ti）、Volta（如 Titan V、V100）架构的离线编译支持，老旧 GPU 只能用 CUDA 12.x 工具包编译代码。
+ Windows 安装流程调整：CUDA 工具包不再内置 NVIDIA 显卡驱动，需手动安装版本≥580.xx 的驱动，确保兼容性。
+ 性能大幅提升：新增 Blackwell GPU 支持，cublas 中 FP4 gemm 性能爆发，cusolver 推出“仿真 FP32”模式；数学库关键函数（sinhf、coshf、modff）提升近 50%；Ampere 及以后架构的 MPS 服务器客户端限制从 48 提升至 60。
+ 工具链更新：nvprof 和 NVIDIA Visual Profiler 正式退场，推荐迁移至 Nsight Systems 和 Nsight Compute，样例程序需从 GitHub 自行构建，cooperative groups 相关 API 及旧版 NPP 非上下文接口被移除。
+ 开发环境要求：Ubuntu 需升级至 22.04 LTS 及以上，Visual Studio 要求 2017 版本，Intel ICC 更新至 2021.7。

详细信息：docs.nvidia.com/cuda/pdf/CUDA_Toolkit_Release_Notes.pdf

4. Deep Research Agent 训练门槛骤降，30小时H200算力即可超越Sonnet-4，开源工具助力人人可达前沿水平。

技术细节与完整教程地址：art.openpipe.ai/tutorials/open-deep-research

5. 阿里最近发布两个和AI安全有关的项目。

> “AI安全，不该是AI与用户的对抗，也不该是安全与能力的零和博弈，而应是一场共同成长的对话，希望我们离一个更负责任的AI近了一步。”

+ Oyster 系列, Alibaba-AAIG 自研的安全模型，致力于构建负责任的 AI 生态。

Repo 地址：github.com/Alibaba-AAIG/Oyster

+ Strata-Sword 阿里 AAIG 团队提出的一种多级安全评测基准，旨在更全面地评估模型在面对不同思考复杂度下的安全能力，帮助模型开发者更好地理解不同模型的安全边界。

+ 推理复杂度作为安全评估维度：定义并量化“推理复杂度”作为可评估的安全维度。
+ 分级越狱评测集构建：将15种不同的越狱攻击方法按照推理复杂度划分成3个不同的等级，包括700条越狱指令集。
+ 考虑了语言特性，针对中文和英文分别定制攻击方法，引入了三种具有中文特色的越狱攻击方法，包括藏头诗攻击、猜灯谜攻击、和汉字拆解攻击。

Repo地址：github.com/Alibaba-AAIG/Strata-Sword

## Github Repos Recommend

1. 开源的智能眼镜操作系统MentraOS，MIT 许可证。内置数十款应用。用户可享受 AI 助手、通知、翻译、屏幕镜像、字幕等功能。
Repo地址：github.com/Mentra-Community/MentraOS

2.

Googleblog

Google for Developers Blog - News about Web, Mobile, AI and Cloud

Learn how to build with Gemma 3n, a mobile-first architecture, MatFormer technology, Per-Layer Embeddings, and new audio and vision encoders.