# 2025W37 AI大模型领域精选热点 🔥---## 1. Ali + 发布 Qwen3-ASR：一款集多语言、高鲁棒性与极简接入于一体的全能语音识别模型

16:58 · Sep 14, 2025 · Sun

# 2025W37 AI大模型领域精选热点 🔥

---

## 1. Ali

+ 发布 Qwen3-ASR：一款集多语言、高鲁棒性与极简接入于一体的全能语音识别模型。

+ 支持11种语言（含中英、阿拉伯语、德语、日语、韩语、俄语等），自动识别语言，无需手动切换。
+ 适应复杂环境：噪声、远场、低音质均有 <8% 的词错误率（WER），歌曲、说唱及带背景音乐的语音也能精准识别。
+ 独特自定义上下文功能：可粘贴任意文本（专有名词、行业术语、甚至乱码），极大提升识别准确率和适用场景。
+ 单一模型覆盖多场景，简化部署流程，极适合教育科技、媒体转录、客服智能等多领域应用。
+ 提供开放API及在线Demo，方便快速体验与集成。

体验地址：huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

+ 开源 Qwen3-Next-80B-A3B 系列新架构模型，包括 Qwen3-Next-80B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Thinking

+ 总参数高激活参数低，训练成本低，推理速度快
+ 80B 总参数激活参数 3B，混合架构 Gated DeltaNet + Gated Attention
+ 稀疏MoE：512 个专家，10 个路由专家 + 1 个共享专家

跑分Qwen3-Next-80B-A3B-Instruct 跟 Qwen3-235B-A22B 差不多，感觉是新的架构尝试，结合了 Gated DeltaNet 和 Gated Attention，以及高稀疏性 MoE 层，（80B仅激活3B），并且长文本性能也增强了很多，原生 262K，可以扩展到 1M。

模型地址：
huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking

## 2.Kimi Checkpoint Engine

+ Checkpoint-engine 是一个简单的中间件，用于更新大语言模型推理引擎中的模型权重——这是强化学习中的一个关键步骤。
基于该项目可以在不中断服务、不重启整个模型的情况下，直接修改正在运行中的大模型推理服务所使用的权重参数，更新kimi k2的参数只需要20秒。

Repo地址：github.com/MoonshotAI/checkpoint-engine
详细解析：zhuanlan.zhihu.com/p/1949882680167621566

## 3. 小米

+ 小米 Kaldi 团队发布基于 Flow Matching 架构的ZipVoice系列语音合成（TTS）模型——**ZipVoice（零样本单说话人语音合成模型）与ZipVoice-Dialog（零样本对话语音合成模型）**。

+ ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点，在轻量化建模和推理加速上取得了重要突破。
+ ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈，实现了又快又稳又自然的语音对话合成。

ZipVoice系列的模型文件、训练代码和推理代码以及6.8k小时的语音对话数据集OpenDialog已开源：github.com/k2-fsa/ZipVoice
Zipvoice 论文：arxiv.org/pdf/2506.13053
体验地址：zipvoice.github.io

## 4. Minmax Music 1.5

+ Minmax 发布新的音乐模型 Music 1.5，开启了“一人即乐队”的新时代，生成时长升至4分钟，并具备四大新突破：强控制力、人声自然饱满、乐器层次丰富、歌曲结构清晰。
体验地址：minimaxi.com/audio/music
详细介绍：minimaxi.com/news/minimax-music-15

## 5. 其他动态

1. 百度发布（不开源）新模型 ERNIE X1.1，官方数据宣称比 Gemini-2.5-Pro 和 GPT-5 猛。 (似乎没什么浪花

2. 美团小美agent app上线，支持自主点外卖，有邀请码的小伙伴可以尝试体验。

3. 继字节的 Trae、阿里的Qoder后，腾讯发布了AI Coding工具CodeBuddy Code，同时支持插件、IDE和CLI三种形态的AI编程工具。支持集成Figma、supabase等。体验地址：codebuddy.ai

4. 字节Seed正式发布图像模型Seedream 4.0，即梦4.0

官方介绍：seed.bytedance.com/seedream4_0

体验地址：

1. 即梦网页端（jimeng.jianying.com）-图片生成-上传参考图-选择图片 4.0 模型-输入 Prompt
2. 豆包 App 对话框-AI 生图/生视频-上传参考图-输入 Prompt

5. Google发布差异化隐私模型：VaultGemma，通过应用差分隐私构建了一个注重隐私保护的大语言模型，尽量保证使用模型时不会暴露出训练数据中的私人信息。研究人员发现并量化了模型大小、训练数据批次大小和隐私保护强度（噪声量）之间的关系。在实现强大隐私保护的同时，最大限度地保留模型的性能。

模型地址：huggingface.co/google/vaultgemma-1b

## Github Repos Recommend

1. PDFMathTranslate 基于 AI 完整保留排版的 PDF 文档全文双语翻译，支持 Google/DeepL/Ollama/OpenAI 等服务，提供 CLI/GUI/MCP/Docker/Zotero
Repo 地址：github.com/Byaidu/PDFMathTranslate
2. ToddlerBot，一个低成本、开源的人形机器人平台
官方介绍：toddlerbot.github.io
论文地址：arxiv.org/abs/2502.00893
Repo地址：github.com/hshi74/toddlerbot
3. ROMA 一个开源 DeepResearch 实现，可以接入本地模型或者大模型API。适用于：学术研究、市场分析、竞争情报、技术文档。Repo地址：github.com/sentient-agi/ROMA
4. 社区驱动的模型上下文协议 (MCP) 服务器注册服务
Repo地址：github.com/modelcontextprotocol/registry