# 2025W37 AI大模型领域精选热点 🔥

---

## 1. Ali

+ 发布 Qwen3-ASR:一款集多语言、高鲁棒性与极简接入于一体的全能语音识别模型。

+ 支持11种语言(含中英、阿拉伯语、德语、日语、韩语、俄语等),自动识别语言,无需手动切换。
+ 适应复杂环境:噪声、远场、低音质均有 <8% 的词错误率(WER),歌曲、说唱及带背景音乐的语音也能精准识别。
+ 独特自定义上下文功能:可粘贴任意文本(专有名词、行业术语、甚至乱码),极大提升识别准确率和适用场景。
+ 单一模型覆盖多场景,简化部署流程,极适合教育科技、媒体转录、客服智能等多领域应用。
+ 提供开放API及在线Demo,方便快速体验与集成。

体验地址:huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

+ 开源 Qwen3-Next-80B-A3B 系列新架构模型,包括 Qwen3-Next-80B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Thinking

+ 总参数高激活参数低,训练成本低,推理速度快
+ 80B 总参数激活参数 3B,混合架构 Gated DeltaNet + Gated Attention
+ 稀疏MoE:512 个专家,10 个路由专家 + 1 个共享专家

跑分Qwen3-Next-80B-A3B-Instruct 跟 Qwen3-235B-A22B 差不多,感觉是新的架构尝试,结合了 Gated DeltaNet 和 Gated Attention,以及高稀疏性 MoE 层,(80B仅激活3B),并且长文本性能也增强了很多,原生 262K,可以扩展到 1M。

模型地址:
huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking

## 2.Kimi Checkpoint Engine

+ Checkpoint-engine 是一个简单的中间件,用于更新大语言模型推理引擎中的模型权重——这是强化学习中的一个关键步骤。
基于该项目可以在不中断服务、不重启整个模型的情况下,直接修改正在运行中的大模型推理服务所使用的权重参数,更新kimi k2的参数只需要20秒。

Repo地址:github.com/MoonshotAI/checkpoint-engine
详细解析:zhuanlan.zhihu.com/p/1949882680167621566

## 3. 小米

+ 小米 Kaldi 团队发布基于 Flow Matching 架构的ZipVoice系列语音合成(TTS)模型——**ZipVoice(零样本单说话人语音合成模型)与ZipVoice-Dialog(零样本对话语音合成模型)**。

+ ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破。
+ ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈,实现了又快又稳又自然的语音对话合成。

ZipVoice系列的模型文件、训练代码和推理代码以及6.8k小时的语音对话数据集OpenDialog已开源:github.com/k2-fsa/ZipVoice
Zipvoice 论文:arxiv.org/pdf/2506.13053
体验地址:zipvoice.github.io

## 4. Minmax Music 1.5

+ Minmax 发布新的音乐模型 Music 1.5,开启了“一人即乐队”的新时代,生成时长升至4分钟,并具备四大新突破:强控制力、人声自然饱满、乐器层次丰富、歌曲结构清晰。
体验地址:minimaxi.com/audio/music
详细介绍:minimaxi.com/news/minimax-music-15

## 5. 其他动态

1. 百度发布(不开源)新模型 ERNIE X1.1,官方数据宣称比 Gemini-2.5-Pro 和 GPT-5 猛。 (似乎没什么浪花

2. 美团小美agent app上线,支持自主点外卖,有邀请码的小伙伴可以尝试体验。

3. 继字节的 Trae、阿里的Qoder后,腾讯发布了AI Coding工具CodeBuddy Code,同时支持插件、IDE和CLI三种形态的AI编程工具。支持集成Figma、supabase等。体验地址:codebuddy.ai

4. 字节Seed正式发布图像模型Seedream 4.0,即梦4.0

官方介绍:seed.bytedance.com/seedream4_0

体验地址:

1. 即梦网页端(jimeng.jianying.com)-图片生成-上传参考图-选择图片 4.0 模型-输入 Prompt
2. 豆包 App 对话框-AI 生图/生视频-上传参考图-输入 Prompt

5. Google发布差异化隐私模型:VaultGemma,通过应用差分隐私构建了一个注重隐私保护的大语言模型,尽量保证使用模型时不会暴露出训练数据中的私人信息。研究人员发现并量化了模型大小、训练数据批次大小和隐私保护强度(噪声量)之间的关系。在实现强大隐私保护的同时,最大限度地保留模型的性能。

模型地址:huggingface.co/google/vaultgemma-1b





## Github Repos Recommend

1. PDFMathTranslate 基于 AI 完整保留排版的 PDF 文档全文双语翻译,支持 Google/DeepL/Ollama/OpenAI 等服务,提供 CLI/GUI/MCP/Docker/Zotero
Repo 地址:github.com/Byaidu/PDFMathTranslate
2. ToddlerBot,一个低成本、开源的人形机器人平台
官方介绍:toddlerbot.github.io
论文地址:arxiv.org/abs/2502.00893
Repo地址:github.com/hshi74/toddlerbot
3. ROMA 一个开源 DeepResearch 实现,可以接入本地模型或者大模型API。适用于:学术研究、市场分析、竞争情报、技术文档。Repo地址:github.com/sentient-agi/ROMA
4. 社区驱动的模型上下文协议 (MCP) 服务器注册服务
Repo地址:github.com/modelcontextprotocol/registry
 
 
Back to Top