# 2025W35 AI大模型领域精选热点 🔥

---

## 1. Google 又发布新模型 Nano banana

> 图像模型容易出爆款,前有openai和qwen-image,现在google也来了

+ 新的图像编辑模型,又名gemini-2.5-flash-image-preview,轻松实现对图片进行各种精准编辑修改(中文文字编辑不太好,但是结合qwen image 补齐)。 现在可以访问 Gemini 和 AI Studio 随时体验。模型玩法:改变图像风格、通过草图指定人物动作,同时保持极佳的人物一致性、替换图中的物品、改变图中场景的视点、抠图等等。

+ 强大的功能也可能被滥用,比如,有人可能会通过篡改图片来欺骗买家或卖家。好在 Google 已经为 Nano Banana 生成的所有图片中嵌入了隐形水印,采用的是 SynthID 技术。具体来说,水印会直接嵌在图片的像素、视频的每一帧或音频的声谱图里,文本则通过调整词语出现的概率,形成独特、可识别的模式。即使内容被裁剪、压缩、加噪或加滤镜,这些水印依然能够被检测出来。如果怀疑某些内容是 AI 生成的,可以通过 SynthID Detector 网站进行检测(目前需要加入 waitlist)。
详细介绍:blog.google/technology/ai/google-synthid-ai-content-detector

## 2. OpenAI 发布语音对话模型 gpt-realtime

+ OpenAI 正式开放其实时 API (Realtime API),同步推出公司迄今最先进的语音对话模型 gpt-realtime,以及一系列新功能,助力开发者打造可用于生产环境的 AI 语音智能体。gpt-realtime 模型(版本号 gpt-realtime-2025-08-28)在多个方面都有显著提升:它能更好地理解并执行复杂的指令,更精准地调用外部工具,而且生成的语音听起来也更自然、更富于情感。

+ 实时 API (Realtime API) 现在支持远程 MCP 服务器,还能通过会话发起协议 (Session Initiation Protocol, SIP) 拨打电话。这意味着 AI 语音智能体能够调用更多样的工具、获取更丰富的上下文信息。

+ OpenAI 还发布了两款全新的声音:Cedar 和 Marin。这两款声音是实时 API (Realtime API) 的专属福利。与此同时,现有的八种声音也得到了更新和优化。

+ 在衡量模型推理能力的 Big Bench Audio 评测基准上,gpt-realtime 的准确率达到了 82.8%,远超其 2024 年 12 月发布的上一代模型的 65.6%。

参考地址:openai.com/index/introducing-gpt-realtime

+ OpenAI 发布了整合版 API 文档纯文本文件,助力模型的高效调用与集成。

+ 文件包含所有 LLM 指南与 API 参考,约 530k tokens(2.5MB),适合直接作为上下文输入模型或导入开发工具。

+ 统一文本格式,一次性获取完整资料库,极大提升检索与自动化处理效率。

参考地址:cdn.openai.com/API/docs/txt/llms-full.txt

## 3. Grok Code Fast 1:xAI 推出全新轻量级推理模型

> 专为 agentic 编码场景设计,将速度与经济性结合,适合追求高效迭代和多步重构的开发者。

+ 擅长 TypeScript、Python、Java、Rust、C++、Go 等主流语言,跨全栈应用表现出色

+ 每百万个输入token 0.20 美元,每百万输出token 1.50 美元,每百万个缓存的输入token 0.02 美元

+ 附带实用提示指南,帮助用户最大化利用模型能力 docs.x.ai/docs/guides/grok-code-prompt-engineering

参考地址:x.ai/news/grok-code-fast-1

## 4. vLLM:**semantic-router**

> Intelligent Mixture-of-Models Router for Efficient LLM Inference:Auto-Reasoning and Auto-Selection of Models

用于高效 LLM 推理的智能混合模型路由器,智能地将 OpenAI API 请求从定义的池中定向到最合适的后端模型。使用基于 BERT 的语义理解和分类,它优化了性能和成本效率。支持自主选择合适的模型(创意写作/代码生成/数学计算),个人隐私保护(PII检测、提示词防越狱、安全路由)等。

Repo 地址:github.com/vllm-project/semantic-router

官网地址:vllm-semantic-router.com/

## 5. 其他动态

1. Marvis-TTS 打破实时语音合成瓶颈,10秒音频样本即可克隆自然流畅的声音,支持边生成边播放,轻量级模型:量化后仅500MB,支持iOS、Android、Windows、macOS等终端本地推理,适配多平台边缘设备。目前优化英语,德语、法语、葡萄牙语、普通话支持即将上线。适用场景广泛:语音助手、内容创作、无障碍辅助、播客配音及交互式AI等。
Repo地址:github.com/Marvis-Labs/marvis-tts

2. 微软开源长时长、高表达力的TTS 模型: VibeVoice-1.5B,采用 MIT 协议,支持最长 90 分钟连续语音合成,内置 AI 生成音频免责声明和不可感知水印,强化可信度和防滥用。
模型地址:huggingface.co/microsoft/VibeVoice-1.5B Repo地址:github.com/microsoft/VibeVoice

3. 七夕跃阶星辰发布了语音对话模型Step-Audio 2 mini (7B)(输入是音频,输出也是音频,可以实现对话),类似是GPT-realtime 的开源替代。模型地址:huggingface.co/stepfun-ai/Step-Audio-2-mini

4. 美团开源大模型LongCat-Flash,MoE 架构,总参数量达 560B,采用了创新的动态计算机制,能根据上下文需求激活 18.6 B 至 31.3 B 的参数(平均约 27B)。模型地址:huggingface.co/meituan-longcat/LongCat-Flash-Chat

5. 字节发布 OmniHuman-1.5 ,是通过音频和图像生成视频,支持双人音频驱动生成视频、支持多人场景表演、支持生成超过一分钟的视频。官方案例:omnihuman-lab.github.io/v1_5 论文地址:arxiv.org/abs/2508.19209

6. 通义发布Mobile-Agent-v3,一个基于 GUI-Owl 的跨平台多智能体框架,将复杂的任务流拆解为四个不同的智能体角色:

- 管理者(Manager Agent): 负责进行战略规划,将用户的高级指令拆解成有序的子目标列表。
- 执行者(Worker Agent): 负责操作执行,根据当前界面状态选择并执行最合适的子目标。
- 反思者(Reflector Agent): 负责自我修正,对比操作意图和实际结果,判断操作是否成功并提供反馈。
- 记录员(Notetaker Agent): 负责上下文记忆,在成功操作后提取并存储关键信息(如验证码、地址等)。

Repo地址:github.com/X-PLUG/MobileAgent

7. Qwen预告:9月qwen系列还会有一波更新。通义万相预计还要发布一个新模型 Wan2.2-S2V。

8. 据传,Apple尝试使用Google的AI模型加强自己的Siri。

9. 英伟达发布目前最强的机器人大脑平台 Jetson Thor ,采用 Blackwell GPU 并配备 128GB 内存,AI 算力 2,070TFLOPS(FP4),功耗 130W。Jetson AGX Thor 开发者套件现已上市,起售价为 3,499 美元。



## Github Repos Recommend

1. 腾讯开源 Youtu-agent 一个灵活、高性能的框架,用于构建、运行和评估自主代理。除了在基准测试中名列前茅之外,该框架还提供强大的代理功能,例如数据分析、文件处理和深入研究,所有这些都使用开源模型。
Repo地址:github.com/Tencent/Youtu-agent

2. 微软官方MCP(Model Context Protocol)服务器合集,MIT许可,社区驱动,接受贡献,配套完整的代码规范与安全政策。

Repo 地址:github.com/microsoft/mcp

3. NPU运行的大模型推理框架Lemonade

支持在 AMD 显卡和 其它AMD全家桶上运行,包括CPU以及NPU,支持 GGUF 和 ONNX 模型。

Repo地址:github.com/lemonade-sdk/lemonade
 
 
Back to Top