# 2025W35 AI大模型领域精选热点 🔥---## 1. Google 又发布新模型 Nano banana> 图像模型容易出爆款，前有openai和qwen-image，现在google也来了+ 新的图像编辑模型，又名gemini-2.5-flash-image-preview，轻松实现对图片进行各种精准编辑修改（中文文字编辑不太好，但是结合qwen image 补齐）

# 2025W35 AI大模型领域精选热点 🔥

---

## 1. Google 又发布新模型 Nano banana

> 图像模型容易出爆款，前有openai和qwen-image，现在google也来了

+ 新的图像编辑模型，又名gemini-2.5-flash-image-preview，轻松实现对图片进行各种精准编辑修改（中文文字编辑不太好，但是结合qwen image 补齐）。现在可以访问 Gemini 和 AI Studio 随时体验。模型玩法：改变图像风格、通过草图指定人物动作，同时保持极佳的人物一致性、替换图中的物品、改变图中场景的视点、抠图等等。

+ 强大的功能也可能被滥用，比如，有人可能会通过篡改图片来欺骗买家或卖家。好在 Google 已经为 Nano Banana 生成的所有图片中嵌入了隐形水印，采用的是 SynthID 技术。具体来说，水印会直接嵌在图片的像素、视频的每一帧或音频的声谱图里，文本则通过调整词语出现的概率，形成独特、可识别的模式。即使内容被裁剪、压缩、加噪或加滤镜，这些水印依然能够被检测出来。如果怀疑某些内容是 AI 生成的，可以通过 SynthID Detector 网站进行检测（目前需要加入 waitlist）。
详细介绍：blog.google/technology/ai/google-synthid-ai-content-detector

## 2. OpenAI 发布语音对话模型 gpt-realtime

+ OpenAI 正式开放其实时 API (Realtime API)，同步推出公司迄今最先进的语音对话模型 gpt-realtime，以及一系列新功能，助力开发者打造可用于生产环境的 AI 语音智能体。gpt-realtime 模型（版本号 gpt-realtime-2025-08-28）在多个方面都有显著提升：它能更好地理解并执行复杂的指令，更精准地调用外部工具，而且生成的语音听起来也更自然、更富于情感。

+ 实时 API (Realtime API) 现在支持远程 MCP 服务器，还能通过会话发起协议 (Session Initiation Protocol, SIP) 拨打电话。这意味着 AI 语音智能体能够调用更多样的工具、获取更丰富的上下文信息。

+ OpenAI 还发布了两款全新的声音：Cedar 和 Marin。这两款声音是实时 API (Realtime API) 的专属福利。与此同时，现有的八种声音也得到了更新和优化。

+ 在衡量模型推理能力的 Big Bench Audio 评测基准上，gpt-realtime 的准确率达到了 82.8%，远超其 2024 年 12 月发布的上一代模型的 65.6%。

参考地址：openai.com/index/introducing-gpt-realtime

+ OpenAI 发布了整合版 API 文档纯文本文件，助力模型的高效调用与集成。

+ 文件包含所有 LLM 指南与 API 参考，约 530k tokens（2.5MB），适合直接作为上下文输入模型或导入开发工具。

+ 统一文本格式，一次性获取完整资料库，极大提升检索与自动化处理效率。

参考地址：cdn.openai.com/API/docs/txt/llms-full.txt

## 3. Grok Code Fast 1：xAI 推出全新轻量级推理模型

> 专为 agentic 编码场景设计，将速度与经济性结合，适合追求高效迭代和多步重构的开发者。

+ 擅长 TypeScript、Python、Java、Rust、C++、Go 等主流语言，跨全栈应用表现出色

+ 每百万个输入token 0.20 美元，每百万输出token 1.50 美元，每百万个缓存的输入token 0.02 美元

+ 附带实用提示指南，帮助用户最大化利用模型能力 docs.x.ai/docs/guides/grok-code-prompt-engineering

参考地址：x.ai/news/grok-code-fast-1

## 4. vLLM：**semantic-router**

> Intelligent Mixture-of-Models Router for Efficient LLM Inference：Auto-Reasoning and Auto-Selection of Models

用于高效 LLM 推理的智能混合模型路由器，智能地将 OpenAI API 请求从定义的池中定向到最合适的后端模型。使用基于 BERT 的语义理解和分类，它优化了性能和成本效率。支持自主选择合适的模型（创意写作/代码生成/数学计算），个人隐私保护（PII检测、提示词防越狱、安全路由）等。

Repo 地址：github.com/vllm-project/semantic-router

官网地址：vllm-semantic-router.com/

## 5. 其他动态

1. Marvis-TTS 打破实时语音合成瓶颈，10秒音频样本即可克隆自然流畅的声音，支持边生成边播放，轻量级模型：量化后仅500MB，支持iOS、Android、Windows、macOS等终端本地推理，适配多平台边缘设备。目前优化英语，德语、法语、葡萄牙语、普通话支持即将上线。适用场景广泛：语音助手、内容创作、无障碍辅助、播客配音及交互式AI等。
Repo地址：github.com/Marvis-Labs/marvis-tts

2. 微软开源长时长、高表达力的TTS 模型： VibeVoice-1.5B，采用 MIT 协议，支持最长 90 分钟连续语音合成，内置 AI 生成音频免责声明和不可感知水印，强化可信度和防滥用。
模型地址：huggingface.co/microsoft/VibeVoice-1.5B Repo地址：github.com/microsoft/VibeVoice

3. 七夕跃阶星辰发布了语音对话模型Step-Audio 2 mini (7B)(输入是音频，输出也是音频，可以实现对话)，类似是GPT-realtime 的开源替代。模型地址：huggingface.co/stepfun-ai/Step-Audio-2-mini

4. 美团开源大模型LongCat-Flash，MoE 架构，总参数量达 560B，采用了创新的动态计算机制，能根据上下文需求激活 18.6 B 至 31.3 B 的参数（平均约 27B)。模型地址：huggingface.co/meituan-longcat/LongCat-Flash-Chat

5. 字节发布 OmniHuman-1.5 ，是通过音频和图像生成视频，支持双人音频驱动生成视频、支持多人场景表演、支持生成超过一分钟的视频。官方案例：omnihuman-lab.github.io/v1_5 论文地址：arxiv.org/abs/2508.19209

6. 通义发布Mobile-Agent-v3，一个基于 GUI-Owl 的跨平台多智能体框架，将复杂的任务流拆解为四个不同的智能体角色：

- 管理者（Manager Agent）： 负责进行战略规划，将用户的高级指令拆解成有序的子目标列表。
- 执行者（Worker Agent）： 负责操作执行，根据当前界面状态选择并执行最合适的子目标。
- 反思者（Reflector Agent）： 负责自我修正，对比操作意图和实际结果，判断操作是否成功并提供反馈。
- 记录员（Notetaker Agent）： 负责上下文记忆，在成功操作后提取并存储关键信息（如验证码、地址等）。

Repo地址：github.com/X-PLUG/MobileAgent

7. Qwen预告：9月qwen系列还会有一波更新。通义万相预计还要发布一个新模型 Wan2.2-S2V。

8. 据传，Apple尝试使用Google的AI模型加强自己的Siri。

9. 英伟达发布目前最强的机器人大脑平台 Jetson Thor ，采用 Blackwell GPU 并配备 128GB 内存，AI 算力 2,070TFLOPS（FP4），功耗 130W。Jetson AGX Thor 开发者套件现已上市，起售价为 3,499 美元。

## Github Repos Recommend

1. 腾讯开源 Youtu-agent 一个灵活、高性能的框架，用于构建、运行和评估自主代理。除了在基准测试中名列前茅之外，该框架还提供强大的代理功能，例如数据分析、文件处理和深入研究，所有这些都使用开源模型。
Repo地址：github.com/Tencent/Youtu-agent

2. 微软官方MCP（Model Context Protocol）服务器合集，MIT许可，社区驱动，接受贡献，配套完整的代码规范与安全政策。

Repo 地址：github.com/microsoft/mcp

3. NPU运行的大模型推理框架Lemonade

支持在 AMD 显卡和其它AMD全家桶上运行，包括CPU以及NPU，支持 GGUF 和 ONNX 模型。

Repo地址：github.com/lemonade-sdk/lemonade