# 2025W31 AI大模型领域精选热点 🔥
---
## 1. Google
+ NotebookLM 的**视频摘要**功能上线,支持把笔记导出视频了!目前 NotebookLM 的 Studio 栏支持四种输出:音频、视频、思维导图、报告。地址:notebooklm.google.com
+ Google 正式向 Gemini APP Ultra 用户和部分数学家及学者推出了 **Gemini Deep Think**,能够帮助数学家证明猜想。本质上是一种并行推理方法。模型能够仔细推演复杂问题,最终产出更具创造性和深度的答案。尤其在算法设计和代码开发领域,Deep Think 能够综合考量问题的不同解法和复杂度,提升编码的效率和质量。据官方测试,Deep Think 在多项难度极高的基准测试中表现优异,尤其在代码生成和跨学科知识推理方面已经达到行业领先水平。详细介绍:blog.google/products/gemini/gemini-2-5-deep-think
+ 谷歌给 Android Studio 增加了免费的 Agent 模式!开发者可以直接跟 Agent 对话开发安卓应用。支持快速选中直接修改 UI 代码,支持自定义规则。地址:android-developers.googleblog.com/2025/07/android-studio-narwhal-feature-drop-stable-agent-mode.html
+ 谷歌搜索 AI Mode 更新,基本功能与 Gemini 功能(支持上传图片和 PDF/ Canvas 能力/视频跟 AI 实时对话)拉齐,目前只有美国和印度可以用
+ Google 新论文介绍了一种新的 Deep Researcher 思路:TTD-DR框架。人类在写作复杂主题时,通常会先制定计划,然后起草报告,并在多次修订中完善内容。这一过程与扩散模型的采样过程相似,即从噪声草稿开始,逐步去噪生成高质量输出。论文地址:arxiv.org/pdf/2507.16075
## 2. Ali 一系列模型更新
+ Qwen3-30B-A3B-2507 的推理版本,本地部署友好。 模型地址:huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507
+ Qwen3-30B-A3B-Instruct-2507的非推理版本,本地部署友好。 模型地址:huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507
+ Qwen3-Coder-Flash 发布,模型名称为 Qwen3-Coder-30B-A3B-Instruct。注意这也是个非思考模型。原生 256K 上下文(使用 YaRN 可以扩展高达 1M 个 token)。模型地址:huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct
+ 业界首个使用MoE架构的视频生成基础模型,文生视频Wan2.2-T2V-A14B、图生视频Wan2.2-I2V-A14B、统一视频生成Wan2.2-TI2V-5B。
## 3. OpenAI
+ OAI开源模型疑似漏,代号为 yofo gpt-oss 20b 和 120b,此外 openrouter 上还出现 horzon-beta 模型, 同样是256K上下文。120B 模型是 MoE 架构,激活参数大概是 5B,128 专家每次激活 4 个专家。原生只有 4K 上下文,通过 YaRN 扩展到 128K。
+ OpenAI 推出了学习模式(Study Mode)会引导用户一步步解决问题,而不仅仅是直接给出答案。感觉不是一个新模型或者agent,可能是用提示词引导的模式。
+ Sam Altman 预告本月新模型、新产品、新功能 即将发布。
## 4. 智谱发布了 GLM-4.5!
> 突出一个性价比,推出每月50块万亿token包月套餐。性能感觉稍逊于kimi 2
新模型包括 GLM-4.5-355B-A32B 和 **GLM-4.5-Air-106B-A12B**,都是**混合推理模型**,可以开关思切换考或者非思考模式。从跑分上来看,最亮眼的是仅用了大概 DeepSeek-R1 一半左右的参数量达到了一个与DeepSeek-R1 不相上下的水平。
模型地址:huggingface.co/zai-org/GLM-4.5
技术报告地址:z.ai/blog/glm-4.5
## 5. 其他动态
1. 中科院发布了首个科学基础大模型 S1-Base 磐石科学基础大模型
目前模型有 S1-Base-8B,S1-Base-32B,S1-Base-671B,其中 S1-Base-8B 和 S1-Base-32B 分别基于 Qwen3-8B 和 Qwen3-32B 训练得到,S1-Base-671B 基于 DeepSeek-R1-671B 训练得到,均支持 32k 上下文。
模型地址:huggingface.co/ScienceOne-AI/S1-Base-671B
2. 字节跳动发布文本 Diffusion 模型,Seed Diffusion Preview!
文本Diffusion 模型则是跟图像Diffusion 模型类似,是一个去噪过程,整段话随机出现文本最后组成所有输出。Diffusion 文本模型的优点是巨快,字节这个有 每秒 2146 个 token 的速度。目前除了eed Diffusion Preview以外,还有最知名的 Mercury Coder 和 Google 的 Gemini Diffusion.
发布blog: seed.bytedance.com/en/seed_diffusion
在线体验地址:studio.seed.ai/exp/seed_diffusion/
3. 中间思考模型 Dhanishtha,这个模型会想一会,然后输出一会,再想一会,再输出一会。支持工具调用。
模型地址:huggingface.co/HelpingAI/Dhanishtha-2.0-preview-0825
4. FLUX 又发新模型!FLUX.1-Krea-dev 是一个文生图模型,特点是照片级真实感。FLUX 与 Krea 联合开发。
模型地址:huggingface.co/black-forest-labs/FLUX.1-Krea-dev
5. Kimi 上架模型型号 kimi-k2-turbo-preview,猜测是 kimi-k2-0711-preview 的不同部署版本。响应速度从 10 token/s 提升到 40 token/s 。
6. ACL最佳论文 《原生稀疏注意力:硬件对齐和原生可训练的稀疏注意力》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention) ACL 2025 超过一半的论文作者都是华人。论文地址:arxiv.org/abs/2502.11089
7. 用强化学习推动图谱检索生成《Graph-R1: Towards Agentic GraphRAG Framework via End-to-end Reinforcement Learning》,Graph-RAG(图谱增强RAG)用实体-关系图表示知识,提升了信息组织与推理能力。 论文地址:arxiv.org/abs/2507.21892
8. alphaXiv 推出专为科研打造的全新社交平台,内建类似Discord的即时聊天功能,集社区发现、论文讨论与学术交流于一体,助力研究者高效协作。热门communities:Healthcare AI community/AI Security/AI4Science,探索更多 alphaxiv.org/communities
9. 微软研究院公布可能被AI取代的职业: fortune.com/2025/07/31/microsoft-research-generative-ai-occupational-impact-jobs-most-and-least-likely-to-impact-teaching-office-jobs-college-gen-z-grads/
10. Anthropic最新研究Persona vector人格向量,Anthropic 宣布禁止 OpenAI 访问 Claude(是因为OpenAI要发新模型了嘛?)。
11. Manus 超级大更新,发布 Wide Research 功能,支持上百agent独立运行。目前已向 Pro 用户开放,未来将逐步向 Plus 和 Basic 用户开放。
## Github Repos Recommend
1. 开源的知识库 maestro 本地运行 Deep Research !!!
知识库可以导入文档,执行 RAG,最大的亮点是它内置的 Agent 可以执行 Deep Research 这种任务,并且会给出 Research 的推理过程。支持 OpenAI 风格的 API,搜索使用 SearXNG,并且有 cli 工具支持批量导入和导出。
Repo地址:github.com/murtaza-nasir/maestro
2. 提示词优化器,助力于编写高质量提示词 Prompt Optimizer,支持多种使用方式。
Repo地址:github.com/linshenkx/prompt-optimizer
3.
---
## 1. Google
+ NotebookLM 的**视频摘要**功能上线,支持把笔记导出视频了!目前 NotebookLM 的 Studio 栏支持四种输出:音频、视频、思维导图、报告。地址:notebooklm.google.com
+ Google 正式向 Gemini APP Ultra 用户和部分数学家及学者推出了 **Gemini Deep Think**,能够帮助数学家证明猜想。本质上是一种并行推理方法。模型能够仔细推演复杂问题,最终产出更具创造性和深度的答案。尤其在算法设计和代码开发领域,Deep Think 能够综合考量问题的不同解法和复杂度,提升编码的效率和质量。据官方测试,Deep Think 在多项难度极高的基准测试中表现优异,尤其在代码生成和跨学科知识推理方面已经达到行业领先水平。详细介绍:blog.google/products/gemini/gemini-2-5-deep-think
+ 谷歌给 Android Studio 增加了免费的 Agent 模式!开发者可以直接跟 Agent 对话开发安卓应用。支持快速选中直接修改 UI 代码,支持自定义规则。地址:android-developers.googleblog.com/2025/07/android-studio-narwhal-feature-drop-stable-agent-mode.html
+ 谷歌搜索 AI Mode 更新,基本功能与 Gemini 功能(支持上传图片和 PDF/ Canvas 能力/视频跟 AI 实时对话)拉齐,目前只有美国和印度可以用
+ Google 新论文介绍了一种新的 Deep Researcher 思路:TTD-DR框架。人类在写作复杂主题时,通常会先制定计划,然后起草报告,并在多次修订中完善内容。这一过程与扩散模型的采样过程相似,即从噪声草稿开始,逐步去噪生成高质量输出。论文地址:arxiv.org/pdf/2507.16075
## 2. Ali 一系列模型更新
+ Qwen3-30B-A3B-2507 的推理版本,本地部署友好。 模型地址:huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507
+ Qwen3-30B-A3B-Instruct-2507的非推理版本,本地部署友好。 模型地址:huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507
+ Qwen3-Coder-Flash 发布,模型名称为 Qwen3-Coder-30B-A3B-Instruct。注意这也是个非思考模型。原生 256K 上下文(使用 YaRN 可以扩展高达 1M 个 token)。模型地址:huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct
+ 业界首个使用MoE架构的视频生成基础模型,文生视频Wan2.2-T2V-A14B、图生视频Wan2.2-I2V-A14B、统一视频生成Wan2.2-TI2V-5B。
## 3. OpenAI
+ OAI开源模型疑似漏,代号为 yofo gpt-oss 20b 和 120b,此外 openrouter 上还出现 horzon-beta 模型, 同样是256K上下文。120B 模型是 MoE 架构,激活参数大概是 5B,128 专家每次激活 4 个专家。原生只有 4K 上下文,通过 YaRN 扩展到 128K。
+ OpenAI 推出了学习模式(Study Mode)会引导用户一步步解决问题,而不仅仅是直接给出答案。感觉不是一个新模型或者agent,可能是用提示词引导的模式。
+ Sam Altman 预告本月新模型、新产品、新功能 即将发布。
## 4. 智谱发布了 GLM-4.5!
> 突出一个性价比,推出每月50块万亿token包月套餐。性能感觉稍逊于kimi 2
新模型包括 GLM-4.5-355B-A32B 和 **GLM-4.5-Air-106B-A12B**,都是**混合推理模型**,可以开关思切换考或者非思考模式。从跑分上来看,最亮眼的是仅用了大概 DeepSeek-R1 一半左右的参数量达到了一个与DeepSeek-R1 不相上下的水平。
模型地址:huggingface.co/zai-org/GLM-4.5
技术报告地址:z.ai/blog/glm-4.5
## 5. 其他动态
1. 中科院发布了首个科学基础大模型 S1-Base 磐石科学基础大模型
目前模型有 S1-Base-8B,S1-Base-32B,S1-Base-671B,其中 S1-Base-8B 和 S1-Base-32B 分别基于 Qwen3-8B 和 Qwen3-32B 训练得到,S1-Base-671B 基于 DeepSeek-R1-671B 训练得到,均支持 32k 上下文。
模型地址:huggingface.co/ScienceOne-AI/S1-Base-671B
2. 字节跳动发布文本 Diffusion 模型,Seed Diffusion Preview!
文本Diffusion 模型则是跟图像Diffusion 模型类似,是一个去噪过程,整段话随机出现文本最后组成所有输出。Diffusion 文本模型的优点是巨快,字节这个有 每秒 2146 个 token 的速度。目前除了eed Diffusion Preview以外,还有最知名的 Mercury Coder 和 Google 的 Gemini Diffusion.
发布blog: seed.bytedance.com/en/seed_diffusion
在线体验地址:studio.seed.ai/exp/seed_diffusion/
3. 中间思考模型 Dhanishtha,这个模型会想一会,然后输出一会,再想一会,再输出一会。支持工具调用。
模型地址:huggingface.co/HelpingAI/Dhanishtha-2.0-preview-0825
4. FLUX 又发新模型!FLUX.1-Krea-dev 是一个文生图模型,特点是照片级真实感。FLUX 与 Krea 联合开发。
模型地址:huggingface.co/black-forest-labs/FLUX.1-Krea-dev
5. Kimi 上架模型型号 kimi-k2-turbo-preview,猜测是 kimi-k2-0711-preview 的不同部署版本。响应速度从 10 token/s 提升到 40 token/s 。
6. ACL最佳论文 《原生稀疏注意力:硬件对齐和原生可训练的稀疏注意力》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention) ACL 2025 超过一半的论文作者都是华人。论文地址:arxiv.org/abs/2502.11089
7. 用强化学习推动图谱检索生成《Graph-R1: Towards Agentic GraphRAG Framework via End-to-end Reinforcement Learning》,Graph-RAG(图谱增强RAG)用实体-关系图表示知识,提升了信息组织与推理能力。 论文地址:arxiv.org/abs/2507.21892
8. alphaXiv 推出专为科研打造的全新社交平台,内建类似Discord的即时聊天功能,集社区发现、论文讨论与学术交流于一体,助力研究者高效协作。热门communities:Healthcare AI community/AI Security/AI4Science,探索更多 alphaxiv.org/communities
9. 微软研究院公布可能被AI取代的职业: fortune.com/2025/07/31/microsoft-research-generative-ai-occupational-impact-jobs-most-and-least-likely-to-impact-teaching-office-jobs-college-gen-z-grads/
10. Anthropic最新研究Persona vector人格向量,Anthropic 宣布禁止 OpenAI 访问 Claude(是因为OpenAI要发新模型了嘛?)。
11. Manus 超级大更新,发布 Wide Research 功能,支持上百agent独立运行。目前已向 Pro 用户开放,未来将逐步向 Plus 和 Basic 用户开放。
## Github Repos Recommend
1. 开源的知识库 maestro 本地运行 Deep Research !!!
知识库可以导入文档,执行 RAG,最大的亮点是它内置的 Agent 可以执行 Deep Research 这种任务,并且会给出 Research 的推理过程。支持 OpenAI 风格的 API,搜索使用 SearXNG,并且有 cli 工具支持批量导入和导出。
Repo地址:github.com/murtaza-nasir/maestro
2. 提示词优化器,助力于编写高质量提示词 Prompt Optimizer,支持多种使用方式。
Repo地址:github.com/linshenkx/prompt-optimizer
3.