# 2025W31 AI大模型领域精选热点 🔥---## 1. Google+ NotebookLM 的**视频摘要**功能上线，支持把笔记导出视频了！目前 NotebookLM 的 Studio 栏支持四种输出：音频、视频、思维导图、报告

16:16 · Aug 3, 2025 · Sun

# 2025W31 AI大模型领域精选热点 🔥

---

## 1. Google

+ NotebookLM 的**视频摘要**功能上线，支持把笔记导出视频了！目前 NotebookLM 的 Studio 栏支持四种输出：音频、视频、思维导图、报告。地址：notebooklm.google.com
+ Google 正式向 Gemini APP Ultra 用户和部分数学家及学者推出了 **Gemini Deep Think**，能够帮助数学家证明猜想。本质上是一种并行推理方法。模型能够仔细推演复杂问题，最终产出更具创造性和深度的答案。尤其在算法设计和代码开发领域，Deep Think 能够综合考量问题的不同解法和复杂度，提升编码的效率和质量。据官方测试，Deep Think 在多项难度极高的基准测试中表现优异，尤其在代码生成和跨学科知识推理方面已经达到行业领先水平。详细介绍：blog.google/products/gemini/gemini-2-5-deep-think

+ 谷歌给 Android Studio 增加了免费的 Agent 模式！开发者可以直接跟 Agent 对话开发安卓应用。支持快速选中直接修改 UI 代码，支持自定义规则。地址：android-developers.googleblog.com/2025/07/android-studio-narwhal-feature-drop-stable-agent-mode.html

+ 谷歌搜索 AI Mode 更新，基本功能与 Gemini 功能（支持上传图片和 PDF/ Canvas 能力/视频跟 AI 实时对话）拉齐，目前只有美国和印度可以用

+ Google 新论文介绍了一种新的 Deep Researcher 思路：TTD-DR框架。人类在写作复杂主题时，通常会先制定计划，然后起草报告，并在多次修订中完善内容。这一过程与扩散模型的采样过程相似，即从噪声草稿开始，逐步去噪生成高质量输出。论文地址：arxiv.org/pdf/2507.16075

## 2. Ali 一系列模型更新

+ Qwen3-30B-A3B-2507 的推理版本，本地部署友好。模型地址：huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507
+ Qwen3-30B-A3B-Instruct-2507的非推理版本，本地部署友好。模型地址：huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507
+ Qwen3-Coder-Flash 发布，模型名称为 Qwen3-Coder-30B-A3B-Instruct。注意这也是个非思考模型。原生 256K 上下文（使用 YaRN 可以扩展高达 1M 个 token）。模型地址：huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct
+ 业界首个使用MoE架构的视频生成基础模型，文生视频Wan2.2-T2V-A14B、图生视频Wan2.2-I2V-A14B、统一视频生成Wan2.2-TI2V-5B。

## 3. OpenAI

+ OAI开源模型疑似漏，代号为 yofo gpt-oss 20b 和 120b，此外 openrouter 上还出现 horzon-beta 模型, 同样是256K上下文。120B 模型是 MoE 架构，激活参数大概是 5B，128 专家每次激活 4 个专家。原生只有 4K 上下文，通过 YaRN 扩展到 128K。

+ OpenAI 推出了学习模式（Study Mode）会引导用户一步步解决问题，而不仅仅是直接给出答案。感觉不是一个新模型或者agent，可能是用提示词引导的模式。

+ Sam Altman 预告本月新模型、新产品、新功能即将发布。

## 4. 智谱发布了 GLM-4.5!

> 突出一个性价比，推出每月50块万亿token包月套餐。性能感觉稍逊于kimi 2

新模型包括 GLM-4.5-355B-A32B 和 **GLM-4.5-Air-106B-A12B**，都是**混合推理模型**，可以开关思切换考或者非思考模式。从跑分上来看，最亮眼的是仅用了大概 DeepSeek-R1 一半左右的参数量达到了一个与DeepSeek-R1 不相上下的水平。

模型地址：huggingface.co/zai-org/GLM-4.5
技术报告地址：z.ai/blog/glm-4.5

## 5. 其他动态

1. 中科院发布了首个科学基础大模型 S1-Base 磐石科学基础大模型

目前模型有 S1-Base-8B，S1-Base-32B，S1-Base-671B，其中 S1-Base-8B 和 S1-Base-32B 分别基于 Qwen3-8B 和 Qwen3-32B 训练得到，S1-Base-671B 基于 DeepSeek-R1-671B 训练得到，均支持 32k 上下文。

模型地址：huggingface.co/ScienceOne-AI/S1-Base-671B

2. 字节跳动发布文本 Diffusion 模型，Seed Diffusion Preview！

文本Diffusion 模型则是跟图像Diffusion 模型类似，是一个去噪过程，整段话随机出现文本最后组成所有输出。Diffusion 文本模型的优点是巨快，字节这个有每秒 2146 个 token 的速度。目前除了eed Diffusion Preview以外，还有最知名的 Mercury Coder 和 Google 的 Gemini Diffusion.

发布blog: seed.bytedance.com/en/seed_diffusion
在线体验地址：studio.seed.ai/exp/seed_diffusion/

3. 中间思考模型 Dhanishtha，这个模型会想一会，然后输出一会，再想一会，再输出一会。支持工具调用。

模型地址：huggingface.co/HelpingAI/Dhanishtha-2.0-preview-0825

4. FLUX 又发新模型！FLUX.1-Krea-dev 是一个文生图模型，特点是照片级真实感。FLUX 与 Krea 联合开发。

模型地址：huggingface.co/black-forest-labs/FLUX.1-Krea-dev

5. Kimi 上架模型型号 kimi-k2-turbo-preview，猜测是 kimi-k2-0711-preview 的不同部署版本。响应速度从 10 token/s 提升到 40 token/s 。

6. ACL最佳论文《原生稀疏注意力：硬件对齐和原生可训练的稀疏注意力》（Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention） ACL 2025 超过一半的论文作者都是华人。论文地址：arxiv.org/abs/2502.11089

7. 用强化学习推动图谱检索生成《Graph-R1: Towards Agentic GraphRAG Framework via End-to-end Reinforcement Learning》，Graph-RAG（图谱增强RAG）用实体-关系图表示知识，提升了信息组织与推理能力。论文地址：arxiv.org/abs/2507.21892

8. alphaXiv 推出专为科研打造的全新社交平台，内建类似Discord的即时聊天功能，集社区发现、论文讨论与学术交流于一体，助力研究者高效协作。热门communities：Healthcare AI community/AI Security/AI4Science，探索更多 alphaxiv.org/communities

9. 微软研究院公布可能被AI取代的职业: fortune.com/2025/07/31/microsoft-research-generative-ai-occupational-impact-jobs-most-and-least-likely-to-impact-teaching-office-jobs-college-gen-z-grads/

10. Anthropic最新研究Persona vector人格向量，Anthropic 宣布禁止 OpenAI 访问 Claude（是因为OpenAI要发新模型了嘛？）。

11. Manus 超级大更新，发布 Wide Research 功能，支持上百agent独立运行。目前已向 Pro 用户开放，未来将逐步向 Plus 和 Basic 用户开放。

## Github Repos Recommend

1. 开源的知识库 maestro 本地运行 Deep Research ！！！

知识库可以导入文档，执行 RAG，最大的亮点是它内置的 Agent 可以执行 Deep Research 这种任务，并且会给出 Research 的推理过程。支持 OpenAI 风格的 API，搜索使用 SearXNG，并且有 cli 工具支持批量导入和导出。

Repo地址：github.com/murtaza-nasir/maestro

2. 提示词优化器，助力于编写高质量提示词 Prompt Optimizer，支持多种使用方式。

Repo地址：github.com/linshenkx/prompt-optimizer

3.