# 2025W32 AI大模型领域精选热点 🔥---## 1. OpenAI GPT5 终于发布> 训练时长2年半的GPT5 怎么样呢？评价两极分化，负面占比多，发布会图片莫不是模型训练使用了某国统计局数据？？？+ GPT5 发布即回滚，山姆奥特曼被舆情干趴，现在又在组织力量让o3、4.5、4.1回归

17:08 · Aug 10, 2025 · Sun

# 2025W32 AI大模型领域精选热点 🔥

---

## 1. OpenAI GPT5 终于发布

> 训练时长2年半的GPT5 怎么样呢？评价两极分化，负面占比多，发布会图片莫不是模型训练使用了某国统计局数据？？？

+ GPT5 发布即回滚，山姆奥特曼被舆情干趴，现在又在组织力量让o3、4.5、4.1回归。
+ GPT5 亮点1：实时路由系统”（Real-time Router）动态判断问题复杂度，自动切换快速响应模式或深度思考模式（例如用户输入“think hard about this”可触发深度推理）。该设计消除了用户手动切换模型的负担，实现无缝体验（真的嘛？？？）。
+ GPT5 亮点2：减少幻觉：更诚实，降低迎合性回答。编程与专业能力：复杂代码库处理、网站/游戏生成能力增强。
+ OpenAI 发布两个开放权重模型! gpt-oss-120b 激活参数量 5.1B，甚至能在单张 Nvidia 显卡（H100 80G）上运行。gpt-oss-20b 激活参数量 3.6B，甚至可在拥有16GB内存的普通笔记本电脑上运行（已测试速度相当慢）。两个都是 MoE 架构的推理模型，原生 MXFP4。

## 2. Anthropic 发布 Claude Opus 4.1

> 代码能力遥遥领先 Claude Opus 4.1 > Gemini-2.5-Pro > GPT-5-Thinking

+ 在代理任务、真实世界编码和推理方面的升级，尤其是在多文件代码重构方面的性能提升显著。

## 3. Google

> 敏捷又强大，轻松干掉一堆startup

+ Gemini 上线 StoryBook，体验地址 https://gemini.google/overview/storybook/

+ 只要上传一段文字或者提示词或者文档，就可以生成一本图文并茂的故事书，效果相当相当的好！

+ 一个 Agent，大概有 20 多个 Tools，能自主的调用工具收集上下文完成任务。

+ Google 发布迄今为止最先进的世界模拟器（世界模型）Genie 3 能从文字或图片即时生成可玩的 3D 互动世界

+ 能生成用户和 AI Agent 实时交互的 3D 环境，可以用于教育、娱乐等场景，感觉还可以和具身智能结合，帮助机器人理解现实物理世界。
+ 3D 互动世界具备高保真视觉效果、20-24 帧每秒的流畅画面、即时提示交互、世界记忆等多项强大功能。

+ Google 推出 web guide，AI给总结不直接出内容，而是给个概览（AI整合好的最相关的几个网页链接）。或许是最强的矛和最强的盾，终归有一方要妥协。Google的AI搜索革命道路曲折呀（本已是搜索推荐的No1），AI 搜索竭泽而渔导致源站获取不到流量，从共生变成竞争，再继续进一步或许Google 再也爬不到信息了。

## 4. Ali Qwen

+ 开源 Qwen3 4B 模型：Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507，新版本提升了思考能力，并且增加了思考长度，上下文支持 256K！
模型地址：huggingface.co/Qwen/Qwen3-4B-Instruct-2507 和 huggingface.co/Qwen/Qwen3-4B-Thinking-2507
+ 开源 Owen-image 模型：20B 参数，主打图片生成和编辑，尤其擅长处理复杂的文字内容。中文、英文、中英文混排，甚至大段中文手写体都能处理，布局合理。能做各种风格的图片，比如写实、二次元、水墨、极简、海报、PPT等，还能通过自然语言指令调整细节，比如改字体、改姿势、加物体、换风格等。编辑图片的时候，它能保留原有的细节和氛围，做出来的效果也很自然，没有违和感。
模型地址: huggingface.co/Qwen/Qwen-Image
Github：github.com/QwenLM/Qwen-Image
社区体验地址：modelscope.cn/aigc/imageGeneration
+ Qwen Code 提供每天两千次的免费请求

## 5. 其他动态

1. 面壁开源 MiniCPM-V-4 模型，一个图/视频推理模型，模型总参数量4.1B，本地设备可以运行。

模型地址：huggingface.co/openbmb/MiniCPM-V-4

2. ElevenLabs 推出音乐生成模型，支持包括英语、西班牙语、德语、日语在内的多种语言。可完全控制音乐的流派、风格和结构，能够编辑单个片段或整首歌曲的声音和歌词。但是最期待的功能，是能够指定演唱者的音色，用同一个音色生成不同的歌曲。

体验地址：elevenlabs.io/music

3. Chatterbox：Resemble AI 首个生产级开源MIT协议的TTS模型，0.5B参数，训练于50万小时高质量语音数据

体验地址：resemble-ai.github.io/chatterbox_demopage
Repo 地址：github.com/stlohrey/chatterbox-finetuning

4. Kitten TTS：一款 23.8MB 的开源文本转语音模型，仅有 1500 万参数，可CPU运行

Repo 地址：github.com/KittenML/KittenTTS
模型地址：huggingface.co/KittenML/kitten-tts-nano-0.1

5. 谷歌DeepMind科学家Kevin Murphy最新论文《Reinforcement Learning: An Overview》，全面系统梳理强化学习理论与实践。

论文地址： arxiv.org/abs/2412.05265

6. OPPO 开发了一个叫 “Efficient Agents” 的新 agents 框架，与开源代理框架 OWL 相比，“Efficient Agents” 能保留 96.7% 的性能，但运营成本从 0.398 美元降到了 0.228 美元。

论文地址：arxiv.org/abs/2508.02694
Repo 地址：github.com/OPPO-PersonalAI/OAgents

7. 马斯克扬言要开源 Grok-2（这性能开源了也没人用呀）。

8. Tesla Dojo团队解散，后续车机显卡应该只用nvidia了。

9. 传言马斯克正在挑选 Meta 公司的所有顶尖研究人才（小扎：刚挖来的就被惦记了）。

10. 2025北京亦庄举办的世界机器人大会 8月8日开幕。

## Github Repos Recommend

1. gpt-5-coding-examples

Repo 推荐对 AI 编程有兴趣的看看，包含大量的 GPT-5 编程示例，包括原始提示词、生成结果，结果展示。

Repo 地址：github.com/openai/gpt-5-coding-examples

Demo 地址：gpt-examples.com/

2. OpenBB

用于量化交易或金融分析，将所有主流金融数据源整合到一个开源平台中，通过统一的 API 接口，让获取股票、期权、外汇、宏观经济等各类金融数据，还提供了可视化界面和 AI Agent 功能。

Repo 地址：github.com/OpenBB-finance/OpenBB

3. Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling《Sparc3D：高分辨率3D形状建模的稀疏表示与构建方法》，Sparc3D 通过稀疏可变形 Marching Cubes（Sparcubes）和稀疏卷积 VAE（Sparconv-VAE）相结合，首创可微、高保真、轻量的统一式高分辨率3D生成框架，解决了传统 VAE 表示效率低与重建损失大的痛点。

Blog 地址：lizhihao6.github.io/Sparc3D/

Gemini

Gemini Storybook — for the stories only you could imagine

Create personalized, illustrated stories with Gemini Storybook. Describe the story you want, and get a unique 10-page book with read-aloud narration.