# 2025W32 AI大模型领域精选热点 🔥
---
## 1. OpenAI GPT5 终于发布
> 训练时长2年半的GPT5 怎么样呢?评价两极分化,负面占比多,发布会图片莫不是模型训练使用了某国统计局数据???
+ GPT5 发布即回滚,山姆奥特曼被舆情干趴,现在又在组织力量让o3、4.5、4.1回归。
+ GPT5 亮点1:实时路由系统”(Real-time Router)动态判断问题复杂度,自动切换快速响应模式或深度思考模式(例如用户输入“think hard about this”可触发深度推理)。该设计消除了用户手动切换模型的负担,实现无缝体验(真的嘛???)。
+ GPT5 亮点2:减少幻觉:更诚实,降低迎合性回答。编程与专业能力:复杂代码库处理、网站/游戏生成能力增强。
+ OpenAI 发布两个开放权重模型! gpt-oss-120b 激活参数量 5.1B,甚至能在单张 Nvidia 显卡(H100 80G)上运行。gpt-oss-20b 激活参数量 3.6B,甚至可在拥有16GB内存的普通笔记本电脑上运行(已测试速度相当慢)。两个都是 MoE 架构的推理模型,原生 MXFP4。
## 2. Anthropic 发布 Claude Opus 4.1
> 代码能力遥遥领先 Claude Opus 4.1 > Gemini-2.5-Pro > GPT-5-Thinking
+ 在代理任务、真实世界编码和推理方面的升级,尤其是在多文件代码重构方面的性能提升显著。
## 3. Google
> 敏捷又强大,轻松干掉一堆startup
+ Gemini 上线 StoryBook,体验地址 https://gemini.google/overview/storybook/
+ 只要上传一段文字或者提示词或者文档,就可以生成一本图文并茂的故事书,效果相当相当的好!
+ 一个 Agent,大概有 20 多个 Tools,能自主的调用工具收集上下文完成任务。
+ Google 发布迄今为止最先进的世界模拟器(世界模型)Genie 3 能从文字或图片即时生成可玩的 3D 互动世界
+ 能生成用户和 AI Agent 实时交互的 3D 环境,可以用于教育、娱乐等场景,感觉还可以和具身智能结合,帮助机器人理解现实物理世界。
+ 3D 互动世界具备高保真视觉效果、20-24 帧每秒的流畅画面、即时提示交互、世界记忆等多项强大功能。
+ Google 推出 web guide,AI给总结不直接出内容,而是给个概览 (AI整合好的最相关的几个网页链接)。或许是最强的矛和最强的盾,终归有一方要妥协。Google的AI搜索革命道路曲折呀(本已是搜索推荐的No1),AI 搜索竭泽而渔导致源站获取不到流量,从共生变成竞争,再继续进一步或许Google 再也爬不到信息了。
## 4. Ali Qwen
+ 开源 Qwen3 4B 模型:Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507,新版本提升了思考能力,并且增加了思考长度,上下文支持 256K!
模型地址:huggingface.co/Qwen/Qwen3-4B-Instruct-2507 和 huggingface.co/Qwen/Qwen3-4B-Thinking-2507
+ 开源 Owen-image 模型:20B 参数,主打图片生成和编辑,尤其擅长处理复杂的文字内容。中文、英文、中英文混排,甚至大段中文手写体都能处理,布局合理。能做各种风格的图片,比如写实、二次元、水墨、极简、海报、PPT等,还能通过自然语言指令调整细节,比如改字体、改姿势、加物体、换风格等。编辑图片的时候,它能保留原有的细节和氛围,做出来的效果也很自然,没有违和感。
模型地址: huggingface.co/Qwen/Qwen-Image
Github:github.com/QwenLM/Qwen-Image
社区体验地址:modelscope.cn/aigc/imageGeneration
+ Qwen Code 提供每天两千次的免费请求
## 5. 其他动态
1. 面壁开源 MiniCPM-V-4 模型,一个图/视频推理模型,模型总参数量4.1B,本地设备可以运行。
模型地址:huggingface.co/openbmb/MiniCPM-V-4
2. ElevenLabs 推出音乐生成模型,支持包括英语、西班牙语、德语、日语在内的多种语言。可完全控制音乐的流派、风格和结构,能够编辑单个片段或整首歌曲的声音和歌词。但是最期待的功能,是能够指定演唱者的音色,用同一个音色生成不同的歌曲。
体验地址:elevenlabs.io/music
3. Chatterbox:Resemble AI 首个生产级开源MIT协议的TTS模型,0.5B参数,训练于50万小时高质量语音数据
体验地址:resemble-ai.github.io/chatterbox_demopage
Repo 地址:github.com/stlohrey/chatterbox-finetuning
4. Kitten TTS:一款 23.8MB 的开源文本转语音模型,仅有 1500 万参数,可CPU运行
Repo 地址:github.com/KittenML/KittenTTS
模型地址:huggingface.co/KittenML/kitten-tts-nano-0.1
5. 谷歌DeepMind科学家Kevin Murphy最新论文《Reinforcement Learning: An Overview》,全面系统梳理强化学习理论与实践。
论文地址: arxiv.org/abs/2412.05265
6. OPPO 开发了一个叫 “Efficient Agents” 的新 agents 框架,与开源代理框架 OWL 相比,“Efficient Agents” 能保留 96.7% 的性能,但运营成本从 0.398 美元降到了 0.228 美元。
论文地址:arxiv.org/abs/2508.02694
Repo 地址:github.com/OPPO-PersonalAI/OAgents
7. 马斯克扬言要开源 Grok-2(这性能开源了也没人用呀)。
8. Tesla Dojo团队解散,后续车机显卡应该只用nvidia了。
9. 传言马斯克正在挑选 Meta 公司的所有顶尖研究人才(小扎:刚挖来的就被惦记了)。
10. 2025北京亦庄举办的世界机器人大会 8月8日开幕。
## Github Repos Recommend
1. gpt-5-coding-examples
Repo 推荐对 AI 编程有兴趣的看看,包含大量的 GPT-5 编程示例,包括原始提示词、生成结果,结果展示。
Repo 地址:github.com/openai/gpt-5-coding-examples
Demo 地址:gpt-examples.com/
2. OpenBB
用于量化交易或金融分析,将所有主流金融数据源整合到一个开源平台中,通过统一的 API 接口,让获取股票、期权、外汇、宏观经济等各类金融数据,还提供了可视化界面和 AI Agent 功能。
Repo 地址:github.com/OpenBB-finance/OpenBB
3. Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling《Sparc3D:高分辨率3D形状建模的稀疏表示与构建方法》,Sparc3D 通过稀疏可变形 Marching Cubes(Sparcubes)和稀疏卷积 VAE(Sparconv-VAE)相结合,首创可微、高保真、轻量的统一式高分辨率3D生成框架,解决了传统 VAE 表示效率低与重建损失大的痛点。
Blog 地址:lizhihao6.github.io/Sparc3D/
---
## 1. OpenAI GPT5 终于发布
> 训练时长2年半的GPT5 怎么样呢?评价两极分化,负面占比多,发布会图片莫不是模型训练使用了某国统计局数据???
+ GPT5 发布即回滚,山姆奥特曼被舆情干趴,现在又在组织力量让o3、4.5、4.1回归。
+ GPT5 亮点1:实时路由系统”(Real-time Router)动态判断问题复杂度,自动切换快速响应模式或深度思考模式(例如用户输入“think hard about this”可触发深度推理)。该设计消除了用户手动切换模型的负担,实现无缝体验(真的嘛???)。
+ GPT5 亮点2:减少幻觉:更诚实,降低迎合性回答。编程与专业能力:复杂代码库处理、网站/游戏生成能力增强。
+ OpenAI 发布两个开放权重模型! gpt-oss-120b 激活参数量 5.1B,甚至能在单张 Nvidia 显卡(H100 80G)上运行。gpt-oss-20b 激活参数量 3.6B,甚至可在拥有16GB内存的普通笔记本电脑上运行(已测试速度相当慢)。两个都是 MoE 架构的推理模型,原生 MXFP4。
## 2. Anthropic 发布 Claude Opus 4.1
> 代码能力遥遥领先 Claude Opus 4.1 > Gemini-2.5-Pro > GPT-5-Thinking
+ 在代理任务、真实世界编码和推理方面的升级,尤其是在多文件代码重构方面的性能提升显著。
## 3. Google
> 敏捷又强大,轻松干掉一堆startup
+ Gemini 上线 StoryBook,体验地址 https://gemini.google/overview/storybook/
+ 只要上传一段文字或者提示词或者文档,就可以生成一本图文并茂的故事书,效果相当相当的好!
+ 一个 Agent,大概有 20 多个 Tools,能自主的调用工具收集上下文完成任务。
+ Google 发布迄今为止最先进的世界模拟器(世界模型)Genie 3 能从文字或图片即时生成可玩的 3D 互动世界
+ 能生成用户和 AI Agent 实时交互的 3D 环境,可以用于教育、娱乐等场景,感觉还可以和具身智能结合,帮助机器人理解现实物理世界。
+ 3D 互动世界具备高保真视觉效果、20-24 帧每秒的流畅画面、即时提示交互、世界记忆等多项强大功能。
+ Google 推出 web guide,AI给总结不直接出内容,而是给个概览 (AI整合好的最相关的几个网页链接)。或许是最强的矛和最强的盾,终归有一方要妥协。Google的AI搜索革命道路曲折呀(本已是搜索推荐的No1),AI 搜索竭泽而渔导致源站获取不到流量,从共生变成竞争,再继续进一步或许Google 再也爬不到信息了。
## 4. Ali Qwen
+ 开源 Qwen3 4B 模型:Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507,新版本提升了思考能力,并且增加了思考长度,上下文支持 256K!
模型地址:huggingface.co/Qwen/Qwen3-4B-Instruct-2507 和 huggingface.co/Qwen/Qwen3-4B-Thinking-2507
+ 开源 Owen-image 模型:20B 参数,主打图片生成和编辑,尤其擅长处理复杂的文字内容。中文、英文、中英文混排,甚至大段中文手写体都能处理,布局合理。能做各种风格的图片,比如写实、二次元、水墨、极简、海报、PPT等,还能通过自然语言指令调整细节,比如改字体、改姿势、加物体、换风格等。编辑图片的时候,它能保留原有的细节和氛围,做出来的效果也很自然,没有违和感。
模型地址: huggingface.co/Qwen/Qwen-Image
Github:github.com/QwenLM/Qwen-Image
社区体验地址:modelscope.cn/aigc/imageGeneration
+ Qwen Code 提供每天两千次的免费请求
## 5. 其他动态
1. 面壁开源 MiniCPM-V-4 模型,一个图/视频推理模型,模型总参数量4.1B,本地设备可以运行。
模型地址:huggingface.co/openbmb/MiniCPM-V-4
2. ElevenLabs 推出音乐生成模型,支持包括英语、西班牙语、德语、日语在内的多种语言。可完全控制音乐的流派、风格和结构,能够编辑单个片段或整首歌曲的声音和歌词。但是最期待的功能,是能够指定演唱者的音色,用同一个音色生成不同的歌曲。
体验地址:elevenlabs.io/music
3. Chatterbox:Resemble AI 首个生产级开源MIT协议的TTS模型,0.5B参数,训练于50万小时高质量语音数据
体验地址:resemble-ai.github.io/chatterbox_demopage
Repo 地址:github.com/stlohrey/chatterbox-finetuning
4. Kitten TTS:一款 23.8MB 的开源文本转语音模型,仅有 1500 万参数,可CPU运行
Repo 地址:github.com/KittenML/KittenTTS
模型地址:huggingface.co/KittenML/kitten-tts-nano-0.1
5. 谷歌DeepMind科学家Kevin Murphy最新论文《Reinforcement Learning: An Overview》,全面系统梳理强化学习理论与实践。
论文地址: arxiv.org/abs/2412.05265
6. OPPO 开发了一个叫 “Efficient Agents” 的新 agents 框架,与开源代理框架 OWL 相比,“Efficient Agents” 能保留 96.7% 的性能,但运营成本从 0.398 美元降到了 0.228 美元。
论文地址:arxiv.org/abs/2508.02694
Repo 地址:github.com/OPPO-PersonalAI/OAgents
7. 马斯克扬言要开源 Grok-2(这性能开源了也没人用呀)。
8. Tesla Dojo团队解散,后续车机显卡应该只用nvidia了。
9. 传言马斯克正在挑选 Meta 公司的所有顶尖研究人才(小扎:刚挖来的就被惦记了)。
10. 2025北京亦庄举办的世界机器人大会 8月8日开幕。
## Github Repos Recommend
1. gpt-5-coding-examples
Repo 推荐对 AI 编程有兴趣的看看,包含大量的 GPT-5 编程示例,包括原始提示词、生成结果,结果展示。
Repo 地址:github.com/openai/gpt-5-coding-examples
Demo 地址:gpt-examples.com/
2. OpenBB
用于量化交易或金融分析,将所有主流金融数据源整合到一个开源平台中,通过统一的 API 接口,让获取股票、期权、外汇、宏观经济等各类金融数据,还提供了可视化界面和 AI Agent 功能。
Repo 地址:github.com/OpenBB-finance/OpenBB
3. Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling《Sparc3D:高分辨率3D形状建模的稀疏表示与构建方法》,Sparc3D 通过稀疏可变形 Marching Cubes(Sparcubes)和稀疏卷积 VAE(Sparconv-VAE)相结合,首创可微、高保真、轻量的统一式高分辨率3D生成框架,解决了传统 VAE 表示效率低与重建损失大的痛点。
Blog 地址:lizhihao6.github.io/Sparc3D/