# 2025W29 AI大模型领域精选热点 🔥

---

## 1. OpenAI

> 开源模型发布怎么没消息了?不会是因为Kimi k2 开源吧(手动狗头.jpg

1. OpenAI 发布 ChatGPT Agent,集成了使用浏览器以及生成PPT或者电子表格等功能。感觉像是之前的 Operator (网页操作智能体)、Deep Research(深度研究)和 Codex (终端智能体)三合一版本,估计运行在一个虚拟机中,可以灵活的组合共同完成任务,扬长避短! Operator 和 Deep Research,一个侧重操作和交互,一个擅长深度信息检索和总结。
2. OpenAI 模型劫胡拿到 IMO 金牌,Google 模型好像早2天拿到金牌还未宣布,估计也不会宣布了。
3. OpenAI 新模型 GPT5 已在进行测试中,预计月底发布。

## 2. Google

> Gemini 3 还要等多久?

1. Google DeepMind 发布新的LLM模型架构:MoR,Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation。论文:www.arxiv.org/abs/2507.10524
2. Google embedding 发布新模型gemini-embedding-001 https://developers.googleblog.com/en/gemini-embedding-available-gemini-api/ 。论文https://arxiv.org/abs/2503.07891

## 3. Meta

> 小扎的人才Scaling Law

Meta 超级智能团队(Superintelligence)44位成员详细名单曝光!

+ 50%来自中国
+ 75%拥有博士学位,70%担任研究岗位
+ 40%曾就职于OpenAI,20%来自DeepMind,15%来自Scale AI
+ 20%达到Meta内部L8以上级别
+ 75%是第一代移民

上述顶尖人才的年薪预计高达 1 千万至 1 亿美元。

## 4. 上下文工程(Context Engineering)综述

> "多agent "本质上只是一种上下文管理的技巧??

+ 上下文工程基础组件:
1. 上下文的检索与生成,涉及基于提示词的生成和外部知识的获取;
2. 上下文处理,解决长序列处理、自我优化和结构化信息整合等问题;
3. 上下文管理,包含内存层次结构、压缩和优化等内容。

+ 上下文工程系统实现是这些基础组件在架构上的整合,主要有四类:
1. 检索增强生成(RAG),包括模块化、智能体化和图增强架构;
2. 记忆系统,支持持续交互;
3. 工具集成推理,用于函数调用和环境交互;
4. 多智能体系统,协调通信和编排。

地址:arxiv.org/abs/2507.13334

## 5. 其他动态

1. **AI代理的上下文工程:构建Manus的经验教训**(强烈推荐阅读) https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
2. 一款全新的多模态RAG系统:ColQwen-Omni,可以跨模态检索视频、音频、文档任意内容。 地址: https://huggingface.co/vidore/colqwen-omni-v0.1
3. 英伟达恢复H20对华销售,只要能清百万库存,皮衣随时可换唐装,若是显卡装进新能源车和机器人,这市场销量啧啧啧,还得是老黄会做生意。
4. 张小珺 的《老黄现场实录:“我当过全世界最没价值的CEO,也当过最有价值的”》
5. Agent Leaderboard v2 智能体能力评测榜单,不再局限于工具调用测试,而是迈向更真实的企业场景模拟。构建了涵盖五大行业的真实客户支持对话,涉及多轮对话、复杂决策和相互依赖的目标任务。地址: huggingface.co/blog/pratikbhavsar/agent-leaderboard-v2
6. 影视级TTS!IndexTTS2 马上就要发布了,这是文本生成语音的大模型,效果能达到影视级。完全本地化,开放权重。支持零样本语音克隆。只需提供一个音频文件(任何语言),它将极其准确地克隆语音风格和节奏(情绪控制、低语、尖叫、恐惧、欲望、愤怒等)。项目地址:index-tts.github.io/index-tts2.github.io
7. 字节跳动开源了一个7B翻译模型seed-x。可在轻量级和高效的软件包中提供出色的翻译性能,非常适合部署和推理。官方介绍模型翻译能力比Gemini-2.5、Claude-3.5 和 GPT-4 还强,或者持平。广泛的领域覆盖:Seed-X 在极具挑战性的翻译测试中表现出色,涵盖互联网、科学和技术、办公对话、电子商务、生物医学、金融、法律、文学和娱乐等多个领域。模型地址:huggingface.co/ByteDance-Seed/Seed-X-Instruct-7B
8. Grok 发布的AI虚拟二次元陪伴系统爆火,情绪价值拉满。
9. Amazon 推出 AI IDE KIRO!那么 Amazon Q 呢? 被砍 or 合并?可免费使用 claude-sonnet-4 ! 地址:kiro.dev
10. 秘塔AI悄悄上线了DeepResearch 地址:metaso.cn
11. 网飞的新剧《 El Eternauta》确认使用了生成式AI
12. Windsurf 收购风波结束:最终Devin 所属公司 Cognition AI 收购 Windsurf



## Github Repos Recommend

1. 一个类似Grok AI 陪伴系统 Ani 的开源项目:Bella(豆包 + 即梦 + Trae)

地址:github.com/Jackywine/Bella

2. 训练 Agent 能力的专用框架:ART(Agent Reinforcement Trainer)

框架可以将 GRPO 集成到Agent应用中,使用 GRPO 训练多步骤代理执行实际任务。为代理提供在职培训。支持 Qwen2.5、Qwen3、Llama、Kimi 等平台的强化学习!

地址:github.com/OpenPipe/ART

3. Panda Guard:北京人工智能安全研究院推出的,旨在研究越狱攻击、防御以及大型语言模型 (LLM) 的评估算法。该系统连接了三个关键组件:攻击者、防御者和评判者。
地址:github.com/Beijing-AISI/panda-guard

4. Google Scholar MCP Server:为 AI 助手打造的学术搜索桥梁,轻松调用 Google Scholar 论文资源。

+ 论文搜索:使用自定义搜索字符串或高级搜索参数查询 Google Scholar 论文
+ 高效检索:快速访问纸质元数据
+ 作者信息:检索有关作者的详细信息
+ 研究支持:促进学术研究和分析

地址:github.com/JackKuo666/Google-Scholar-MCP-Server Google for Developers Blog - News about Web, Mobile, AI and Cloud
 
 
Back to Top