# 2025W38 AI大模型领域精选热点 🔥

---

## 1. OpenAI

+ OpenAI 更新发布了 GPT-5-CodeX! ,专门针对 Codex 优化,更易于引导,更能遵循 AGENTS. md 的指示。它基于GPT-5进行了进一步强化,更适合真正的软件开发场景。此外,它的代码审查能力也得到大幅提升,能在软件上线前揪出关键漏洞。目前,GPT-5-Codex已经全面上线:云端任务和代码审查默认使用该模型,也可以在本地通过Codex CLI和IDE扩展自由切换使用。

+ OpenAI发布史上最大规模ChatGPT用户行为报告:

+ 用户活跃度持续增长,所有用户群体的消息量均稳步提升。
+ 职业差异显著,计算机相关岗位使用率近60%领跑,管理与工程科学类紧随其后约50%,非专业用户也达40%。
+ 功能偏好集中于实用指导(29%)、信息查询(25%)、写作(24%)与多媒体创作(7%),编程对话仅占4.2%,陪伴类更低至1.9%。
+ 性别比例趋向平衡,女性用户首次超越男性,46%用户年龄集中18-25岁,老年用户工作相关对话占比显著减少,仅16%。

参考地址:cdn.openai.com/pdf/a253471f-8260-40c6-a2cc-aa93fe9f142e/economic-research-chatgpt-usage-paper.pdf

+ OpenAI发布大学生专属大语言模型聊天话题指南(100 chats for college students),涉及学习、职业发展、生活等多个方面。

参考地址:chatgpt.com/use-cases/students

+ OpenAI 和 Gemini 2.5 Deep Think 都刷到了 2025 ICPC 金牌!OpenAI 12 题全对(12/12),Gemini(10/12)。

## 2. Ali

+ 开源新模型 Wan2.2-Animate-14B,这是一个统一的角色动画和替换模型,能够完整复制动作和表情。一定程度上替代动作捕捉。基于 Wan-I2V 构建的。对于身体运动控制,使用通过空间对齐合并的骨架信号。对于面部表情控制,利用从面部图像中提取的隐式特征作为驱动信号。此外,对于角色替换,还训练了一个辅助的 Relighting LoRA 来增强角色与新环境的融合。

模型地址:huggingface.co/Wan-AI/Wan2.2-Animate-14B

+ 国产GPU:平头哥最新的 GPU/AI 算力卡,片间带宽能达到 700GB/s,而且搭载 HBM2e显存96G,功耗400W, 感觉这个卡可以用来训练了。

+ 据传,qwen3 多模态模型将迎来一波更新。

## 3. Google

+ 谷歌发布了带有 Gemini 的 Chrome 浏览器,支持总结回答页面问题,对比多页面的信息,跨站点快速提炼关键信息,未来会上线 Agentic 能力,操作浏览器网页完成任务,仅美国地区可用

+ 谷歌推出**代理支付协议(AP2)**。谷歌与领先的支付和技术公司共同开发的开放协议,旨在安全地跨平台发起和处理Agent主导的支付。该协议可作为**代理对代理 (A2A)** 协议和模型**上下文协议 (MCP)** 的扩展。正在与 60 多个组织组成的多元化团体合作。

Repo 地址:github.com/google-agentic-commerce/AP2

官方介绍:cloud.google.com/blog/products/ai-machine-learning/announcing-agents-to-payments-ap2-protocol

## 4. Meta

+ Meta 新模型 MobileLLM-R1-950M,官方宣称超过了 Qwen3-0.6B (官方:Qwen3-0.6B 是在 36T 数据上训练出来的,我们只用了不到5T)。

模型地址:huggingface.co/facebook/MobileLLM-R1-950M

+ Meta 正式发布了新款的 Ray-Ban Display AI 智能眼镜(发布会严重翻车)。配备 EMG Neural Band 神经腕带可以用非常精准的手势控制眼镜,甚至可以虚空写字,重 69 克,混合使用续航 6 小时(配充电盒 30 小时),起价 799 美元,9 月 30 日在美国发售。

## 5. 其他动态

1. NVIDIA ViPE,用于 3D 几何感知的视频姿势引擎,可以将视频转换为3D空间。

官网:research.nvidia.com/labs/toronto-ai/vipe/
论文:research.nvidia.com/labs/toronto-ai/vipe/assets/paper.pdf
Repo: github.com/nv-tlabs/vipe

2. 字节开源SAIL-VL2一种开放式视觉语言基础模型(LVM) 实现全面的多模态理解和推理。有2B、8B、推理\不推理一共四个版本。

技术报告:huggingface.co/papers/2509.14033
论文地址:arxiv.org/abs/2509.14033







## Github Repos Recommend

1. Github 官方发布的39个mcp server,可一键安装到VSCode

Repo地址:github.com/mcp

2. presentation-ai 开源的 AI 演示文稿生成器,只需输入主题,AI 就能自动生成完整的 PPT 大纲和精美的幻灯片,支持多种主题风格、自定义配色方案,还能根据内容智能配图。

Repo 地址:github.com/allweonedev/presentation-ai

3. Tongyi DeepResearch:阿里巴巴推出的顶尖开源深度研究Agent,专注长时域信息检索和复杂推理任务。

完全开源的 Web Agent。模型Alibaba-NLP/Tongyi-DeepResearch-30B-A3B,上下文128K,端到端agent训练 。

+ 全流程数据合成:不依赖昂贵的人工标注,通过创新的数据合成方案,为智能体的持续预训练(CPT)、监督微调(SFT)和强化学习(RL)提供海量高质量数据 。

+ 端到端训练框架:建立了一个从“智能体持续预训练”到“智能体强化学习”的无缝训练循环,并采用定制化的在策略(on-policy)强化学习算法(GRPO)来对齐模型行为 。

+ 创新的推理模式:除了标准的ReAct模式,还开发了基于IterResearch范式的“重模式”(Heavy Mode),通过解构任务和重组工作区来克服长程任务中的“认知窒息”问题,从而最大化模型的推理和规划潜力 。

模型地址:huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
Repo地址:github.com/Alibaba-NLP/DeepResearch
技术博客:tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

4. CodeX

OpenAI 官方出的的《OpenAI 如何使用 Codex》的文档

+ 从 "询问模式" (Ask Mode) 开始:对于复杂的任务,先让 Codex 生成一个实现计划,再切换到代码模式进行具体操作 。
+ 结构化提示词:像写一个 Github Issue 一样提供清晰的上下文,包括文件路径、组件名和代码片段等 。
+ 迭代优化开发环境:通过配置启动脚本和环境变量来减少 Codex 的错误率 。
+ 善用任务队列:将一些次要的修复或想法随时抛给 Codex,作为一个轻量级的待办事项列表 。
+ 利用 AGENTS.md 文件提供持久上下文:在这个文件中定义项目的命名规范、业务逻辑等信息,帮助 Codex 更好地理解项目 。
+ 利用 "N选优" (Best of N) 功能:针对一个任务生成多个方案,从中挑选最好的一个或组合成一个更强的方案 。

Repo地址:github.com/openai/codex

5. ardupilot 自动驾驶开源软件

可以用来自动驾驶 飞机,水下航行器,直升机,漫游车,帆船,四旋翼飞机、多旋翼飞行器,直升机,平衡机器人,甚至潜艇

Repo地址:github.com/ArduPilot/ardupilot









https://deeplearningwithpython.io/chapters/
 
 
Back to Top