# 2025W38 AI大模型领域精选热点
🔥---
## 1. OpenAI
+ OpenAI 更新发布了 GPT-5-CodeX! ,专门针对 Codex 优化,更易于引导,更能遵循 AGENTS. md 的指示。它基于GPT-5进行了进一步强化,更适合真正的软件开发场景。此外,它的代码审查能力也得到大幅提升,能在软件上线前揪出关键漏洞。目前,GPT-5-Codex已经全面上线:云端任务和代码审查默认使用该模型,也可以在本地通过Codex CLI和IDE扩展自由切换使用。
+ OpenAI发布史上最大规模ChatGPT用户行为报告:
+ 用户活跃度持续增长,所有用户群体的消息量均稳步提升。
+ 职业差异显著,计算机相关岗位使用率近60%领跑,管理与工程科学类紧随其后约50%,非专业用户也达40%。
+ 功能偏好集中于实用指导(29%)、信息查询(25%)、写作(24%)与多媒体创作(7%),编程对话仅占4.2%,陪伴类更低至1.9%。
+ 性别比例趋向平衡,女性用户首次超越男性,46%用户年龄集中18-25岁,老年用户工作相关对话占比显著减少,仅16%。
参考地址:cdn.openai.com/pdf/a253471f-8260-40c6-a2cc-aa93fe9f142e/economic-research-chatgpt-usage-paper.pdf+ OpenAI发布大学生专属大语言模型聊天话题指南(100 chats for college students),涉及学习、职业发展、生活等多个方面。
参考地址:chatgpt.com/use-cases/students+ OpenAI 和 Gemini 2.5 Deep Think 都刷到了 2025 ICPC 金牌!OpenAI 12 题全对(12/12),Gemini(10/12)。
## 2. Ali
+ 开源新模型 Wan2.2-Animate-14B,这是一个统一的角色动画和替换模型,能够完整复制动作和表情。一定程度上替代动作捕捉。基于 Wan-I2V 构建的。对于身体运动控制,使用通过空间对齐合并的骨架信号。对于面部表情控制,利用从面部图像中提取的隐式特征作为驱动信号。此外,对于角色替换,还训练了一个辅助的 Relighting LoRA 来增强角色与新环境的融合。
模型地址:huggingface.co/Wan-AI/Wan2.2-Animate-14B+ 国产GPU:平头哥最新的 GPU/AI 算力卡,片间带宽能达到 700GB/s,而且搭载 HBM2e显存96G,功耗400W, 感觉这个卡可以用来训练了。
+ 据传,qwen3 多模态模型将迎来一波更新。
## 3. Google
+ 谷歌发布了带有 Gemini 的 Chrome 浏览器,支持总结回答页面问题,对比多页面的信息,跨站点快速提炼关键信息,未来会上线 Agentic 能力,操作浏览器网页完成任务,仅美国地区可用
+ 谷歌推出**代理支付协议(AP2)**。谷歌与领先的支付和技术公司共同开发的开放协议,旨在安全地跨平台发起和处理Agent主导的支付。该协议可作为**代理对代理 (A2A)** 协议和模型**上下文协议 (MCP)** 的扩展。正在与 60 多个组织组成的多元化团体合作。
Repo
地址:github.com/google-agentic-commerce/AP2 官方介绍:cloud.google.com/blog/products/ai-machine-learning/announcing-agents-to-payments-ap2-protocol## 4. Meta
+ Meta 新模型 MobileLLM-R1-950M,官方宣称超过了 Qwen3-0.6B (官方:Qwen3-0.6B 是在 36T 数据上训练出来的,我们只用了不到5T)。
模型地址:huggingface.co/facebook/MobileLLM-R1-950M+ Meta 正式发布了新款的 Ray-Ban Display AI 智能眼镜(发布会严重翻车)。配备 EMG Neural Band 神经腕带可以用非常精准的手势控制眼镜,甚至可以虚空写字,重 69 克,混合使用续航 6 小时(配充电盒 30 小时),起价 799 美元,9 月 30 日在美国发售。
## 5. 其他动态
1. NVIDIA ViPE,用于 3D 几何感知的视频姿势引擎,可以将视频转换为3D空间。
官网:research.nvidia.com/labs/toronto-ai/vipe/ 论文:research.nvidia.com/labs/toronto-ai/vipe/assets/paper.pdf Repo:
github.com/nv-tlabs/vipe2. 字节开源SAIL-VL2一种开放式视觉语言基础模型(LVM) 实现全面的多模态理解和推理。有2B、8B、推理\不推理一共四个版本。
技术报告:huggingface.co/papers/2509.14033 论文地址:arxiv.org/abs/2509.14033 ## Github Repos Recommend
1. Github 官方发布的39个mcp server,可一键安装到VSCode
Repo地址:github.com/mcp2. presentation-ai 开源的 AI 演示文稿生成器,只需输入主题,AI 就能自动生成完整的 PPT 大纲和精美的幻灯片,支持多种主题风格、自定义配色方案,还能根据内容智能配图。
Repo
地址:github.com/allweonedev/presentation-ai3. Tongyi DeepResearch:阿里巴巴推出的顶尖开源深度研究Agent,专注长时域信息检索和复杂推理任务。
完全开源的 Web Agent。模型Alibaba-NLP/Tongyi-DeepResearch-30B-A3B,上下文128K,端到端agent训练 。
+ 全流程数据合成:不依赖昂贵的人工标注,通过创新的数据合成方案,为智能体的持续预训练(CPT)、监督微调(SFT)和强化学习(RL)提供海量高质量数据 。
+ 端到端训练框架:建立了一个从“智能体持续预训练”到“智能体强化学习”的无缝训练循环,并采用定制化的在策略(on-policy)强化学习算法(GRPO)来对齐模型行为 。
+ 创新的推理模式:除了标准的ReAct模式,还开发了基于IterResearch范式的“重模式”(Heavy Mode),通过解构任务和重组工作区来克服长程任务中的“认知窒息”问题,从而最大化模型的推理和规划潜力 。
模型地址:huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B Repo地址:github.com/Alibaba-NLP/DeepResearch 技术博客:tongyi-agent.github.io/blog/introducing-tongyi-deep-research/4. CodeX
OpenAI 官方出的的《OpenAI 如何使用 Codex》的文档
+ 从 "询问模式" (Ask Mode) 开始:对于复杂的任务,先让 Codex 生成一个实现计划,再切换到代码模式进行具体操作 。
+ 结构化提示词:像写一个 Github Issue 一样提供清晰的上下文,包括文件路径、组件名和代码片段等 。
+ 迭代优化开发环境:通过配置启动脚本和环境变量来减少 Codex 的错误率 。
+ 善用任务队列:将一些次要的修复或想法随时抛给 Codex,作为一个轻量级的待办事项列表 。
+ 利用
AGENTS.md 文件提供持久上下文:在这个文件中定义项目的命名规范、业务逻辑等信息,帮助 Codex 更好地理解项目 。
+ 利用 "N选优" (Best of N) 功能:针对一个任务生成多个方案,从中挑选最好的一个或组合成一个更强的方案 。
Repo地址:github.com/openai/codex5. ardupilot 自动驾驶开源软件
可以用来自动驾驶 飞机,水下航行器,直升机,漫游车,帆船,四旋翼飞机、多旋翼飞行器,直升机,平衡机器人,甚至潜艇
Repo地址:github.com/ArduPilot/ardupilot https://deeplearningwithpython.io/chapters/
deeplearningwithpython.io
Deep Learning with Python, Third Edition
Deep Learning with Python is written for anyone who wishes to explore deep learning from scratch. This new edition adds comprehensive coverage of generative AI and modern deep learning frameworks. It is available for free online.