2025W41 AI大模型领域精选热点 🔥1. Google ▪ 据传，将于本月22号发布 gemini3 ▪ 推出 Gemini 2.5 Computer Use 模型，目前在 preview 阶段

01:20 · Oct 15, 2025 · Wed

2025W41 AI大模型领域精选热点 🔥

1. Google
▪ 据传，将于本月22号发布 gemini3
▪ 推出 Gemini 2.5 Computer Use 模型，目前在 preview 阶段。可通过 Gemini API 为开发者带来直接操控电脑界面的 AI 能力，这个模型基于 Gemini 2.5 Pro 强大的视觉理解与推理能力构建，可以让 AI 智能体像人类一样，直接点击、滚动、输入文字，实现与网页或应用的交互。模型的核心功能通过 Gemini API 中新增的“computer_use”工具，并可在循环内操作。开发者可通过 Gemini API，在 Google AI Studio 和 Vertex AI 中提前体验。原文地址：blog.google/technology/google-deepmind/gemini-computer-use-model
▪ DeepMind 发布 CodeMender，基于 Gemini Deep Think 的 AI 自动修复关键软件漏洞的智能代理。原文地址：x.com/GoogleDeepMind/status/1975185557593448704
▪ Veo 3.1 即将发布，新的模型采用了突破性的训练方法，在大幅降低成本的同时，提升了视频效果。可以生成 30 秒以上，1080p 的视频。现在可以先加入 Higgsfield 的等待列表。原文地址：higgsfield.ai/veo3.1
▪ Google 正在研发一种全新的语音搜索方法， Speech-to-Retrieval（S2R）。它跟以前习惯的语音转文字再搜索不一样。S2R 的特别之处在于，从海量数据中学习来理解语音与信息之间的关系。音频编码器处理查询的原始音频，将其转换为能够捕捉其语义的丰富向量表示。与此同时，文档编码器则学习类似的文档向量表示。技术上，采用了一种双编码器的结构，把语音和所有文档都变成 “向量”，然后在这些 “向量” 里找到最匹配的结果，效率和准确率都大大提高。还开源相应的评估数据集。原文：research.google/blog/speech-to-retrieval-s2r-a-new-approach-to-voice-search/ 开源数据集：huggingface.co/datasets/google/svq

2. OpenAI
▪ 在 OpenAI Cookbook上发布 Sora 2 提示词指南原文地址：cookbook.openai.com/examples/sora/sora2_prompting_guide
▪ Hemanth Asirvatham 制作的短片（完全由 Sora 制作的短片拼接而成），讲述人类科技发展的历史。
▪ OpenAI与Broadcom正式宣布战略合作协议。这是OpenAI近期在芯片领域的第三个重大动作——两周前，OpenAI刚与NVIDIA达成高达1000亿美元的投资协议，承诺部署10吉瓦的NVIDIA系统；一周前，又与AMD签署6吉瓦GPU部署协议，可能获得AMD高达10%的股份。三周内，OpenAI承诺了约33吉瓦的算力部署。与前两项协议不同，Broadcom合作的特点在于OpenAI将首次深度参与定制芯片设计，而非采购现有产品。

3. Ali
▪ Qwen 在内部组建了一个专注于机器人与具身 AI 的团队。
▪ next week 有新模型发布预告，已发布 Qwen3-VL cookbook Repo 地址：github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
▪ Qwen 未来扩大训练规模计划
▪ Scaling context-length 1M -> 10/100M
▪ Scaling model parameters 1T -> 10T
▪ Scaling trainin tokens 10T -> 100T
▪ Scaling test-time compute 64K -> 1M
▪ Scaling RL compute 5% -> 50%
▪ Scaling synthetic data -> more compute than training
▪ Scaling environments
▪

4. Apple
▪ Apple MCP 让 AI 助手直接操作 Mac 上多种原生应用，已支持信息、邮件、日历、提醒事项、通讯录、地图等。 - 信息：发送消息、读取聊天记录、定时发送； - 邮件：发送邮件、搜索邮件、查看未读数量、定时发送； - 日程：创建事件、搜索日程、查看即将到来的安排； - 提醒事项：创建带截止日期的提醒、搜索和管理待办事项； - 通讯录：查找联系人、获取电话号码等信息； - 地图：搜索位置、保存收藏、获取路线、创建指南。 Repo 地址：github.com/dhravya/apple-mcp

5. 其他动态
1 微软发布新模型 UserLM-8B, 这个模型不是作为人工智能助手，而是作为用户！创意不错。 Unlike typical LLMs that are trained to play the role of the "assistant" in conversation, we trained UserLM-8b to simulate the “user” role in conversation (by training it to predict user turns in a large corpus of conversations called WildChat).

模型地址：huggingface.co/microsoft/UserLM-8b
2 马斯克：XAI游戏工作室的首款AI生成游戏明年发布。
3 figure 03 机器人量产登上时代杂志封面，原文地址：figure.ai/news/introducing-figure-03
4 Karpathy nanoGPT 项目迭代，从零开始训练、调优和部署大语言模型。 8000 行代码，大概 100 美元的算力成本就可以训练出可以对话的模型，带有一个 UI 界面，项目覆盖从分词、预训练、对齐到推理与 WebUI的完整闭环。 Repo 地址：github.com/karpathy/nanoGPT
5 据传，字节正在内测一款全新的语音输入法。节前已有豆包输入法内测中，目前豆包输入法只有移动端。
6 京东自研的企业级大模型安全框架 JoySafety，开箱即用，支持大模型多轮会话智能识别、高风险内容即时阻断、红线知识库应答、自动引导正向回答等 Repo 地址：github.com/jd-opensource/JoySafety

Google

Introducing the Gemini 2.5 Computer Use model

Today we are releasing the Gemini 2.5 Computer Use model via the API, which outperforms leading alternatives at browser and mobile tasks.