2025W41 AI大模型领域精选热点 🔥
1. Google
▪ 据传,将于本月22号发布 gemini3
▪ 推出 Gemini 2.5 Computer Use 模型,目前在 preview 阶段。 可通过 Gemini API 为开发者带来直接操控电脑界面的 AI 能力,这个模型基于 Gemini 2.5 Pro 强大的视觉理解与推理能力构建,可以让 AI 智能体像人类一样,直接点击、滚动、输入文字,实现与网页或应用的交互。模型的核心功能通过 Gemini API 中新增的“computer_use”工具,并可在循环内操作。开发者可通过 Gemini API,在 Google AI Studio 和 Vertex AI 中提前体验。 原文地址:blog.google/technology/google-deepmind/gemini-computer-use-model
▪ DeepMind 发布 CodeMender,基于 Gemini Deep Think 的 AI 自动修复关键软件漏洞的智能代理。 原文地址:x.com/GoogleDeepMind/status/1975185557593448704
▪ Veo 3.1 即将发布,新的模型采用了突破性的训练方法,在大幅降低成本的同时,提升了视频效果。可以生成 30 秒以上,1080p 的视频。现在可以先加入 Higgsfield 的等待列表。 原文地址:higgsfield.ai/veo3.1
▪ Google 正在研发一种全新的语音搜索方法, Speech-to-Retrieval(S2R)。它跟以前习惯的语音转文字再搜索不一样。S2R 的特别之处在于,从海量数据中学习来理解语音与信息之间的关系。音频编码器处理查询的原始音频,将其转换为能够捕捉其语义的丰富向量表示。与此同时,文档编码器则学习类似的文档向量表示。技术上,采用了一种双编码器的结构,把语音和所有文档都变成 “向量”,然后在这些 “向量” 里找到最匹配的结果,效率和准确率都大大提高。还开源相应的评估数据集。 原文:research.google/blog/speech-to-retrieval-s2r-a-new-approach-to-voice-search/ 开源数据集:huggingface.co/datasets/google/svq
2. OpenAI
▪ 在 OpenAI Cookbook上 发布 Sora 2 提示词指南 原文地址:cookbook.openai.com/examples/sora/sora2_prompting_guide
▪ Hemanth Asirvatham 制作的短片(完全由 Sora 制作的短片拼接而成),讲述人类科技发展的历史。
▪ OpenAI与Broadcom正式宣布战略合作协议。这是OpenAI近期在芯片领域的第三个重大动作——两周前,OpenAI刚与NVIDIA达成高达1000亿美元的投资协议,承诺部署10吉瓦的NVIDIA系统;一周前,又与AMD签署6吉瓦GPU部署协议,可能获得AMD高达10%的股份。三周内,OpenAI承诺了约33吉瓦的算力部署。与前两项协议不同,Broadcom合作的特点在于OpenAI将首次深度参与定制芯片设计,而非采购现有产品。
3. Ali
▪ Qwen 在内部组建了一个专注于机器人与具身 AI 的团队。
▪ next week 有新模型发布预告,已发布 Qwen3-VL cookbook Repo 地址:github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
▪ Qwen 未来扩大训练规模计划
▪ Scaling context-length 1M -> 10/100M
▪ Scaling model parameters 1T -> 10T
▪ Scaling trainin tokens 10T -> 100T
▪ Scaling test-time compute 64K -> 1M
▪ Scaling RL compute 5% -> 50%
▪ Scaling synthetic data -> more compute than training
▪ Scaling environments
▪
4. Apple
▪ Apple MCP 让 AI 助手直接操作 Mac 上多种原生应用,已支持信息、邮件、日历、提醒事项、通讯录、地图等。 - 信息:发送消息、读取聊天记录、定时发送; - 邮件:发送邮件、搜索邮件、查看未读数量、定时发送; - 日程:创建事件、搜索日程、查看即将到来的安排; - 提醒事项:创建带截止日期的提醒、搜索和管理待办事项; - 通讯录:查找联系人、获取电话号码等信息; - 地图:搜索位置、保存收藏、获取路线、创建指南。 Repo 地址:github.com/dhravya/apple-mcp
5. 其他动态
1 微软发布新模型 UserLM-8B, 这个模型不是作为人工智能助手,而是作为用户!创意不错。 Unlike typical LLMs that are trained to play the role of the "assistant" in conversation, we trained UserLM-8b to simulate the “user” role in conversation (by training it to predict user turns in a large corpus of conversations called WildChat).
模型地址:huggingface.co/microsoft/UserLM-8b
2 马斯克:XAI游戏工作室的首款AI生成游戏明年发布。
3 figure 03 机器人量产登上时代杂志封面,原文地址:figure.ai/news/introducing-figure-03
4 Karpathy nanoGPT 项目迭代,从零开始训练、调优和部署大语言模型。 8000 行代码,大概 100 美元的算力成本就可以训练出可以对话的模型,带有一个 UI 界面,项目覆盖从分词、预训练、对齐到推理与 WebUI的完整闭环。 Repo 地址:github.com/karpathy/nanoGPT
5 据传,字节正在内测一款全新的语音输入法。节前已有豆包输入法内测中,目前豆包输入法只有移动端。
6 京东自研的企业级大模型安全框架 JoySafety,开箱即用,支持大模型多轮会话智能识别、高风险内容即时阻断、红线知识库应答、自动引导正向回答等 Repo 地址:github.com/jd-opensource/JoySafety
1. Google
▪ 据传,将于本月22号发布 gemini3
▪ 推出 Gemini 2.5 Computer Use 模型,目前在 preview 阶段。 可通过 Gemini API 为开发者带来直接操控电脑界面的 AI 能力,这个模型基于 Gemini 2.5 Pro 强大的视觉理解与推理能力构建,可以让 AI 智能体像人类一样,直接点击、滚动、输入文字,实现与网页或应用的交互。模型的核心功能通过 Gemini API 中新增的“computer_use”工具,并可在循环内操作。开发者可通过 Gemini API,在 Google AI Studio 和 Vertex AI 中提前体验。 原文地址:blog.google/technology/google-deepmind/gemini-computer-use-model
▪ DeepMind 发布 CodeMender,基于 Gemini Deep Think 的 AI 自动修复关键软件漏洞的智能代理。 原文地址:x.com/GoogleDeepMind/status/1975185557593448704
▪ Veo 3.1 即将发布,新的模型采用了突破性的训练方法,在大幅降低成本的同时,提升了视频效果。可以生成 30 秒以上,1080p 的视频。现在可以先加入 Higgsfield 的等待列表。 原文地址:higgsfield.ai/veo3.1
▪ Google 正在研发一种全新的语音搜索方法, Speech-to-Retrieval(S2R)。它跟以前习惯的语音转文字再搜索不一样。S2R 的特别之处在于,从海量数据中学习来理解语音与信息之间的关系。音频编码器处理查询的原始音频,将其转换为能够捕捉其语义的丰富向量表示。与此同时,文档编码器则学习类似的文档向量表示。技术上,采用了一种双编码器的结构,把语音和所有文档都变成 “向量”,然后在这些 “向量” 里找到最匹配的结果,效率和准确率都大大提高。还开源相应的评估数据集。 原文:research.google/blog/speech-to-retrieval-s2r-a-new-approach-to-voice-search/ 开源数据集:huggingface.co/datasets/google/svq
2. OpenAI
▪ 在 OpenAI Cookbook上 发布 Sora 2 提示词指南 原文地址:cookbook.openai.com/examples/sora/sora2_prompting_guide
▪ Hemanth Asirvatham 制作的短片(完全由 Sora 制作的短片拼接而成),讲述人类科技发展的历史。
▪ OpenAI与Broadcom正式宣布战略合作协议。这是OpenAI近期在芯片领域的第三个重大动作——两周前,OpenAI刚与NVIDIA达成高达1000亿美元的投资协议,承诺部署10吉瓦的NVIDIA系统;一周前,又与AMD签署6吉瓦GPU部署协议,可能获得AMD高达10%的股份。三周内,OpenAI承诺了约33吉瓦的算力部署。与前两项协议不同,Broadcom合作的特点在于OpenAI将首次深度参与定制芯片设计,而非采购现有产品。
3. Ali
▪ Qwen 在内部组建了一个专注于机器人与具身 AI 的团队。
▪ next week 有新模型发布预告,已发布 Qwen3-VL cookbook Repo 地址:github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
▪ Qwen 未来扩大训练规模计划
▪ Scaling context-length 1M -> 10/100M
▪ Scaling model parameters 1T -> 10T
▪ Scaling trainin tokens 10T -> 100T
▪ Scaling test-time compute 64K -> 1M
▪ Scaling RL compute 5% -> 50%
▪ Scaling synthetic data -> more compute than training
▪ Scaling environments
▪
4. Apple
▪ Apple MCP 让 AI 助手直接操作 Mac 上多种原生应用,已支持信息、邮件、日历、提醒事项、通讯录、地图等。 - 信息:发送消息、读取聊天记录、定时发送; - 邮件:发送邮件、搜索邮件、查看未读数量、定时发送; - 日程:创建事件、搜索日程、查看即将到来的安排; - 提醒事项:创建带截止日期的提醒、搜索和管理待办事项; - 通讯录:查找联系人、获取电话号码等信息; - 地图:搜索位置、保存收藏、获取路线、创建指南。 Repo 地址:github.com/dhravya/apple-mcp
5. 其他动态
1 微软发布新模型 UserLM-8B, 这个模型不是作为人工智能助手,而是作为用户!创意不错。 Unlike typical LLMs that are trained to play the role of the "assistant" in conversation, we trained UserLM-8b to simulate the “user” role in conversation (by training it to predict user turns in a large corpus of conversations called WildChat).
模型地址:huggingface.co/microsoft/UserLM-8b
2 马斯克:XAI游戏工作室的首款AI生成游戏明年发布。
3 figure 03 机器人量产登上时代杂志封面,原文地址:figure.ai/news/introducing-figure-03
4 Karpathy nanoGPT 项目迭代,从零开始训练、调优和部署大语言模型。 8000 行代码,大概 100 美元的算力成本就可以训练出可以对话的模型,带有一个 UI 界面,项目覆盖从分词、预训练、对齐到推理与 WebUI的完整闭环。 Repo 地址:github.com/karpathy/nanoGPT
5 据传,字节正在内测一款全新的语音输入法。节前已有豆包输入法内测中,目前豆包输入法只有移动端。
6 京东自研的企业级大模型安全框架 JoySafety,开箱即用,支持大模型多轮会话智能识别、高风险内容即时阻断、红线知识库应答、自动引导正向回答等 Repo 地址:github.com/jd-opensource/JoySafety