1.自动化邮件分类和智能自动回复。
2. 个人日历 + 生活礼宾,用于安排日程、旅行和办事。
3. 会议、研究和电话的持续笔记摘要器。
4. 撰写、发布、回复和跟踪参与度的社交媒体代理。
5. 人工智能财务追踪器,可核对账户并预测支出。
6. 端到端招聘管道代理(JD→筛选→调度)。
7. 销售支持代理负责销售线索评分、外展和后续工作。
8. 财务结算代理,负责每晚核对分类账和报告。
9. 法律代理起草、修订和审查合同。
10. 采购代理比较供应商并谈判交易。
11. 市场研究代理分析实时趋势和见解。
12. 竞争情报人员监控竞争对手和文件。
13. 投资者研究代理扫描 SEC 数据和市场情绪。
14. 研发团队学术及专利探索代理。
15.企业政策及合规监控代理。
16. 统一的客户支持代理(电子邮件、聊天、社交)。
17. 内容营销代理生成博客、视觉效果和 SEO 草稿。
18. 管理多渠道性能的广告优化代理。
19.个性化电子商务购物助手。
20. 实时产品反馈和情绪分析代理。
21. DevOps 部署代理,用于自动代码交付。
22. 代码审查和测试代理确保干净的提交。
23. 自动连接系统的 API 构建器代理(无代码集成)。
24. 数据管道维护和 ETL 监控代理。
25. 安全审计代理扫描基础设施和代码库。
26. 个性化辅导代理,实现自适应学习。
27. 企业学习与发展 (L&D) 代理设计培训路径。
28. 为分析师和教授提供研究总结代理。
29. 语言学习对话代理。
30.技能认证和评级代理。
31. 用于发布和货币化可重复使用代理的代理商店。
32. 将专有数据集货币化的数据许可代理。
33. Agent-ops 管理代理,用于调试和评估。
34. 虚拟“员工”代理执行重复的公司角色。
35. 代理商驱动的市场,代理商在其中协商物流或定价。
36. 代理分析和可观察性仪表板。
37. 政策和安全治理代理(AI 合规层)。
38. 用于协商和许可的代理到代理协议构建器。
39. 数字劳动力的法律和责任追踪代理。
40. 代理驱动的广告和竞价系统。
41.“代理大学”教学编排与逻辑设计。
42. 声誉评分代理对其他代理的可信度进行评级。
43. 代理即服务市场(如 Shopify 智能主题)。
44. 消费设备和电器中的嵌入式代理。
45. 垂直领域特定代理(医疗保健、金融、物流、媒体)。
46. 连接多个生态系统的跨平台工作流编排代理。
47. 人工智能项目经理代理协调多团队执行。
48. 知识管理代理索引内部文档和聊天记录。
49. 活动策划和协调代理。
50. 个人研究和创意生成的伙伴。
[atguigu@hadoop102 hadoop]$ vim mapred-site.xml
文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定MapReduce程序运行在 Yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
[atguigu@hadoop102 hadoop]$ vim yarn-site.xml
文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定MR走 shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>
<!-- 环境变量的继承 -->
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO
NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP
RED_HOME</value>
</property>
</configuration>
[atguigu@hadoop102 hadoop]$ vim hdfs-site.xml
文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- nn web端访问地址-->
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102:9870</value>
</property>
<!-- 2nn web端访问地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:9868</value>
</property>
</configuration>
[atguigu@hadoop102 hadoop]$ vim core-site.xml
文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<!-- 指定hadoop数据的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>
<!-- 配置HDFS网页登录使用的静态用户为atguigu -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>atguigu</value>
</property>
</configuration>
#Infra
知乎回答《存储方向的出路是什么?》,里面列举了大模型训练和推理的技术栈,总共分为9层,开发者可以在这里找到自己的定位。
今天收到了好友涂俊杰寄来的礼物,是用本频道的信息打印成的册子,一本名为 Reorx’s Forge 的书。

用书本的形式阅读自己的频道,准确的说是自己一天天记录下的文字,是一种非常奇妙的感受。以前很佩服写日记的人,觉得能把生活记录在一本书里,就能把所经历的时光更鲜活地保存下来。如今翻看这个频道打印的册子,感受他的厚度,也让我有了过去几年的生活点滴变得更有意义的感觉。

俊杰说这个礼物是为了感谢我当年写的 n8n 构建个人信息流的教程对他的影响,而我也因为这个频道与他结识,通过他了解了时间记录法,从他的公众号里获益良多。所以更让我感到开心的,是我这几年来以这个频道为信源,向世界发出电波,与志同道合的人建立连接,而这本书就是这一切的回响,以及价值的证明。

正在看这个消息的你,感谢订阅我的频道,阅读我的文字,如果它们给你带来了有用的信息、灵感或会心一笑,那将是我做这件事最大的成就和快乐。
在计算机安全领域,我们将数据安全粗略分为三个维度:in-transit, at-rest, in-use。

HTTPS 可以保护 in-transit,AES 可以保护 at-rest,而 TEE 就是注重于保护 in-use 时的内存数据安全。理论上,一个妥善配置使用的 TEE,可以让用户放心地在不信任的环境中运行代码。

比如你作为一个版权所有方,可以要求对方提供可验证的 TEE 环境,然后你才会将重要的数据传输进对方的 TEE 加密环境中。即使这台机器完全在对方手中,TEE 硬件也会保障你数据的安全。

然而,这个安全神话最近被无情的打破了。研究者发现,SGX 的 CPU 和内存间的加密通信使用的是确定性的加密算法(deterministic)。那么通过运行一个自定义的 TEE 应用,然后再拦截内存总线上的加密数据流,就可以让 TEE 的内存加密芯片扮演一个 oracle 的角色,从而为攻击者提供充足的包含时序信息的密文,从而推断出 TEE 签名 QE REPORT 所使用的 ECDSA 私钥。

拿到签名私钥后,就可以为任意伪造的 REPORT 签名。而 SGX 正是通过 REPORT 来证明当前程序运行在一个可信的 TEE 环境之中。那么攻击者就可以实际在非加密环境中运行程序,但是仍然提供一个可信的 REPORT,从而骗取数据提供方的信任。

很可惜 Intel 也不打算修复这个问题,那么 TEE 安全性的基础(Trusted Computing Base, TCB)就得包含:

* TEE 硬件
* 可信的 host OS
* 可信的物理机器维护者

作为一个曾经的 TEE 开发者,说实话,前两者还可以通过软件手段来保障。但是最后一条,感觉完全扭曲了 TEE 的意义。如果你愿意信任机器的提供方,那么实际上 TEE 的意义就变成了防内贼而不是外贼。

作为一个开发者,你也可以从中吸取教训,谨记“一事一密”,利用随机数和密钥派生,不复用密钥,确保相同数据的每次加密结果都不一样。在加密以外,完整性验证也是非常重要的(integrity & authentic)。

扩展阅读:

* 我以前写过一系列介绍 TEE 的文章
* https://wiretap.fail/
* Intel 的回应: More Information on Encrypted Memory Frameworks for Intel Confidential Computing
官方进行了详细的测试证明并提供相应验证工具,Repo 地址:github.com/MoonshotAI/K2-Vendor-Verfier

2. Kimi 推出 ==OK Computer== 代理模式,名字很酷。已在内测中,有内测资格用户可在 kimi.com/chat/ 体验。(个人体感很不错,优先生成PPT)

+ 从聊天 → 多页网站、移动优先设计、可编辑幻灯片
+ 支持百万级数据行处理,生成式交互体验
+ 代理模式剧本自我评估、调查和设计能力
+ 原生训练于文件系统、浏览器、终端,工具调用深度集成
+ 较传统聊天模式拥有更多步骤、token 与工具,搭载 Turbo K2 提升性能

OK Computer 不只是一个 AI 助手,更是一个内置“计算机”的智能代理,真正实现任务自主分解与执行,适合复杂多步骤产品与工程场景。

3. Github 发布 ==Copilot Cli==,最大的优势是与 Github 深度结合,使用用 GitHub 账号登录即可,本地一键安装 npm install -g @github/copilot 其==代码不开源==。比如可以使用它直接查看 Assign 到的issue,统计提交的 PR,甚至做一些复杂的聚合:比如挑选最有价值PR、发现影响范围最大的bug,提交的代码行数等等。详细地址:docs.github.com/en/copilot/concepts/agents/about-copilot-cli

4. 微软公司宣布,将开始采用Anthropic公司的人工智能模型,进一步强化其职场AI助手Copilot。这次合作意义重大,因为此前微软的AI工具几乎全部由OpenAI提供支持。

从本周三开始,使用微软Copilot的企业用户,在进行数字研究辅助和构建定制AI工具时,可以自由选择使用来自OpenAI或Anthropic的模型。

5. Figma 发布官方的 MCP Server,在 Coding Agent 中配置好后,可直接==读取设计稿原型生成前端代码==。 详细地址:figma.com/mcp-catalog/

6. 宇树开源了一个世界模型**UnifoLM-WMA-0**,参数、数据集均对外开放。核心在于**世界模型能够理解机器人和环境相互作用时的物理规律**。Repo地址:github.com/unitreerobotics/unifolm-world-model-action

7. 蚂蚁集团与==SGLang团队==合作将 ==DeepSeek-R1== 在 ==H20== GPU 上的==大规模部署最佳实践==,详情地址:lmsys.org/blog/2025-09-26-sglang-ant-group/

8. 传闻称 OpenAI 和谷歌很可能都将推出各自的 “AI原生”(AI native)浏览器。

9. 传闻称 GLM-4.6 即将发布。

10. Meta 开源模型==代码世界模型 (Code World Model, CWM)==,模型参数32B,它和传统的大语言模型不一样,是利用世界模型尝试弥“看起来对”和“运行起来会怎样”之间的鸿沟(==训练中加入 Python 解释器和代理 Docker 环境的逐步模拟数据==),以此提升代码生成和代码推理能力。(不懂 =.=)

技术报告:ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

模型地址:huggingface.co/facebook/cwm








## Github Repos Recommend

1. ==Chrome DevTools== 发布官方 ==MCP== 并且代码已==开源==

直接让 AI 编程 Agent 完成网页自动化测试、调试以及优化整套开发流程(分析加载时间、网络请求,以及排查问题等)。不仅可以自动进行网页导航、模拟操作,比如页面点击、填写表单、元素拖拽等各种交互,甚至爬虫等场景。还可以支持直接在网页中运行 JavaScript 代码并查看结果。

Repo地址:github.com/ChromeDevTools/chrome-devtools-mcp

2. ==Nanobot 开源 MCP Host==

灵活定义 agents 与 MCP servers,支持多样化交互接口(聊天、语音、短信、邮件、AR/VR、Slack 等)

目前处于 Alpha 阶段,持续迭代中。==Apache 2.0 开源许可==,便于企业和开发者自由集成与贡献。

Repo地址:github.com/nanobot-ai/nanobot

3. ==翻译整本==电子书 ==TranslateBookWithLLM== 能直接处理整本书籍和各种文档格式。

基于本地 Ollama 模型或 Gemini API 实现,支持多种文件格式翻译,包括 EPUB 电子书、SRT 字幕和纯文本。可通过 Docker 快速部署,提供 Web 界面和命令行两种使用方式。

Repo地址:github.com/hydropix/TranslateBookWithLLM

4. ==AIO Sandbox== 是一个开源的智能体沙箱环境,将浏览器、Shell、文件系统、VSCode 服务器及 MCP 服务整合到同一个 Docker 容器中,提供统一且安全的开发与执行环境。

Repo地址:github.com/agent-infra/sandbox

5. open-codex

项目fork自 CodeX 的源代码(CodeX 是开源的),将 Responses API 替换成 Chat Completion API 支持任何 OpenAI 风格的模型。比如 DeepSeek, Qwen, Kimi-K2,GLM 都能接进去。

Repo地址:github.com/ymichael/open-codex



https://cryptobook.nakov.com/

https://nce.ichochy.com/
# 2025W39 AI大模型领域精选热点 🔥

---

## 1. DeepSeek

> 节前发模型是常规操作,都别想放假。Claude:没错没错,刚刚发布 cluade sonnet 4.5 (现阶段==最强coding模型与构建agent的最强模型==)

+ DeepSeek-V3.2-Exp,一个实验性(Experimental)的版本,==大幅度降价(将降低 50% 以上)==,并且引入==Sparse Attention(一种稀疏注意力机制)==,针对长文本的训练和推理效率进行了探索性的优化和验证。新模型GPU算子包含 ==TileLang== 与 CUDA 两种版本。(DeepSeek建议社区在进行研究性实验时,使用基于 TileLang 的版本以方便调试和快速迭代。)

模型地址:huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

论文地址:github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

+ 更新 DeepSeek-V3.1-Terminus 版本(原有模型V3.1模型bug修复版本)

**语言一致性增强**:缓解了中英文混杂、偶发异常字符等情况;

**Agent 能力增强**:进一步优化了 Code Agent 与 Search Agent 的表现。

模型地址:huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

## 2. Ali

> 据统计,阿里不到2年时间居然发布了 300+ 个模型,卷还得是阿里啊

+ 阿里云栖大会:CEO对于未来的愿景非常大,迈向全模态(单一模型)、10万亿参数量、10M/100M上下文等等 (All in Nvidia)
+ ==又双叒叕火炎焱燚水沝淼㵘==发布和开源了很多个模型
+ Qwen3-Max 上线 ==大就是好== 最智能的非推理模型,官方称超越 Kimi K2 0905!
+ 模型总参数超过1T,预训练使用了36T tokens
+ Qwen3-Max的推理增强版本 Qwen3-Max-Thinking (Heavy)正在全力训练中
+ 详情地址:qwen.ai/blog?id=241398b9cd6353de490b0f82806c7848c5d2777d&from=research.latest-advancements-list
+ 视觉语言模型:Qwen3-VL-235B-A22B-Thinking、Qwen3-VL-235B-A22B-Instruct
+ Instruct 在关键视觉基准测试中的表现优于 Gemini 2.5 Pro
+ Thinking 在多模态推理任务上实现了最佳 (SOTA) 性能
+ 32 种语言的 OCR,256K上下文(可扩展至1M),==视觉agent、带图推理、2D/3D定位、多图理解、视频理解均有demo==
+ 模型地址:huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
+ 博客地址:qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
+ Qwen3Guard-Stream-8B、Qwen3Guard-Stream-0.6B、Qwen3Guard-Stream-4B、Qwen3Guard-gen-0.6B、Qwen3Guard-gen-8B、Qwen3Guard-gen-4B
+ 基于 Qwen3 的==安全审核模型==系列,支持 119 种语言和方言
+ Qwen3Guard-Stream 进行==低延迟、实时流媒体检测==
+ Qwen3Guard-Gen 进行强大的==全上下文安全分析==——非常适合 RL 奖励建模!
+ 模型地址:huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
+ 技术报告:github.com/QwenLM/Qwen3Guard/blob/main/Qwen3Guard_Technical_Report.pdf
+ ==多模态模型==:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking、Qwen3-Omni-30B-A3B-Captioner
+ 支持文本、图像、音频、视频输入,输出音频和视频
+ 支持119种语言,30min 的音频理解
+ 自动语音识别、音频理解和语音对话方面表现优秀
+ 模型地址:huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
+ Qwen-Image-Edit-2509
+ ==多图像联合编辑== 支持1-3张图像同时处理,尤其是"人+人"、"人+物"、"人+场景"的各种组合,特别是==电商场景==,产品+模特+场景的组合编辑
+ 模型地址:huggingface.co/Qwen/Qwen-Image-Edit-2509
+ 博客地址:qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list
+ Qwen3-TTS-Flash 重新定义语音 AI 的全新文本转语音模型 ==闭源==
+ 17 种富有表现力的声音 × 10 种语言,支持 9 种以上中国方言:粤语、闽南语、四川话等
+ 非常适合应用程序、游戏、IVR、内容等任何需要自然、类似人类的语音的地方。
+ 博客地址:qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list

## 3. Google

+ 据传 ==Gemini 3== 将提前到十月初发布

+ 发布一个为==初创公司==写的 ==AI Agent 构建指南==,详情见附件。

+ 如何构建和部署 AI 代理,最大化公司的业务目标效率和生产力。
+ 如何利用 Google Cloud 生成式 AI 工具,包括 Vertex AI 平台以及代理开发套件检索。

+ ==Gemini Robotics 1.5:让机器人有真正的“思考力”的模型==

两个模型协同工作:Gemini Robotics-ER 1.5、Gemini Robotics 1.5,前者充当高级大脑,与人交互、理解环境、协调工具,并制定执行任务的详细计划。 后者负责执行,将指令转化为机器人进行常规移动和行动所需的精确电机指令。模型的预览版已正式上线,可以通过Google AI Studio 体验。

详细地址:deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/

## 4. OpenAI

+ OpenAI 悄悄上线新模型 GPT-5-Chat-Safety,却从未在任何官方文档中提及。过滤用户与 GPT-4o 模型的聊天记录(重写聊天内容)。甚至是任何涉及你过往记忆的对话,只要被系统归类为“有风险”(哪怕只是一丝丝情感流露),用户得到的回复就不是来自 GPT-4o,而是被替换上来的 GPT-5-Chat-Safety。

+ OpenAI 新产品 ChatGPT Pulse,一个AI 助理,基于个人信息(聊天记录、个人资料、关联的日历、邮箱、文档等等),当你晚上睡觉时,ChatGPT 主动地分析你的兴趣、梳理你的日程,甚至推测用户未来的需要。例如:每日新闻早报、行程规划、行动建议、灵感启发。

详细地址:openai.com/index/introducing-chatgpt-pulse/

+ OpenAI发布了300多套各个行业的Prompt Packs(提示词包),从IT、销售到HR、管理、市场、工程、产品,几乎所有常见岗位都能找到对应内容。

详细地址:academy.openai.com/public/tags/prompt-packs-6849a0f98c613939acef841c


## 5. 其他动态

1. Kimi报道,不同模型API供应商提供的模型API服务,虽然都是宣称用的Kimi K2开源模型,但工具调用能力上差异很大。最差的只能到官方的60%左右。Kimi
# 2025W38 AI大模型领域精选热点 🔥

---

## 1. OpenAI

+ OpenAI 更新发布了 GPT-5-CodeX! ,专门针对 Codex 优化,更易于引导,更能遵循 AGENTS. md 的指示。它基于GPT-5进行了进一步强化,更适合真正的软件开发场景。此外,它的代码审查能力也得到大幅提升,能在软件上线前揪出关键漏洞。目前,GPT-5-Codex已经全面上线:云端任务和代码审查默认使用该模型,也可以在本地通过Codex CLI和IDE扩展自由切换使用。

+ OpenAI发布史上最大规模ChatGPT用户行为报告:

+ 用户活跃度持续增长,所有用户群体的消息量均稳步提升。
+ 职业差异显著,计算机相关岗位使用率近60%领跑,管理与工程科学类紧随其后约50%,非专业用户也达40%。
+ 功能偏好集中于实用指导(29%)、信息查询(25%)、写作(24%)与多媒体创作(7%),编程对话仅占4.2%,陪伴类更低至1.9%。
+ 性别比例趋向平衡,女性用户首次超越男性,46%用户年龄集中18-25岁,老年用户工作相关对话占比显著减少,仅16%。

参考地址:cdn.openai.com/pdf/a253471f-8260-40c6-a2cc-aa93fe9f142e/economic-research-chatgpt-usage-paper.pdf

+ OpenAI发布大学生专属大语言模型聊天话题指南(100 chats for college students),涉及学习、职业发展、生活等多个方面。

参考地址:chatgpt.com/use-cases/students

+ OpenAI 和 Gemini 2.5 Deep Think 都刷到了 2025 ICPC 金牌!OpenAI 12 题全对(12/12),Gemini(10/12)。

## 2. Ali

+ 开源新模型 Wan2.2-Animate-14B,这是一个统一的角色动画和替换模型,能够完整复制动作和表情。一定程度上替代动作捕捉。基于 Wan-I2V 构建的。对于身体运动控制,使用通过空间对齐合并的骨架信号。对于面部表情控制,利用从面部图像中提取的隐式特征作为驱动信号。此外,对于角色替换,还训练了一个辅助的 Relighting LoRA 来增强角色与新环境的融合。

模型地址:huggingface.co/Wan-AI/Wan2.2-Animate-14B

+ 国产GPU:平头哥最新的 GPU/AI 算力卡,片间带宽能达到 700GB/s,而且搭载 HBM2e显存96G,功耗400W, 感觉这个卡可以用来训练了。

+ 据传,qwen3 多模态模型将迎来一波更新。

## 3. Google

+ 谷歌发布了带有 Gemini 的 Chrome 浏览器,支持总结回答页面问题,对比多页面的信息,跨站点快速提炼关键信息,未来会上线 Agentic 能力,操作浏览器网页完成任务,仅美国地区可用

+ 谷歌推出**代理支付协议(AP2)**。谷歌与领先的支付和技术公司共同开发的开放协议,旨在安全地跨平台发起和处理Agent主导的支付。该协议可作为**代理对代理 (A2A)** 协议和模型**上下文协议 (MCP)** 的扩展。正在与 60 多个组织组成的多元化团体合作。

Repo 地址:github.com/google-agentic-commerce/AP2

官方介绍:cloud.google.com/blog/products/ai-machine-learning/announcing-agents-to-payments-ap2-protocol

## 4. Meta

+ Meta 新模型 MobileLLM-R1-950M,官方宣称超过了 Qwen3-0.6B (官方:Qwen3-0.6B 是在 36T 数据上训练出来的,我们只用了不到5T)。

模型地址:huggingface.co/facebook/MobileLLM-R1-950M

+ Meta 正式发布了新款的 Ray-Ban Display AI 智能眼镜(发布会严重翻车)。配备 EMG Neural Band 神经腕带可以用非常精准的手势控制眼镜,甚至可以虚空写字,重 69 克,混合使用续航 6 小时(配充电盒 30 小时),起价 799 美元,9 月 30 日在美国发售。

## 5. 其他动态

1. NVIDIA ViPE,用于 3D 几何感知的视频姿势引擎,可以将视频转换为3D空间。

官网:research.nvidia.com/labs/toronto-ai/vipe/
论文:research.nvidia.com/labs/toronto-ai/vipe/assets/paper.pdf
Repo: github.com/nv-tlabs/vipe

2. 字节开源SAIL-VL2一种开放式视觉语言基础模型(LVM) 实现全面的多模态理解和推理。有2B、8B、推理\不推理一共四个版本。

技术报告:huggingface.co/papers/2509.14033
论文地址:arxiv.org/abs/2509.14033







## Github Repos Recommend

1. Github 官方发布的39个mcp server,可一键安装到VSCode

Repo地址:github.com/mcp

2. presentation-ai 开源的 AI 演示文稿生成器,只需输入主题,AI 就能自动生成完整的 PPT 大纲和精美的幻灯片,支持多种主题风格、自定义配色方案,还能根据内容智能配图。

Repo 地址:github.com/allweonedev/presentation-ai

3. Tongyi DeepResearch:阿里巴巴推出的顶尖开源深度研究Agent,专注长时域信息检索和复杂推理任务。

完全开源的 Web Agent。模型Alibaba-NLP/Tongyi-DeepResearch-30B-A3B,上下文128K,端到端agent训练 。

+ 全流程数据合成:不依赖昂贵的人工标注,通过创新的数据合成方案,为智能体的持续预训练(CPT)、监督微调(SFT)和强化学习(RL)提供海量高质量数据 。

+ 端到端训练框架:建立了一个从“智能体持续预训练”到“智能体强化学习”的无缝训练循环,并采用定制化的在策略(on-policy)强化学习算法(GRPO)来对齐模型行为 。

+ 创新的推理模式:除了标准的ReAct模式,还开发了基于IterResearch范式的“重模式”(Heavy Mode),通过解构任务和重组工作区来克服长程任务中的“认知窒息”问题,从而最大化模型的推理和规划潜力 。

模型地址:huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
Repo地址:github.com/Alibaba-NLP/DeepResearch
技术博客:tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

4. CodeX

OpenAI 官方出的的《OpenAI 如何使用 Codex》的文档

+ 从 "询问模式" (Ask Mode) 开始:对于复杂的任务,先让 Codex 生成一个实现计划,再切换到代码模式进行具体操作 。
+ 结构化提示词:像写一个 Github Issue 一样提供清晰的上下文,包括文件路径、组件名和代码片段等 。
+ 迭代优化开发环境:通过配置启动脚本和环境变量来减少 Codex 的错误率 。
+ 善用任务队列:将一些次要的修复或想法随时抛给 Codex,作为一个轻量级的待办事项列表 。
+ 利用 AGENTS.md 文件提供持久上下文:在这个文件中定义项目的命名规范、业务逻辑等信息,帮助 Codex 更好地理解项目 。
+ 利用 "N选优" (Best of N) 功能:针对一个任务生成多个方案,从中挑选最好的一个或组合成一个更强的方案 。

Repo地址:github.com/openai/codex

5. ardupilot 自动驾驶开源软件

可以用来自动驾驶 飞机,水下航行器,直升机,漫游车,帆船,四旋翼飞机、多旋翼飞行器,直升机,平衡机器人,甚至潜艇

Repo地址:github.com/ArduPilot/ardupilot









https://deeplearningwithpython.io/chapters/
# 2025W37 AI大模型领域精选热点 🔥

---

## 1. Ali

+ 发布 Qwen3-ASR:一款集多语言、高鲁棒性与极简接入于一体的全能语音识别模型。

+ 支持11种语言(含中英、阿拉伯语、德语、日语、韩语、俄语等),自动识别语言,无需手动切换。
+ 适应复杂环境:噪声、远场、低音质均有 <8% 的词错误率(WER),歌曲、说唱及带背景音乐的语音也能精准识别。
+ 独特自定义上下文功能:可粘贴任意文本(专有名词、行业术语、甚至乱码),极大提升识别准确率和适用场景。
+ 单一模型覆盖多场景,简化部署流程,极适合教育科技、媒体转录、客服智能等多领域应用。
+ 提供开放API及在线Demo,方便快速体验与集成。

体验地址:huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

+ 开源 Qwen3-Next-80B-A3B 系列新架构模型,包括 Qwen3-Next-80B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Thinking

+ 总参数高激活参数低,训练成本低,推理速度快
+ 80B 总参数激活参数 3B,混合架构 Gated DeltaNet + Gated Attention
+ 稀疏MoE:512 个专家,10 个路由专家 + 1 个共享专家

跑分Qwen3-Next-80B-A3B-Instruct 跟 Qwen3-235B-A22B 差不多,感觉是新的架构尝试,结合了 Gated DeltaNet 和 Gated Attention,以及高稀疏性 MoE 层,(80B仅激活3B),并且长文本性能也增强了很多,原生 262K,可以扩展到 1M。

模型地址:
huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking

## 2.Kimi Checkpoint Engine

+ Checkpoint-engine 是一个简单的中间件,用于更新大语言模型推理引擎中的模型权重——这是强化学习中的一个关键步骤。
基于该项目可以在不中断服务、不重启整个模型的情况下,直接修改正在运行中的大模型推理服务所使用的权重参数,更新kimi k2的参数只需要20秒。

Repo地址:github.com/MoonshotAI/checkpoint-engine
详细解析:zhuanlan.zhihu.com/p/1949882680167621566

## 3. 小米

+ 小米 Kaldi 团队发布基于 Flow Matching 架构的ZipVoice系列语音合成(TTS)模型——**ZipVoice(零样本单说话人语音合成模型)与ZipVoice-Dialog(零样本对话语音合成模型)**。

+ ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破。
+ ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈,实现了又快又稳又自然的语音对话合成。

ZipVoice系列的模型文件、训练代码和推理代码以及6.8k小时的语音对话数据集OpenDialog已开源:github.com/k2-fsa/ZipVoice
Zipvoice 论文:arxiv.org/pdf/2506.13053
体验地址:zipvoice.github.io

## 4. Minmax Music 1.5

+ Minmax 发布新的音乐模型 Music 1.5,开启了“一人即乐队”的新时代,生成时长升至4分钟,并具备四大新突破:强控制力、人声自然饱满、乐器层次丰富、歌曲结构清晰。
体验地址:minimaxi.com/audio/music
详细介绍:minimaxi.com/news/minimax-music-15

## 5. 其他动态

1. 百度发布(不开源)新模型 ERNIE X1.1,官方数据宣称比 Gemini-2.5-Pro 和 GPT-5 猛。 (似乎没什么浪花

2. 美团小美agent app上线,支持自主点外卖,有邀请码的小伙伴可以尝试体验。

3. 继字节的 Trae、阿里的Qoder后,腾讯发布了AI Coding工具CodeBuddy Code,同时支持插件、IDE和CLI三种形态的AI编程工具。支持集成Figma、supabase等。体验地址:codebuddy.ai

4. 字节Seed正式发布图像模型Seedream 4.0,即梦4.0

官方介绍:seed.bytedance.com/seedream4_0

体验地址:

1. 即梦网页端(jimeng.jianying.com)-图片生成-上传参考图-选择图片 4.0 模型-输入 Prompt
2. 豆包 App 对话框-AI 生图/生视频-上传参考图-输入 Prompt

5. Google发布差异化隐私模型:VaultGemma,通过应用差分隐私构建了一个注重隐私保护的大语言模型,尽量保证使用模型时不会暴露出训练数据中的私人信息。研究人员发现并量化了模型大小、训练数据批次大小和隐私保护强度(噪声量)之间的关系。在实现强大隐私保护的同时,最大限度地保留模型的性能。

模型地址:huggingface.co/google/vaultgemma-1b





## Github Repos Recommend

1. PDFMathTranslate 基于 AI 完整保留排版的 PDF 文档全文双语翻译,支持 Google/DeepL/Ollama/OpenAI 等服务,提供 CLI/GUI/MCP/Docker/Zotero
Repo 地址:github.com/Byaidu/PDFMathTranslate
2. ToddlerBot,一个低成本、开源的人形机器人平台
官方介绍:toddlerbot.github.io
论文地址:arxiv.org/abs/2502.00893
Repo地址:github.com/hshi74/toddlerbot
3. ROMA 一个开源 DeepResearch 实现,可以接入本地模型或者大模型API。适用于:学术研究、市场分析、竞争情报、技术文档。Repo地址:github.com/sentient-agi/ROMA
4. 社区驱动的模型上下文协议 (MCP) 服务器注册服务
Repo地址:github.com/modelcontextprotocol/registry
vLLM 深度解析:系统梳理大规模语言模型推理架构与优化细节

+ 全流程剖析:输入输出请求处理、调度机制、分页注意力、连续批处理,揭示推理引擎核心运转逻辑
+ 高级技术揭秘:分块预填充、前缀缓存、受限语法 FSM 指导解码、推测性解码、计算存储分离设计(Disaggregated P/D)
+ 横向扩展策略:从单 GPU 小模型到万亿参数级分布式推理,涵盖张量并行、流水线并行、分片并行多节点部署方案
+ 服务化架构:离线部署到多 API 服务器集群,负载均衡与数据并行协调,支持多引擎同时运行
+ 性能指标与分析:延迟(ttft、itl、e2e、tpot)、吞吐量测量,结合 GPU Roofline 性能模型精准评估
+ 丰富示例与视觉辅助,助力理解复杂概念与代码实现细节

了解更多🔗aleksagordic.com/blog/vllm
Back to Top