[atguigu@hadoop102 hadoop]$ vim yarn-site.xml
文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定MR走 shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>
<!-- 环境变量的继承 -->
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO
NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP
RED_HOME</value>
</property>
</configuration>
[atguigu@hadoop102 hadoop]$ vim hdfs-site.xml
文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- nn web端访问地址-->
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102:9870</value>
</property>
<!-- 2nn web端访问地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:9868</value>
</property>
</configuration>
[atguigu@hadoop102 hadoop]$ vim core-site.xml
文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<!-- 指定hadoop数据的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>
<!-- 配置HDFS网页登录使用的静态用户为atguigu -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>atguigu</value>
</property>
</configuration>
#Infra
知乎回答《存储方向的出路是什么?》,里面列举了大模型训练和推理的技术栈,总共分为9层,开发者可以在这里找到自己的定位。
今天收到了好友涂俊杰寄来的礼物,是用本频道的信息打印成的册子,一本名为 Reorx’s Forge 的书。

用书本的形式阅读自己的频道,准确的说是自己一天天记录下的文字,是一种非常奇妙的感受。以前很佩服写日记的人,觉得能把生活记录在一本书里,就能把所经历的时光更鲜活地保存下来。如今翻看这个频道打印的册子,感受他的厚度,也让我有了过去几年的生活点滴变得更有意义的感觉。

俊杰说这个礼物是为了感谢我当年写的 n8n 构建个人信息流的教程对他的影响,而我也因为这个频道与他结识,通过他了解了时间记录法,从他的公众号里获益良多。所以更让我感到开心的,是我这几年来以这个频道为信源,向世界发出电波,与志同道合的人建立连接,而这本书就是这一切的回响,以及价值的证明。

正在看这个消息的你,感谢订阅我的频道,阅读我的文字,如果它们给你带来了有用的信息、灵感或会心一笑,那将是我做这件事最大的成就和快乐。
在计算机安全领域,我们将数据安全粗略分为三个维度:in-transit, at-rest, in-use。

HTTPS 可以保护 in-transit,AES 可以保护 at-rest,而 TEE 就是注重于保护 in-use 时的内存数据安全。理论上,一个妥善配置使用的 TEE,可以让用户放心地在不信任的环境中运行代码。

比如你作为一个版权所有方,可以要求对方提供可验证的 TEE 环境,然后你才会将重要的数据传输进对方的 TEE 加密环境中。即使这台机器完全在对方手中,TEE 硬件也会保障你数据的安全。

然而,这个安全神话最近被无情的打破了。研究者发现,SGX 的 CPU 和内存间的加密通信使用的是确定性的加密算法(deterministic)。那么通过运行一个自定义的 TEE 应用,然后再拦截内存总线上的加密数据流,就可以让 TEE 的内存加密芯片扮演一个 oracle 的角色,从而为攻击者提供充足的包含时序信息的密文,从而推断出 TEE 签名 QE REPORT 所使用的 ECDSA 私钥。

拿到签名私钥后,就可以为任意伪造的 REPORT 签名。而 SGX 正是通过 REPORT 来证明当前程序运行在一个可信的 TEE 环境之中。那么攻击者就可以实际在非加密环境中运行程序,但是仍然提供一个可信的 REPORT,从而骗取数据提供方的信任。

很可惜 Intel 也不打算修复这个问题,那么 TEE 安全性的基础(Trusted Computing Base, TCB)就得包含:

* TEE 硬件
* 可信的 host OS
* 可信的物理机器维护者

作为一个曾经的 TEE 开发者,说实话,前两者还可以通过软件手段来保障。但是最后一条,感觉完全扭曲了 TEE 的意义。如果你愿意信任机器的提供方,那么实际上 TEE 的意义就变成了防内贼而不是外贼。

作为一个开发者,你也可以从中吸取教训,谨记“一事一密”,利用随机数和密钥派生,不复用密钥,确保相同数据的每次加密结果都不一样。在加密以外,完整性验证也是非常重要的(integrity & authentic)。

扩展阅读:

* 我以前写过一系列介绍 TEE 的文章
* https://wiretap.fail/
* Intel 的回应: More Information on Encrypted Memory Frameworks for Intel Confidential Computing
官方进行了详细的测试证明并提供相应验证工具,Repo 地址:github.com/MoonshotAI/K2-Vendor-Verfier

2. Kimi 推出 ==OK Computer== 代理模式,名字很酷。已在内测中,有内测资格用户可在 kimi.com/chat/ 体验。(个人体感很不错,优先生成PPT)

+ 从聊天 → 多页网站、移动优先设计、可编辑幻灯片
+ 支持百万级数据行处理,生成式交互体验
+ 代理模式剧本自我评估、调查和设计能力
+ 原生训练于文件系统、浏览器、终端,工具调用深度集成
+ 较传统聊天模式拥有更多步骤、token 与工具,搭载 Turbo K2 提升性能

OK Computer 不只是一个 AI 助手,更是一个内置“计算机”的智能代理,真正实现任务自主分解与执行,适合复杂多步骤产品与工程场景。

3. Github 发布 ==Copilot Cli==,最大的优势是与 Github 深度结合,使用用 GitHub 账号登录即可,本地一键安装 npm install -g @github/copilot 其==代码不开源==。比如可以使用它直接查看 Assign 到的issue,统计提交的 PR,甚至做一些复杂的聚合:比如挑选最有价值PR、发现影响范围最大的bug,提交的代码行数等等。详细地址:docs.github.com/en/copilot/concepts/agents/about-copilot-cli

4. 微软公司宣布,将开始采用Anthropic公司的人工智能模型,进一步强化其职场AI助手Copilot。这次合作意义重大,因为此前微软的AI工具几乎全部由OpenAI提供支持。

从本周三开始,使用微软Copilot的企业用户,在进行数字研究辅助和构建定制AI工具时,可以自由选择使用来自OpenAI或Anthropic的模型。

5. Figma 发布官方的 MCP Server,在 Coding Agent 中配置好后,可直接==读取设计稿原型生成前端代码==。 详细地址:figma.com/mcp-catalog/

6. 宇树开源了一个世界模型**UnifoLM-WMA-0**,参数、数据集均对外开放。核心在于**世界模型能够理解机器人和环境相互作用时的物理规律**。Repo地址:github.com/unitreerobotics/unifolm-world-model-action

7. 蚂蚁集团与==SGLang团队==合作将 ==DeepSeek-R1== 在 ==H20== GPU 上的==大规模部署最佳实践==,详情地址:lmsys.org/blog/2025-09-26-sglang-ant-group/

8. 传闻称 OpenAI 和谷歌很可能都将推出各自的 “AI原生”(AI native)浏览器。

9. 传闻称 GLM-4.6 即将发布。

10. Meta 开源模型==代码世界模型 (Code World Model, CWM)==,模型参数32B,它和传统的大语言模型不一样,是利用世界模型尝试弥“看起来对”和“运行起来会怎样”之间的鸿沟(==训练中加入 Python 解释器和代理 Docker 环境的逐步模拟数据==),以此提升代码生成和代码推理能力。(不懂 =.=)

技术报告:ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

模型地址:huggingface.co/facebook/cwm








## Github Repos Recommend

1. ==Chrome DevTools== 发布官方 ==MCP== 并且代码已==开源==

直接让 AI 编程 Agent 完成网页自动化测试、调试以及优化整套开发流程(分析加载时间、网络请求,以及排查问题等)。不仅可以自动进行网页导航、模拟操作,比如页面点击、填写表单、元素拖拽等各种交互,甚至爬虫等场景。还可以支持直接在网页中运行 JavaScript 代码并查看结果。

Repo地址:github.com/ChromeDevTools/chrome-devtools-mcp

2. ==Nanobot 开源 MCP Host==

灵活定义 agents 与 MCP servers,支持多样化交互接口(聊天、语音、短信、邮件、AR/VR、Slack 等)

目前处于 Alpha 阶段,持续迭代中。==Apache 2.0 开源许可==,便于企业和开发者自由集成与贡献。

Repo地址:github.com/nanobot-ai/nanobot

3. ==翻译整本==电子书 ==TranslateBookWithLLM== 能直接处理整本书籍和各种文档格式。

基于本地 Ollama 模型或 Gemini API 实现,支持多种文件格式翻译,包括 EPUB 电子书、SRT 字幕和纯文本。可通过 Docker 快速部署,提供 Web 界面和命令行两种使用方式。

Repo地址:github.com/hydropix/TranslateBookWithLLM

4. ==AIO Sandbox== 是一个开源的智能体沙箱环境,将浏览器、Shell、文件系统、VSCode 服务器及 MCP 服务整合到同一个 Docker 容器中,提供统一且安全的开发与执行环境。

Repo地址:github.com/agent-infra/sandbox

5. open-codex

项目fork自 CodeX 的源代码(CodeX 是开源的),将 Responses API 替换成 Chat Completion API 支持任何 OpenAI 风格的模型。比如 DeepSeek, Qwen, Kimi-K2,GLM 都能接进去。

Repo地址:github.com/ymichael/open-codex



https://cryptobook.nakov.com/

https://nce.ichochy.com/
# 2025W39 AI大模型领域精选热点 🔥

---

## 1. DeepSeek

> 节前发模型是常规操作,都别想放假。Claude:没错没错,刚刚发布 cluade sonnet 4.5 (现阶段==最强coding模型与构建agent的最强模型==)

+ DeepSeek-V3.2-Exp,一个实验性(Experimental)的版本,==大幅度降价(将降低 50% 以上)==,并且引入==Sparse Attention(一种稀疏注意力机制)==,针对长文本的训练和推理效率进行了探索性的优化和验证。新模型GPU算子包含 ==TileLang== 与 CUDA 两种版本。(DeepSeek建议社区在进行研究性实验时,使用基于 TileLang 的版本以方便调试和快速迭代。)

模型地址:huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

论文地址:github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

+ 更新 DeepSeek-V3.1-Terminus 版本(原有模型V3.1模型bug修复版本)

**语言一致性增强**:缓解了中英文混杂、偶发异常字符等情况;

**Agent 能力增强**:进一步优化了 Code Agent 与 Search Agent 的表现。

模型地址:huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

## 2. Ali

> 据统计,阿里不到2年时间居然发布了 300+ 个模型,卷还得是阿里啊

+ 阿里云栖大会:CEO对于未来的愿景非常大,迈向全模态(单一模型)、10万亿参数量、10M/100M上下文等等 (All in Nvidia)
+ ==又双叒叕火炎焱燚水沝淼㵘==发布和开源了很多个模型
+ Qwen3-Max 上线 ==大就是好== 最智能的非推理模型,官方称超越 Kimi K2 0905!
+ 模型总参数超过1T,预训练使用了36T tokens
+ Qwen3-Max的推理增强版本 Qwen3-Max-Thinking (Heavy)正在全力训练中
+ 详情地址:qwen.ai/blog?id=241398b9cd6353de490b0f82806c7848c5d2777d&from=research.latest-advancements-list
+ 视觉语言模型:Qwen3-VL-235B-A22B-Thinking、Qwen3-VL-235B-A22B-Instruct
+ Instruct 在关键视觉基准测试中的表现优于 Gemini 2.5 Pro
+ Thinking 在多模态推理任务上实现了最佳 (SOTA) 性能
+ 32 种语言的 OCR,256K上下文(可扩展至1M),==视觉agent、带图推理、2D/3D定位、多图理解、视频理解均有demo==
+ 模型地址:huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
+ 博客地址:qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
+ Qwen3Guard-Stream-8B、Qwen3Guard-Stream-0.6B、Qwen3Guard-Stream-4B、Qwen3Guard-gen-0.6B、Qwen3Guard-gen-8B、Qwen3Guard-gen-4B
+ 基于 Qwen3 的==安全审核模型==系列,支持 119 种语言和方言
+ Qwen3Guard-Stream 进行==低延迟、实时流媒体检测==
+ Qwen3Guard-Gen 进行强大的==全上下文安全分析==——非常适合 RL 奖励建模!
+ 模型地址:huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
+ 技术报告:github.com/QwenLM/Qwen3Guard/blob/main/Qwen3Guard_Technical_Report.pdf
+ ==多模态模型==:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking、Qwen3-Omni-30B-A3B-Captioner
+ 支持文本、图像、音频、视频输入,输出音频和视频
+ 支持119种语言,30min 的音频理解
+ 自动语音识别、音频理解和语音对话方面表现优秀
+ 模型地址:huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
+ Qwen-Image-Edit-2509
+ ==多图像联合编辑== 支持1-3张图像同时处理,尤其是"人+人"、"人+物"、"人+场景"的各种组合,特别是==电商场景==,产品+模特+场景的组合编辑
+ 模型地址:huggingface.co/Qwen/Qwen-Image-Edit-2509
+ 博客地址:qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list
+ Qwen3-TTS-Flash 重新定义语音 AI 的全新文本转语音模型 ==闭源==
+ 17 种富有表现力的声音 × 10 种语言,支持 9 种以上中国方言:粤语、闽南语、四川话等
+ 非常适合应用程序、游戏、IVR、内容等任何需要自然、类似人类的语音的地方。
+ 博客地址:qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list

## 3. Google

+ 据传 ==Gemini 3== 将提前到十月初发布

+ 发布一个为==初创公司==写的 ==AI Agent 构建指南==,详情见附件。

+ 如何构建和部署 AI 代理,最大化公司的业务目标效率和生产力。
+ 如何利用 Google Cloud 生成式 AI 工具,包括 Vertex AI 平台以及代理开发套件检索。

+ ==Gemini Robotics 1.5:让机器人有真正的“思考力”的模型==

两个模型协同工作:Gemini Robotics-ER 1.5、Gemini Robotics 1.5,前者充当高级大脑,与人交互、理解环境、协调工具,并制定执行任务的详细计划。 后者负责执行,将指令转化为机器人进行常规移动和行动所需的精确电机指令。模型的预览版已正式上线,可以通过Google AI Studio 体验。

详细地址:deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/

## 4. OpenAI

+ OpenAI 悄悄上线新模型 GPT-5-Chat-Safety,却从未在任何官方文档中提及。过滤用户与 GPT-4o 模型的聊天记录(重写聊天内容)。甚至是任何涉及你过往记忆的对话,只要被系统归类为“有风险”(哪怕只是一丝丝情感流露),用户得到的回复就不是来自 GPT-4o,而是被替换上来的 GPT-5-Chat-Safety。

+ OpenAI 新产品 ChatGPT Pulse,一个AI 助理,基于个人信息(聊天记录、个人资料、关联的日历、邮箱、文档等等),当你晚上睡觉时,ChatGPT 主动地分析你的兴趣、梳理你的日程,甚至推测用户未来的需要。例如:每日新闻早报、行程规划、行动建议、灵感启发。

详细地址:openai.com/index/introducing-chatgpt-pulse/

+ OpenAI发布了300多套各个行业的Prompt Packs(提示词包),从IT、销售到HR、管理、市场、工程、产品,几乎所有常见岗位都能找到对应内容。

详细地址:academy.openai.com/public/tags/prompt-packs-6849a0f98c613939acef841c


## 5. 其他动态

1. Kimi报道,不同模型API供应商提供的模型API服务,虽然都是宣称用的Kimi K2开源模型,但工具调用能力上差异很大。最差的只能到官方的60%左右。Kimi
# 2025W38 AI大模型领域精选热点 🔥

---

## 1. OpenAI

+ OpenAI 更新发布了 GPT-5-CodeX! ,专门针对 Codex 优化,更易于引导,更能遵循 AGENTS. md 的指示。它基于GPT-5进行了进一步强化,更适合真正的软件开发场景。此外,它的代码审查能力也得到大幅提升,能在软件上线前揪出关键漏洞。目前,GPT-5-Codex已经全面上线:云端任务和代码审查默认使用该模型,也可以在本地通过Codex CLI和IDE扩展自由切换使用。

+ OpenAI发布史上最大规模ChatGPT用户行为报告:

+ 用户活跃度持续增长,所有用户群体的消息量均稳步提升。
+ 职业差异显著,计算机相关岗位使用率近60%领跑,管理与工程科学类紧随其后约50%,非专业用户也达40%。
+ 功能偏好集中于实用指导(29%)、信息查询(25%)、写作(24%)与多媒体创作(7%),编程对话仅占4.2%,陪伴类更低至1.9%。
+ 性别比例趋向平衡,女性用户首次超越男性,46%用户年龄集中18-25岁,老年用户工作相关对话占比显著减少,仅16%。

参考地址:cdn.openai.com/pdf/a253471f-8260-40c6-a2cc-aa93fe9f142e/economic-research-chatgpt-usage-paper.pdf

+ OpenAI发布大学生专属大语言模型聊天话题指南(100 chats for college students),涉及学习、职业发展、生活等多个方面。

参考地址:chatgpt.com/use-cases/students

+ OpenAI 和 Gemini 2.5 Deep Think 都刷到了 2025 ICPC 金牌!OpenAI 12 题全对(12/12),Gemini(10/12)。

## 2. Ali

+ 开源新模型 Wan2.2-Animate-14B,这是一个统一的角色动画和替换模型,能够完整复制动作和表情。一定程度上替代动作捕捉。基于 Wan-I2V 构建的。对于身体运动控制,使用通过空间对齐合并的骨架信号。对于面部表情控制,利用从面部图像中提取的隐式特征作为驱动信号。此外,对于角色替换,还训练了一个辅助的 Relighting LoRA 来增强角色与新环境的融合。

模型地址:huggingface.co/Wan-AI/Wan2.2-Animate-14B

+ 国产GPU:平头哥最新的 GPU/AI 算力卡,片间带宽能达到 700GB/s,而且搭载 HBM2e显存96G,功耗400W, 感觉这个卡可以用来训练了。

+ 据传,qwen3 多模态模型将迎来一波更新。

## 3. Google

+ 谷歌发布了带有 Gemini 的 Chrome 浏览器,支持总结回答页面问题,对比多页面的信息,跨站点快速提炼关键信息,未来会上线 Agentic 能力,操作浏览器网页完成任务,仅美国地区可用

+ 谷歌推出**代理支付协议(AP2)**。谷歌与领先的支付和技术公司共同开发的开放协议,旨在安全地跨平台发起和处理Agent主导的支付。该协议可作为**代理对代理 (A2A)** 协议和模型**上下文协议 (MCP)** 的扩展。正在与 60 多个组织组成的多元化团体合作。

Repo 地址:github.com/google-agentic-commerce/AP2

官方介绍:cloud.google.com/blog/products/ai-machine-learning/announcing-agents-to-payments-ap2-protocol

## 4. Meta

+ Meta 新模型 MobileLLM-R1-950M,官方宣称超过了 Qwen3-0.6B (官方:Qwen3-0.6B 是在 36T 数据上训练出来的,我们只用了不到5T)。

模型地址:huggingface.co/facebook/MobileLLM-R1-950M

+ Meta 正式发布了新款的 Ray-Ban Display AI 智能眼镜(发布会严重翻车)。配备 EMG Neural Band 神经腕带可以用非常精准的手势控制眼镜,甚至可以虚空写字,重 69 克,混合使用续航 6 小时(配充电盒 30 小时),起价 799 美元,9 月 30 日在美国发售。

## 5. 其他动态

1. NVIDIA ViPE,用于 3D 几何感知的视频姿势引擎,可以将视频转换为3D空间。

官网:research.nvidia.com/labs/toronto-ai/vipe/
论文:research.nvidia.com/labs/toronto-ai/vipe/assets/paper.pdf
Repo: github.com/nv-tlabs/vipe

2. 字节开源SAIL-VL2一种开放式视觉语言基础模型(LVM) 实现全面的多模态理解和推理。有2B、8B、推理\不推理一共四个版本。

技术报告:huggingface.co/papers/2509.14033
论文地址:arxiv.org/abs/2509.14033







## Github Repos Recommend

1. Github 官方发布的39个mcp server,可一键安装到VSCode

Repo地址:github.com/mcp

2. presentation-ai 开源的 AI 演示文稿生成器,只需输入主题,AI 就能自动生成完整的 PPT 大纲和精美的幻灯片,支持多种主题风格、自定义配色方案,还能根据内容智能配图。

Repo 地址:github.com/allweonedev/presentation-ai

3. Tongyi DeepResearch:阿里巴巴推出的顶尖开源深度研究Agent,专注长时域信息检索和复杂推理任务。

完全开源的 Web Agent。模型Alibaba-NLP/Tongyi-DeepResearch-30B-A3B,上下文128K,端到端agent训练 。

+ 全流程数据合成:不依赖昂贵的人工标注,通过创新的数据合成方案,为智能体的持续预训练(CPT)、监督微调(SFT)和强化学习(RL)提供海量高质量数据 。

+ 端到端训练框架:建立了一个从“智能体持续预训练”到“智能体强化学习”的无缝训练循环,并采用定制化的在策略(on-policy)强化学习算法(GRPO)来对齐模型行为 。

+ 创新的推理模式:除了标准的ReAct模式,还开发了基于IterResearch范式的“重模式”(Heavy Mode),通过解构任务和重组工作区来克服长程任务中的“认知窒息”问题,从而最大化模型的推理和规划潜力 。

模型地址:huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
Repo地址:github.com/Alibaba-NLP/DeepResearch
技术博客:tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

4. CodeX

OpenAI 官方出的的《OpenAI 如何使用 Codex》的文档

+ 从 "询问模式" (Ask Mode) 开始:对于复杂的任务,先让 Codex 生成一个实现计划,再切换到代码模式进行具体操作 。
+ 结构化提示词:像写一个 Github Issue 一样提供清晰的上下文,包括文件路径、组件名和代码片段等 。
+ 迭代优化开发环境:通过配置启动脚本和环境变量来减少 Codex 的错误率 。
+ 善用任务队列:将一些次要的修复或想法随时抛给 Codex,作为一个轻量级的待办事项列表 。
+ 利用 AGENTS.md 文件提供持久上下文:在这个文件中定义项目的命名规范、业务逻辑等信息,帮助 Codex 更好地理解项目 。
+ 利用 "N选优" (Best of N) 功能:针对一个任务生成多个方案,从中挑选最好的一个或组合成一个更强的方案 。

Repo地址:github.com/openai/codex

5. ardupilot 自动驾驶开源软件

可以用来自动驾驶 飞机,水下航行器,直升机,漫游车,帆船,四旋翼飞机、多旋翼飞行器,直升机,平衡机器人,甚至潜艇

Repo地址:github.com/ArduPilot/ardupilot









https://deeplearningwithpython.io/chapters/
# 2025W37 AI大模型领域精选热点 🔥

---

## 1. Ali

+ 发布 Qwen3-ASR:一款集多语言、高鲁棒性与极简接入于一体的全能语音识别模型。

+ 支持11种语言(含中英、阿拉伯语、德语、日语、韩语、俄语等),自动识别语言,无需手动切换。
+ 适应复杂环境:噪声、远场、低音质均有 <8% 的词错误率(WER),歌曲、说唱及带背景音乐的语音也能精准识别。
+ 独特自定义上下文功能:可粘贴任意文本(专有名词、行业术语、甚至乱码),极大提升识别准确率和适用场景。
+ 单一模型覆盖多场景,简化部署流程,极适合教育科技、媒体转录、客服智能等多领域应用。
+ 提供开放API及在线Demo,方便快速体验与集成。

体验地址:huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

+ 开源 Qwen3-Next-80B-A3B 系列新架构模型,包括 Qwen3-Next-80B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Thinking

+ 总参数高激活参数低,训练成本低,推理速度快
+ 80B 总参数激活参数 3B,混合架构 Gated DeltaNet + Gated Attention
+ 稀疏MoE:512 个专家,10 个路由专家 + 1 个共享专家

跑分Qwen3-Next-80B-A3B-Instruct 跟 Qwen3-235B-A22B 差不多,感觉是新的架构尝试,结合了 Gated DeltaNet 和 Gated Attention,以及高稀疏性 MoE 层,(80B仅激活3B),并且长文本性能也增强了很多,原生 262K,可以扩展到 1M。

模型地址:
huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking

## 2.Kimi Checkpoint Engine

+ Checkpoint-engine 是一个简单的中间件,用于更新大语言模型推理引擎中的模型权重——这是强化学习中的一个关键步骤。
基于该项目可以在不中断服务、不重启整个模型的情况下,直接修改正在运行中的大模型推理服务所使用的权重参数,更新kimi k2的参数只需要20秒。

Repo地址:github.com/MoonshotAI/checkpoint-engine
详细解析:zhuanlan.zhihu.com/p/1949882680167621566

## 3. 小米

+ 小米 Kaldi 团队发布基于 Flow Matching 架构的ZipVoice系列语音合成(TTS)模型——**ZipVoice(零样本单说话人语音合成模型)与ZipVoice-Dialog(零样本对话语音合成模型)**。

+ ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破。
+ ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈,实现了又快又稳又自然的语音对话合成。

ZipVoice系列的模型文件、训练代码和推理代码以及6.8k小时的语音对话数据集OpenDialog已开源:github.com/k2-fsa/ZipVoice
Zipvoice 论文:arxiv.org/pdf/2506.13053
体验地址:zipvoice.github.io

## 4. Minmax Music 1.5

+ Minmax 发布新的音乐模型 Music 1.5,开启了“一人即乐队”的新时代,生成时长升至4分钟,并具备四大新突破:强控制力、人声自然饱满、乐器层次丰富、歌曲结构清晰。
体验地址:minimaxi.com/audio/music
详细介绍:minimaxi.com/news/minimax-music-15

## 5. 其他动态

1. 百度发布(不开源)新模型 ERNIE X1.1,官方数据宣称比 Gemini-2.5-Pro 和 GPT-5 猛。 (似乎没什么浪花

2. 美团小美agent app上线,支持自主点外卖,有邀请码的小伙伴可以尝试体验。

3. 继字节的 Trae、阿里的Qoder后,腾讯发布了AI Coding工具CodeBuddy Code,同时支持插件、IDE和CLI三种形态的AI编程工具。支持集成Figma、supabase等。体验地址:codebuddy.ai

4. 字节Seed正式发布图像模型Seedream 4.0,即梦4.0

官方介绍:seed.bytedance.com/seedream4_0

体验地址:

1. 即梦网页端(jimeng.jianying.com)-图片生成-上传参考图-选择图片 4.0 模型-输入 Prompt
2. 豆包 App 对话框-AI 生图/生视频-上传参考图-输入 Prompt

5. Google发布差异化隐私模型:VaultGemma,通过应用差分隐私构建了一个注重隐私保护的大语言模型,尽量保证使用模型时不会暴露出训练数据中的私人信息。研究人员发现并量化了模型大小、训练数据批次大小和隐私保护强度(噪声量)之间的关系。在实现强大隐私保护的同时,最大限度地保留模型的性能。

模型地址:huggingface.co/google/vaultgemma-1b





## Github Repos Recommend

1. PDFMathTranslate 基于 AI 完整保留排版的 PDF 文档全文双语翻译,支持 Google/DeepL/Ollama/OpenAI 等服务,提供 CLI/GUI/MCP/Docker/Zotero
Repo 地址:github.com/Byaidu/PDFMathTranslate
2. ToddlerBot,一个低成本、开源的人形机器人平台
官方介绍:toddlerbot.github.io
论文地址:arxiv.org/abs/2502.00893
Repo地址:github.com/hshi74/toddlerbot
3. ROMA 一个开源 DeepResearch 实现,可以接入本地模型或者大模型API。适用于:学术研究、市场分析、竞争情报、技术文档。Repo地址:github.com/sentient-agi/ROMA
4. 社区驱动的模型上下文协议 (MCP) 服务器注册服务
Repo地址:github.com/modelcontextprotocol/registry
vLLM 深度解析:系统梳理大规模语言模型推理架构与优化细节

+ 全流程剖析:输入输出请求处理、调度机制、分页注意力、连续批处理,揭示推理引擎核心运转逻辑
+ 高级技术揭秘:分块预填充、前缀缓存、受限语法 FSM 指导解码、推测性解码、计算存储分离设计(Disaggregated P/D)
+ 横向扩展策略:从单 GPU 小模型到万亿参数级分布式推理,涵盖张量并行、流水线并行、分片并行多节点部署方案
+ 服务化架构:离线部署到多 API 服务器集群,负载均衡与数据并行协调,支持多引擎同时运行
+ 性能指标与分析:延迟(ttft、itl、e2e、tpot)、吞吐量测量,结合 GPU Roofline 性能模型精准评估
+ 丰富示例与视觉辅助,助力理解复杂概念与代码实现细节

了解更多🔗aleksagordic.com/blog/vllm
开源实用的双臂移动家用机器人XLeRobot,成本大概在4000块钱,使用90%的3D打印组件,配合经济实惠的电机和电子元件。
Repo地址:github.com/Vector-Wangel/XLeRobot

3. RAG Time 微软推出的5周进阶课程,系统掌握Retrieval-Augmented Generation(RAG)技术,打造更智能的AI应用。
Repo地址:github.com/microsoft/rag-time

4. perplexity的开源版 fireplexity 支持实时引用、流式响应和动态数据,基于 Firecrawl 技术构建,可搜索网页、新闻和图片,并支持本地/在线部署。MIT License,允许自由使用和二次开发。
Repo地址:github.com/firecrawl/fireplexity

5. Memori:适用于 LLM、AI 代理和多代理系统的开源记忆引擎

Repo地址:github.com/GibsonAI/memori

6. Orchestrator:多Agent AI编程系统

Repo地址:github.com/Danau5tin/multi-agent-coding-system Google for Developers Blog - News about Web, Mobile, AI and Cloud
# 2025W36 AI大模型领域精选热点 🔥

---

## 1. Ali 发布万亿参数模型

+ 阿里推出 Qwen3-Max-Preview (Instruct),拥有超过 1 万亿个参数!可通过 Qwen Chat 和阿里云 API 使用。 基准测试表明,它超越了阿里之前的最佳产品 Qwen3-235B-A22B-2507。内部测试和早期用户反馈证实:性能更强劲,知识面更广,对话、代理任务和指令执行能力更佳。

体验地址:chat.qwen.ai
Alibaba Cloud API: modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

## 2. Kimi 模型升级

+ Kimi K2-0905 模型升级,Agentic Coding 能力提升,上下文长度从 128K 升级到 256K,优化前端代码生成与工具调用准确率,保证100%工具调用成功率。

技术报告:moonshotai/Kimi-K2-Instruct-0905 模型地址:huggingface.co/moonshotai/Kimi-K2-Instruct-0905

+ 重点:其Turbo API 可以“保证 100% 的工具调用准确率”,Kimi 在论文里面其实也提到他们使用的方法,参考了 lm-format-enforcer 的实现。

Repo地址:github.com/MoonshotAI/walle

## 3. Google 发布新的嵌入模型 Embedding Gemma!

+ 轻量级多语言嵌入模型的全新标杆,模型参数量 308M, 上下文是 2K

+ 基于 Gemma 3 架构,已针对 100 多种语言进行训练,并且体积小巧,经过量化后可在不到 200MB 的 RAM 上运行。
+ 旨在与 Gemma 3n 配合使用,共同为移动 RAG 管道、语义搜索等解锁新的用例。

详情介绍:developers.googleblog.com/en/introducing-embeddinggemma
模型地址:huggingface.co/google/embeddinggemma-300m
集成示例:baseten.co/library/embeddinggemma

## 4. 美团 & 快手 & 腾讯 新模型

+ LongCat-Flash-Chat:美团开源,支持128k上下文,5600亿参数MoE大模型

+ 动态激活机制:上下文驱动激活18.6B~31.3B参数(均值约27B)

+ 开源MIT许可,已适配SGLang和vLLM,支持快速部署和定制,适合研发与实际应用探索。

Repo地址:github.com/meituan-longcat/LongCat-Flash-Chat

模型地址:huggingface.co/meituan-longcat/LongCat-Flash-Chat-FP8

+ Klear-46B-A2.5B:快手发布大模型参数 46B 激活 2.5B, 压缩比达到了接近 18:1;256 个专家激活 8 个 + 1个共享专家 + sigmoid路由,上下文长度64K,像是在积累技术经验。

模型地址:huggingface.co/Kwai-Klear/Klear-46B-A2.5B-Instruct

+ Hunyuan-MT 推出的多语言翻译模型与集成方案,包含 Hunyuan-MT-7B 单模型与首个开源翻译集成模型 Hunyuan-MT-Chimera,支持33种语言互译,涵盖5种中国少数民族语言 。

+ 训练流程覆盖预训练 → 继续预训练 → 监督微调 → 翻译强化学习 → 集成强化学习,系统提升模型质量与泛化能力。

+ 自研 AngleSlim 工具实现FP8与INT4量化,显著提升推理效率,降低部署门槛,无需额外训练即可量化模型。

+ 支持TensorRT-LLM、vLLM、SGLang等多种推理框架,提供Docker镜像快速部署,兼容OpenAI接口标准。

+ 丰富的提示模板覆盖中英及多语言翻译任务,方便接入transformers库,支持多节点分布式训练与微调。

Repo地址:github.com/Tencent-Hunyuan/Hunyuan-MT

+ 腾讯混元世界模型-Voyager(HunyuanWorld-Voyager)发布并开源,基于 HunyuanWorld 1.0 构建,融合了视频生成与 3D 建模技术。能够基于单张输入图像生成具有世界一致性的 3D 点云,并支持用户按照自定义的相机路径进行沉浸式世界探索。能够同时生成精确对齐的深度信息与 RGB 视频,无需后处理即可直接用于高质量三维重建。

Repo地址:github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
模型地址:huggingface.co/tencent/HunyuanWorld-Voyager
技术报告:3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

## 5. 其他动态

1. 英伟达计划对中国市场推出新显卡 B30A 基于Blackwell 架构,售价是当前H20的2倍,性能为其6倍,最早9月向客户交付样品。

2. OpenAI 斥资11亿美金,收购了一家全新的公司Statsig,还顺便「买」了人 Statsig的CEO Vijaye Raji直接空降,成了OpenAI应用部门的新CTO。

3. CUDA 13.0 正式发布

+ 弃旧迎新:放弃 Maxwell(如 GTX 980)、Pascal(如 GTX 1080 Ti)、Volta(如 Titan V、V100)架构的离线编译支持,老旧 GPU 只能用 CUDA 12.x 工具包编译代码。
+ Windows 安装流程调整:CUDA 工具包不再内置 NVIDIA 显卡驱动,需手动安装版本≥580.xx 的驱动,确保兼容性。
+ 性能大幅提升:新增 Blackwell GPU 支持,cublas 中 FP4 gemm 性能爆发,cusolver 推出“仿真 FP32”模式;数学库关键函数(sinhf、coshf、modff)提升近 50%;Ampere 及以后架构的 MPS 服务器客户端限制从 48 提升至 60。
+ 工具链更新:nvprof 和 NVIDIA Visual Profiler 正式退场,推荐迁移至 Nsight Systems 和 Nsight Compute,样例程序需从 GitHub 自行构建,cooperative groups 相关 API 及旧版 NPP 非上下文接口被移除。
+ 开发环境要求:Ubuntu 需升级至 22.04 LTS 及以上,Visual Studio 要求 2017 版本,Intel ICC 更新至 2021.7。

详细信息:docs.nvidia.com/cuda/pdf/CUDA_Toolkit_Release_Notes.pdf

4. Deep Research Agent 训练门槛骤降,30小时H200算力即可超越Sonnet-4,开源工具助力人人可达前沿水平。

技术细节与完整教程地址:art.openpipe.ai/tutorials/open-deep-research

5. 阿里最近发布两个和AI安全有关的项目。

> “AI安全,不该是AI与用户的对抗,也不该是安全与能力的零和博弈,而应是一场共同成长的对话,希望我们离一个更负责任的AI近了一步。”

+ Oyster 系列, Alibaba-AAIG 自研的安全模型,致力于构建负责任的 AI 生态。

Repo 地址:github.com/Alibaba-AAIG/Oyster

+ Strata-Sword 阿里 AAIG 团队提出的一种多级安全评测基准,旨在更全面地评估模型在面对不同思考复杂度下的安全能力,帮助模型开发者更好地理解不同模型的安全边界。

+ 推理复杂度作为安全评估维度:定义并量化“推理复杂度”作为可评估的安全维度。
+ 分级越狱评测集构建:将15种不同的越狱攻击方法按照推理复杂度划分成3个不同的等级,包括700条越狱指令集。
+ 考虑了语言特性,针对中文和英文分别定制攻击方法,引入了三种具有中文特色的越狱攻击方法,包括藏头诗攻击、猜灯谜攻击、和汉字拆解攻击。

Repo地址:github.com/Alibaba-AAIG/Strata-Sword







## Github Repos Recommend

1. 开源的智能眼镜操作系统MentraOS,MIT 许可证。内置数十款应用。用户可享受 AI 助手、通知、翻译、屏幕镜像、字幕等功能。
Repo地址:github.com/Mentra-Community/MentraOS

2. Google for Developers Blog - News about Web, Mobile, AI and Cloud
# 2025W35 AI大模型领域精选热点 🔥

---

## 1. Google 又发布新模型 Nano banana

> 图像模型容易出爆款,前有openai和qwen-image,现在google也来了

+ 新的图像编辑模型,又名gemini-2.5-flash-image-preview,轻松实现对图片进行各种精准编辑修改(中文文字编辑不太好,但是结合qwen image 补齐)。 现在可以访问 Gemini 和 AI Studio 随时体验。模型玩法:改变图像风格、通过草图指定人物动作,同时保持极佳的人物一致性、替换图中的物品、改变图中场景的视点、抠图等等。

+ 强大的功能也可能被滥用,比如,有人可能会通过篡改图片来欺骗买家或卖家。好在 Google 已经为 Nano Banana 生成的所有图片中嵌入了隐形水印,采用的是 SynthID 技术。具体来说,水印会直接嵌在图片的像素、视频的每一帧或音频的声谱图里,文本则通过调整词语出现的概率,形成独特、可识别的模式。即使内容被裁剪、压缩、加噪或加滤镜,这些水印依然能够被检测出来。如果怀疑某些内容是 AI 生成的,可以通过 SynthID Detector 网站进行检测(目前需要加入 waitlist)。
详细介绍:blog.google/technology/ai/google-synthid-ai-content-detector

## 2. OpenAI 发布语音对话模型 gpt-realtime

+ OpenAI 正式开放其实时 API (Realtime API),同步推出公司迄今最先进的语音对话模型 gpt-realtime,以及一系列新功能,助力开发者打造可用于生产环境的 AI 语音智能体。gpt-realtime 模型(版本号 gpt-realtime-2025-08-28)在多个方面都有显著提升:它能更好地理解并执行复杂的指令,更精准地调用外部工具,而且生成的语音听起来也更自然、更富于情感。

+ 实时 API (Realtime API) 现在支持远程 MCP 服务器,还能通过会话发起协议 (Session Initiation Protocol, SIP) 拨打电话。这意味着 AI 语音智能体能够调用更多样的工具、获取更丰富的上下文信息。

+ OpenAI 还发布了两款全新的声音:Cedar 和 Marin。这两款声音是实时 API (Realtime API) 的专属福利。与此同时,现有的八种声音也得到了更新和优化。

+ 在衡量模型推理能力的 Big Bench Audio 评测基准上,gpt-realtime 的准确率达到了 82.8%,远超其 2024 年 12 月发布的上一代模型的 65.6%。

参考地址:openai.com/index/introducing-gpt-realtime

+ OpenAI 发布了整合版 API 文档纯文本文件,助力模型的高效调用与集成。

+ 文件包含所有 LLM 指南与 API 参考,约 530k tokens(2.5MB),适合直接作为上下文输入模型或导入开发工具。

+ 统一文本格式,一次性获取完整资料库,极大提升检索与自动化处理效率。

参考地址:cdn.openai.com/API/docs/txt/llms-full.txt

## 3. Grok Code Fast 1:xAI 推出全新轻量级推理模型

> 专为 agentic 编码场景设计,将速度与经济性结合,适合追求高效迭代和多步重构的开发者。

+ 擅长 TypeScript、Python、Java、Rust、C++、Go 等主流语言,跨全栈应用表现出色

+ 每百万个输入token 0.20 美元,每百万输出token 1.50 美元,每百万个缓存的输入token 0.02 美元

+ 附带实用提示指南,帮助用户最大化利用模型能力 docs.x.ai/docs/guides/grok-code-prompt-engineering

参考地址:x.ai/news/grok-code-fast-1

## 4. vLLM:**semantic-router**

> Intelligent Mixture-of-Models Router for Efficient LLM Inference:Auto-Reasoning and Auto-Selection of Models

用于高效 LLM 推理的智能混合模型路由器,智能地将 OpenAI API 请求从定义的池中定向到最合适的后端模型。使用基于 BERT 的语义理解和分类,它优化了性能和成本效率。支持自主选择合适的模型(创意写作/代码生成/数学计算),个人隐私保护(PII检测、提示词防越狱、安全路由)等。

Repo 地址:github.com/vllm-project/semantic-router

官网地址:vllm-semantic-router.com/

## 5. 其他动态

1. Marvis-TTS 打破实时语音合成瓶颈,10秒音频样本即可克隆自然流畅的声音,支持边生成边播放,轻量级模型:量化后仅500MB,支持iOS、Android、Windows、macOS等终端本地推理,适配多平台边缘设备。目前优化英语,德语、法语、葡萄牙语、普通话支持即将上线。适用场景广泛:语音助手、内容创作、无障碍辅助、播客配音及交互式AI等。
Repo地址:github.com/Marvis-Labs/marvis-tts

2. 微软开源长时长、高表达力的TTS 模型: VibeVoice-1.5B,采用 MIT 协议,支持最长 90 分钟连续语音合成,内置 AI 生成音频免责声明和不可感知水印,强化可信度和防滥用。
模型地址:huggingface.co/microsoft/VibeVoice-1.5B Repo地址:github.com/microsoft/VibeVoice

3. 七夕跃阶星辰发布了语音对话模型Step-Audio 2 mini (7B)(输入是音频,输出也是音频,可以实现对话),类似是GPT-realtime 的开源替代。模型地址:huggingface.co/stepfun-ai/Step-Audio-2-mini

4. 美团开源大模型LongCat-Flash,MoE 架构,总参数量达 560B,采用了创新的动态计算机制,能根据上下文需求激活 18.6 B 至 31.3 B 的参数(平均约 27B)。模型地址:huggingface.co/meituan-longcat/LongCat-Flash-Chat

5. 字节发布 OmniHuman-1.5 ,是通过音频和图像生成视频,支持双人音频驱动生成视频、支持多人场景表演、支持生成超过一分钟的视频。官方案例:omnihuman-lab.github.io/v1_5 论文地址:arxiv.org/abs/2508.19209

6. 通义发布Mobile-Agent-v3,一个基于 GUI-Owl 的跨平台多智能体框架,将复杂的任务流拆解为四个不同的智能体角色:

- 管理者(Manager Agent): 负责进行战略规划,将用户的高级指令拆解成有序的子目标列表。
- 执行者(Worker Agent): 负责操作执行,根据当前界面状态选择并执行最合适的子目标。
- 反思者(Reflector Agent): 负责自我修正,对比操作意图和实际结果,判断操作是否成功并提供反馈。
- 记录员(Notetaker Agent): 负责上下文记忆,在成功操作后提取并存储关键信息(如验证码、地址等)。

Repo地址:github.com/X-PLUG/MobileAgent

7. Qwen预告:9月qwen系列还会有一波更新。通义万相预计还要发布一个新模型 Wan2.2-S2V。

8. 据传,Apple尝试使用Google的AI模型加强自己的Siri。

9. 英伟达发布目前最强的机器人大脑平台 Jetson Thor ,采用 Blackwell GPU 并配备 128GB 内存,AI 算力 2,070TFLOPS(FP4),功耗 130W。Jetson AGX Thor 开发者套件现已上市,起售价为 3,499 美元。



## Github Repos Recommend

1. 腾讯开源 Youtu-agent 一个灵活、高性能的框架,用于构建、运行和评估自主代理。除了在基准测试中名列前茅之外,该框架还提供强大的代理功能,例如数据分析、文件处理和深入研究,所有这些都使用开源模型。
Repo地址:github.com/Tencent/Youtu-agent

2. 微软官方MCP(Model Context Protocol)服务器合集,MIT许可,社区驱动,接受贡献,配套完整的代码规范与安全政策。

Repo 地址:github.com/microsoft/mcp

3. NPU运行的大模型推理框架Lemonade

支持在 AMD 显卡和 其它AMD全家桶上运行,包括CPU以及NPU,支持 GGUF 和 ONNX 模型。

Repo地址:github.com/lemonade-sdk/lemonade
Back to Top