5. 其他动态 1 Qwen3-Max-Thinking 早期预览版发布 2 Agent HQ 将 GitHub 转变为一个开放的生态系统，将所有AI 编程助手整合到GitHub，像管理团队一样管理多个 AI 代理

17:48 · Nov 3, 2025 · Mon

5. 其他动态
1 Qwen3-Max-Thinking 早期预览版发布
2 Agent HQ 将 GitHub 转变为一个开放的生态系统，将所有AI 编程助手整合到GitHub，像管理团队一样管理多个 AI 代理。从规划到写代码、再到审查与部署，将代理原生集成到 GitHub 工作流程中。Mission Control 任务控制中心，贯穿 GitHub、VS Code、移动设备和 CLI 的统一界面，可以指挥、监控和管理每一项 AI 驱动的任务。还能接入 Slack、Linear、Jira、Teams 等工具。原文地址：github.blog/news-insights/company-news/welcome-home-agents
3 Cursor 2.0 正式发布全新”自研“AI模型 Composer 1 alpha，特点就是速度快（已有twiter大佬确认此模型来自开源的deepseek模型，证据是使用了相同的分词器Tokenizer）
4 智源研究院开源多模态世界模型，Emu3.5、Emu3.5-Image、Emu3.5-VisionTokenizer 一个不再满足于看图说话或听指令画画，而是试图通过“ binge-watching（刷剧）”海量网络视频来理解并模拟我们这个世界的“世界学习者”。致力于将视觉和文字真正融会贯通。模型地址：huggingface.co/collections/BAAI/emu35 论文地址：arxiv.org/pdf/2510.26583
5 通义开源 UI-Ins-7B/32B 模型，核心能力是将自然语言指令映射到可操作的UI元素。模型涌现推理能力，能够在推理阶段选择性地组合和合成新的指令路径。
▪ 看外观 (Appearance): “点那个红色的X。”（描述目标的视觉特征）
▪ 说功能 (Functionality): “关闭这个文件管理器。”（描述目标的功能）
▪ 指方位 (Location): “点一下右上角的按钮。”（描述目标的相对位置）
▪ 谈意图 (Intent): “我想把这个屏幕弄掉。”（描述最终想要达成的目的）
6

模型地址：huggingface.co/Tongyi-MiA/UI-Ins-7B huggingface.co/Tongyi-MiA/UI-Ins-32B 论文地址：arxiv.org/pdf/2510.20286
7 100B 的 diffusion 文本模型 LLaDA2.0-flash-preview-100B-A6B！MoE 架构！上下文大小4K，MMLU-Pro (测大模型知识能力的) 分数，LLaDA2.0-flash-preview 是 66.16，而 GPT-4-Turbo 是 63.71，性能还是比较有限的。模型地址：huggingface.co/inclusionAI/LLaDA2.0-flash-preview
8 Neo 家用机器人预购（预购价是两万美金）宣发， 2026 年开始在美国交付。争议点在目前还是远程摇控操做的。总感觉比马斯克的 Figure 03 差一些。

官方号称能做家务，如扫地吸尘、端盘子洗碗、叠衣服收纳、搬东西浇花；智能陪伴，比如聊天互动、识别物品、给出建议，接待客人等；并且能自主学习和充电。
9 SoulX-Podcast 开源TTS模型，参数1.7B，专为播客风格的多轮、多说话人对话语音生成而设计。支持普通话、英语以及多种汉语方言，包括川话、河南话和粤语。能够连续生成超过 90 分钟的对话，且说话人音色稳定，语调过渡流畅。此外，说话人能够根据上下文调整韵律，随着对话的进行自然地改变节奏和语调。 Repo地址：github.com/Soul-AILab/SoulX-Podcast 模型地址：huggingface.co/collections/Soul-AILab/soulx-podcast 论文地址：arxiv.org/abs/2510.23541 试听地址：soul-ailab.github.io/soulx-podcast

Github Repos Recommend
1 LLM 炒币 nofx nof1.ai 的开源复刻版，感兴趣的小伙伴可自行部署。期待一个 rockalpha.rockflow.ai A股复刻版。 Repo 地址：github.com/NoFxAiOS/nofx
2 Text2SQL Vanna 一款开源的 Python 框架，利用检索增强生成（RAG）技术，把自然语言自动转成SQL语句。
▪ 支持训练专属的问答模型
▪ 直接执行生成的SQL，返回查询结果和数据可视化图表
▪ 支持PostgreSQL、MySQL、Oracle等数据库
▪ 兼容OpenAI、Anthropic等多种LLM
▪ 使用灵活且安全，数据不会外泄，所有SQL都在本地执行
3

Repo 地址：github.com/vanna-ai/vanna
4 PatentWriterAgent 专利写作智能体目前开源处于早期阶段，可以试用或者参考workflow设计 Repo 地址：github.com/ninehills/PatentWriterAgent
5 微舆近期会支持一键部署体验，有兴趣可关注repo更新

多Agent舆情分析助手，支持全自动分析国内外30+主流社媒与数百万条大众评论。
▪ Insight Agent 私有数据库挖掘：私有舆情数据库深度分析AI代理
▪ Media Agent 多模态内容分析：具备强大多模态能力的AI代理
▪ Query Agent 精准信息搜索：具备国内外网页搜索能力的AI代理
▪ Report Agent 智能报告生成：内置模板的多轮报告生成AI代理
6

Repo 地址：github.com/666ghj/BettaFish
7 HivisionIDPhotos 一套完善的AI模型工作流程，实现对多种用户拍照场景的识别、抠图与证件照生成。
▪ 轻量级抠图（纯离线，仅需 CPU 即可快速推理）
8

▪ 根据不同尺寸规格生成不同的标准证件照、六寸排版照
9

▪ 支持纯离线或端云推理
10

▪ 美颜等
11

Repo 地址：github.com/Zeyi-Lin/HivisionIDPhotos
`

OpenAI

Introducing gpt-oss-safeguard

OpenAI introduces gpt-oss-safeguard—open-weight reasoning models for safety classification that let developers apply and iterate on custom policies.