5. 其他动态
1 Qwen3-Max-Thinking 早期预览版发布
2 Agent HQ 将 GitHub 转变为一个开放的生态系统,将所有AI 编程助手整合到GitHub,像管理团队一样管理多个 AI 代理。从规划到写代码、再到审查与部署,将代理原生集成到 GitHub 工作流程中。Mission Control 任务控制中心,贯穿 GitHub、VS Code、移动设备和 CLI 的统一界面,可以指挥、监控和管理每一项 AI 驱动的任务。还能接入 Slack、Linear、Jira、Teams 等工具。 原文地址:github.blog/news-insights/company-news/welcome-home-agents
3 Cursor 2.0 正式发布全新”自研“AI模型 Composer 1 alpha,特点就是速度快(已有twiter大佬确认此模型来自开源的deepseek模型,证据是使用了相同的分词器Tokenizer)
4 智源研究院开源多模态世界模型,Emu3.5、Emu3.5-Image、Emu3.5-VisionTokenizer 一个不再满足于看图说话或听指令画画,而是试图通过“ binge-watching(刷剧)”海量网络视频来理解并模拟我们这个世界的“世界学习者”。致力于将视觉和文字真正融会贯通。 模型地址:huggingface.co/collections/BAAI/emu35 论文地址:arxiv.org/pdf/2510.26583
5 通义开源 UI-Ins-7B/32B 模型,核心能力是将自然语言指令映射到可操作的UI元素。 模型涌现推理能力,能够在推理阶段选择性地组合和合成新的指令路径。
▪ 看外观 (Appearance): “点那个红色的X。”(描述目标的视觉特征)
▪ 说功能 (Functionality): “关闭这个文件管理器。”(描述目标的功能)
▪ 指方位 (Location): “点一下右上角的按钮。”(描述目标的相对位置)
▪ 谈意图 (Intent): “我想把这个屏幕弄掉。”(描述最终想要达成的目的)
6
模型地址:huggingface.co/Tongyi-MiA/UI-Ins-7B huggingface.co/Tongyi-MiA/UI-Ins-32B 论文地址:arxiv.org/pdf/2510.20286
7 100B 的 diffusion 文本模型 LLaDA2.0-flash-preview-100B-A6B!MoE 架构! 上下文大小4K,MMLU-Pro (测大模型知识能力的) 分数,LLaDA2.0-flash-preview 是 66.16,而 GPT-4-Turbo 是 63.71,性能还是比较有限的。 模型地址:huggingface.co/inclusionAI/LLaDA2.0-flash-preview
8 Neo 家用机器人预购(预购价是两万美金)宣发, 2026 年开始在美国交付。 争议点在目前还是远程摇控操做的。总感觉比 马斯克的 Figure 03 差一些。
官方号称能做家务,如扫地吸尘、端盘子洗碗、叠衣服收纳、搬东西浇花;智能陪伴,比如聊天互动、识别物品、给出建议,接待客人等;并且能自主学习和充电。
9 SoulX-Podcast 开源TTS模型,参数1.7B,专为播客风格的多轮、多说话人对话语音生成而设计。支持普通话、英语以及多种汉语方言,包括川话、河南话和粤语。能够连续生成超过 90 分钟的对话,且说话人音色稳定,语调过渡流畅。此外,说话人能够根据上下文调整韵律,随着对话的进行自然地改变节奏和语调。 Repo地址:github.com/Soul-AILab/SoulX-Podcast 模型地址:huggingface.co/collections/Soul-AILab/soulx-podcast 论文地址:arxiv.org/abs/2510.23541 试听地址:soul-ailab.github.io/soulx-podcast
Github Repos Recommend
1 LLM 炒币 nofx nof1.ai 的开源复刻版,感兴趣的小伙伴可自行部署。期待一个 rockalpha.rockflow.ai A股复刻版。 Repo 地址:github.com/NoFxAiOS/nofx
2 Text2SQL Vanna 一款开源的 Python 框架,利用检索增强生成(RAG)技术,把自然语言自动转成SQL语句。
▪ 支持训练专属的问答模型
▪ 直接执行生成的SQL,返回查询结果和数据可视化图表
▪ 支持PostgreSQL、MySQL、Oracle等数据库
▪ 兼容OpenAI、Anthropic等多种LLM
▪ 使用灵活且安全,数据不会外泄,所有SQL都在本地执行
3
Repo 地址:github.com/vanna-ai/vanna
4 PatentWriterAgent 专利写作智能体 目前开源处于早期阶段,可以试用或者参考workflow设计 Repo 地址:github.com/ninehills/PatentWriterAgent
5 微舆 近期会支持一键部署体验,有兴趣可关注repo更新
多Agent舆情分析助手,支持全自动分析 国内外30+主流社媒 与 数百万条大众评论。
▪ Insight Agent 私有数据库挖掘:私有舆情数据库深度分析AI代理
▪ Media Agent 多模态内容分析:具备强大多模态能力的AI代理
▪ Query Agent 精准信息搜索:具备国内外网页搜索能力的AI代理
▪ Report Agent 智能报告生成:内置模板的多轮报告生成AI代理
6
Repo 地址:github.com/666ghj/BettaFish
7 HivisionIDPhotos 一套完善的AI模型工作流程,实现对多种用户拍照场景的识别、抠图与证件照生成。
▪ 轻量级抠图(纯离线,仅需 CPU 即可快速推理)
8
▪ 根据不同尺寸规格生成不同的标准证件照、六寸排版照
9
▪ 支持 纯离线 或 端云 推理
10
▪ 美颜等
11
Repo 地址:github.com/Zeyi-Lin/HivisionIDPhotos
1 Qwen3-Max-Thinking 早期预览版发布
2 Agent HQ 将 GitHub 转变为一个开放的生态系统,将所有AI 编程助手整合到GitHub,像管理团队一样管理多个 AI 代理。从规划到写代码、再到审查与部署,将代理原生集成到 GitHub 工作流程中。Mission Control 任务控制中心,贯穿 GitHub、VS Code、移动设备和 CLI 的统一界面,可以指挥、监控和管理每一项 AI 驱动的任务。还能接入 Slack、Linear、Jira、Teams 等工具。 原文地址:github.blog/news-insights/company-news/welcome-home-agents
3 Cursor 2.0 正式发布全新”自研“AI模型 Composer 1 alpha,特点就是速度快(已有twiter大佬确认此模型来自开源的deepseek模型,证据是使用了相同的分词器Tokenizer)
4 智源研究院开源多模态世界模型,Emu3.5、Emu3.5-Image、Emu3.5-VisionTokenizer 一个不再满足于看图说话或听指令画画,而是试图通过“ binge-watching(刷剧)”海量网络视频来理解并模拟我们这个世界的“世界学习者”。致力于将视觉和文字真正融会贯通。 模型地址:huggingface.co/collections/BAAI/emu35 论文地址:arxiv.org/pdf/2510.26583
5 通义开源 UI-Ins-7B/32B 模型,核心能力是将自然语言指令映射到可操作的UI元素。 模型涌现推理能力,能够在推理阶段选择性地组合和合成新的指令路径。
▪ 看外观 (Appearance): “点那个红色的X。”(描述目标的视觉特征)
▪ 说功能 (Functionality): “关闭这个文件管理器。”(描述目标的功能)
▪ 指方位 (Location): “点一下右上角的按钮。”(描述目标的相对位置)
▪ 谈意图 (Intent): “我想把这个屏幕弄掉。”(描述最终想要达成的目的)
6
模型地址:huggingface.co/Tongyi-MiA/UI-Ins-7B huggingface.co/Tongyi-MiA/UI-Ins-32B 论文地址:arxiv.org/pdf/2510.20286
7 100B 的 diffusion 文本模型 LLaDA2.0-flash-preview-100B-A6B!MoE 架构! 上下文大小4K,MMLU-Pro (测大模型知识能力的) 分数,LLaDA2.0-flash-preview 是 66.16,而 GPT-4-Turbo 是 63.71,性能还是比较有限的。 模型地址:huggingface.co/inclusionAI/LLaDA2.0-flash-preview
8 Neo 家用机器人预购(预购价是两万美金)宣发, 2026 年开始在美国交付。 争议点在目前还是远程摇控操做的。总感觉比 马斯克的 Figure 03 差一些。
官方号称能做家务,如扫地吸尘、端盘子洗碗、叠衣服收纳、搬东西浇花;智能陪伴,比如聊天互动、识别物品、给出建议,接待客人等;并且能自主学习和充电。
9 SoulX-Podcast 开源TTS模型,参数1.7B,专为播客风格的多轮、多说话人对话语音生成而设计。支持普通话、英语以及多种汉语方言,包括川话、河南话和粤语。能够连续生成超过 90 分钟的对话,且说话人音色稳定,语调过渡流畅。此外,说话人能够根据上下文调整韵律,随着对话的进行自然地改变节奏和语调。 Repo地址:github.com/Soul-AILab/SoulX-Podcast 模型地址:huggingface.co/collections/Soul-AILab/soulx-podcast 论文地址:arxiv.org/abs/2510.23541 试听地址:soul-ailab.github.io/soulx-podcast
Github Repos Recommend
1 LLM 炒币 nofx nof1.ai 的开源复刻版,感兴趣的小伙伴可自行部署。期待一个 rockalpha.rockflow.ai A股复刻版。 Repo 地址:github.com/NoFxAiOS/nofx
2 Text2SQL Vanna 一款开源的 Python 框架,利用检索增强生成(RAG)技术,把自然语言自动转成SQL语句。
▪ 支持训练专属的问答模型
▪ 直接执行生成的SQL,返回查询结果和数据可视化图表
▪ 支持PostgreSQL、MySQL、Oracle等数据库
▪ 兼容OpenAI、Anthropic等多种LLM
▪ 使用灵活且安全,数据不会外泄,所有SQL都在本地执行
3
Repo 地址:github.com/vanna-ai/vanna
4 PatentWriterAgent 专利写作智能体 目前开源处于早期阶段,可以试用或者参考workflow设计 Repo 地址:github.com/ninehills/PatentWriterAgent
5 微舆 近期会支持一键部署体验,有兴趣可关注repo更新
多Agent舆情分析助手,支持全自动分析 国内外30+主流社媒 与 数百万条大众评论。
▪ Insight Agent 私有数据库挖掘:私有舆情数据库深度分析AI代理
▪ Media Agent 多模态内容分析:具备强大多模态能力的AI代理
▪ Query Agent 精准信息搜索:具备国内外网页搜索能力的AI代理
▪ Report Agent 智能报告生成:内置模板的多轮报告生成AI代理
6
Repo 地址:github.com/666ghj/BettaFish
7 HivisionIDPhotos 一套完善的AI模型工作流程,实现对多种用户拍照场景的识别、抠图与证件照生成。
▪ 轻量级抠图(纯离线,仅需 CPU 即可快速推理)
8
▪ 根据不同尺寸规格生成不同的标准证件照、六寸排版照
9
▪ 支持 纯离线 或 端云 推理
10
▪ 美颜等
11
Repo 地址:github.com/Zeyi-Lin/HivisionIDPhotos
`