acshame
-
- #开源项目
#Latex
《A Complete Guide to Standard C++ Algorithms》,一本关于 C++ 标准算法的完整指南,含书籍的Latex源码,也可以做为使用Latex写书的参考。 - 官方进行了详细的测试证明并提供相应验证工具,Repo 地址:github.com/MoonshotAI/K2-Vendor-Verfier
2. Kimi 推出 ==OK Computer== 代理模式,名字很酷。已在内测中,有内测资格用户可在 kimi.com/chat/ 体验。(个人体感很不错,优先生成PPT)
+ 从聊天 → 多页网站、移动优先设计、可编辑幻灯片
+ 支持百万级数据行处理,生成式交互体验
+ 代理模式剧本自我评估、调查和设计能力
+ 原生训练于文件系统、浏览器、终端,工具调用深度集成
+ 较传统聊天模式拥有更多步骤、token 与工具,搭载 Turbo K2 提升性能
OK Computer 不只是一个 AI 助手,更是一个内置“计算机”的智能代理,真正实现任务自主分解与执行,适合复杂多步骤产品与工程场景。
3. Github 发布 ==Copilot Cli==,最大的优势是与 Github 深度结合,使用用 GitHub 账号登录即可,本地一键安装npm install -g @github/copilot其==代码不开源==。比如可以使用它直接查看 Assign 到的issue,统计提交的 PR,甚至做一些复杂的聚合:比如挑选最有价值PR、发现影响范围最大的bug,提交的代码行数等等。详细地址:docs.github.com/en/copilot/concepts/agents/about-copilot-cli
4. 微软公司宣布,将开始采用Anthropic公司的人工智能模型,进一步强化其职场AI助手Copilot。这次合作意义重大,因为此前微软的AI工具几乎全部由OpenAI提供支持。
从本周三开始,使用微软Copilot的企业用户,在进行数字研究辅助和构建定制AI工具时,可以自由选择使用来自OpenAI或Anthropic的模型。
5. Figma 发布官方的 MCP Server,在 Coding Agent 中配置好后,可直接==读取设计稿原型生成前端代码==。 详细地址:figma.com/mcp-catalog/
6. 宇树开源了一个世界模型**UnifoLM-WMA-0**,参数、数据集均对外开放。核心在于**世界模型能够理解机器人和环境相互作用时的物理规律**。Repo地址:github.com/unitreerobotics/unifolm-world-model-action
7. 蚂蚁集团与==SGLang团队==合作将 ==DeepSeek-R1== 在 ==H20== GPU 上的==大规模部署最佳实践==,详情地址:lmsys.org/blog/2025-09-26-sglang-ant-group/
8. 传闻称 OpenAI 和谷歌很可能都将推出各自的 “AI原生”(AI native)浏览器。
9. 传闻称 GLM-4.6 即将发布。
10. Meta 开源模型==代码世界模型 (Code World Model, CWM)==,模型参数32B,它和传统的大语言模型不一样,是利用世界模型尝试弥“看起来对”和“运行起来会怎样”之间的鸿沟(==训练中加入 Python 解释器和代理 Docker 环境的逐步模拟数据==),以此提升代码生成和代码推理能力。(不懂 =.=)
技术报告:ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/
模型地址:huggingface.co/facebook/cwm
## Github Repos Recommend
1. ==Chrome DevTools== 发布官方 ==MCP== 并且代码已==开源==
直接让 AI 编程 Agent 完成网页自动化测试、调试以及优化整套开发流程(分析加载时间、网络请求,以及排查问题等)。不仅可以自动进行网页导航、模拟操作,比如页面点击、填写表单、元素拖拽等各种交互,甚至爬虫等场景。还可以支持直接在网页中运行 JavaScript 代码并查看结果。
Repo地址:github.com/ChromeDevTools/chrome-devtools-mcp
2. ==Nanobot 开源 MCP Host==
灵活定义 agents 与 MCP servers,支持多样化交互接口(聊天、语音、短信、邮件、AR/VR、Slack 等)
目前处于 Alpha 阶段,持续迭代中。==Apache 2.0 开源许可==,便于企业和开发者自由集成与贡献。
Repo地址:github.com/nanobot-ai/nanobot
3. ==翻译整本==电子书 ==TranslateBookWithLLM== 能直接处理整本书籍和各种文档格式。
基于本地 Ollama 模型或 Gemini API 实现,支持多种文件格式翻译,包括 EPUB 电子书、SRT 字幕和纯文本。可通过 Docker 快速部署,提供 Web 界面和命令行两种使用方式。
Repo地址:github.com/hydropix/TranslateBookWithLLM
4. ==AIO Sandbox== 是一个开源的智能体沙箱环境,将浏览器、Shell、文件系统、VSCode 服务器及 MCP 服务整合到同一个 Docker 容器中,提供统一且安全的开发与执行环境。
Repo地址:github.com/agent-infra/sandbox
5. open-codex
项目fork自 CodeX 的源代码(CodeX 是开源的),将 Responses API 替换成 Chat Completion API 支持任何 OpenAI 风格的模型。比如 DeepSeek, Qwen, Kimi-K2,GLM 都能接进去。
Repo地址:github.com/ymichael/open-codex
https://cryptobook.nakov.com/
https://nce.ichochy.com/ - # 2025W39 AI大模型领域精选热点 🔥
---
## 1. DeepSeek
> 节前发模型是常规操作,都别想放假。Claude:没错没错,刚刚发布 cluade sonnet 4.5 (现阶段==最强coding模型与构建agent的最强模型==)
+ DeepSeek-V3.2-Exp,一个实验性(Experimental)的版本,==大幅度降价(将降低 50% 以上)==,并且引入==Sparse Attention(一种稀疏注意力机制)==,针对长文本的训练和推理效率进行了探索性的优化和验证。新模型GPU算子包含 ==TileLang== 与 CUDA 两种版本。(DeepSeek建议社区在进行研究性实验时,使用基于 TileLang 的版本以方便调试和快速迭代。)
模型地址:huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
论文地址:github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
+ 更新 DeepSeek-V3.1-Terminus 版本(原有模型V3.1模型bug修复版本)
**语言一致性增强**:缓解了中英文混杂、偶发异常字符等情况;
**Agent 能力增强**:进一步优化了 Code Agent 与 Search Agent 的表现。
模型地址:huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
## 2. Ali
> 据统计,阿里不到2年时间居然发布了 300+ 个模型,卷还得是阿里啊
+ 阿里云栖大会:CEO对于未来的愿景非常大,迈向全模态(单一模型)、10万亿参数量、10M/100M上下文等等 (All in Nvidia)
+ ==又双叒叕火炎焱燚水沝淼㵘==发布和开源了很多个模型
+ Qwen3-Max 上线 ==大就是好== 最智能的非推理模型,官方称超越 Kimi K2 0905!
+ 模型总参数超过1T,预训练使用了36T tokens
+ Qwen3-Max的推理增强版本 Qwen3-Max-Thinking (Heavy)正在全力训练中
+ 详情地址:qwen.ai/blog?id=241398b9cd6353de490b0f82806c7848c5d2777d&from=research.latest-advancements-list
+ 视觉语言模型:Qwen3-VL-235B-A22B-Thinking、Qwen3-VL-235B-A22B-Instruct
+ Instruct 在关键视觉基准测试中的表现优于 Gemini 2.5 Pro
+ Thinking 在多模态推理任务上实现了最佳 (SOTA) 性能
+ 32 种语言的 OCR,256K上下文(可扩展至1M),==视觉agent、带图推理、2D/3D定位、多图理解、视频理解均有demo==
+ 模型地址:huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
+ 博客地址:qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
+ Qwen3Guard-Stream-8B、Qwen3Guard-Stream-0.6B、Qwen3Guard-Stream-4B、Qwen3Guard-gen-0.6B、Qwen3Guard-gen-8B、Qwen3Guard-gen-4B
+ 基于 Qwen3 的==安全审核模型==系列,支持 119 种语言和方言
+ Qwen3Guard-Stream 进行==低延迟、实时流媒体检测==
+ Qwen3Guard-Gen 进行强大的==全上下文安全分析==——非常适合 RL 奖励建模!
+ 模型地址:huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
+ 技术报告:github.com/QwenLM/Qwen3Guard/blob/main/Qwen3Guard_Technical_Report.pdf
+ ==多模态模型==:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking、Qwen3-Omni-30B-A3B-Captioner
+ 支持文本、图像、音频、视频输入,输出音频和视频
+ 支持119种语言,30min 的音频理解
+ 自动语音识别、音频理解和语音对话方面表现优秀
+ 模型地址:huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
+ Qwen-Image-Edit-2509
+ ==多图像联合编辑== 支持1-3张图像同时处理,尤其是"人+人"、"人+物"、"人+场景"的各种组合,特别是==电商场景==,产品+模特+场景的组合编辑
+ 模型地址:huggingface.co/Qwen/Qwen-Image-Edit-2509
+ 博客地址:qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list
+ Qwen3-TTS-Flash 重新定义语音 AI 的全新文本转语音模型 ==闭源==
+ 17 种富有表现力的声音 × 10 种语言,支持 9 种以上中国方言:粤语、闽南语、四川话等
+ 非常适合应用程序、游戏、IVR、内容等任何需要自然、类似人类的语音的地方。
+ 博客地址:qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list
## 3. Google
+ 据传 ==Gemini 3== 将提前到十月初发布
+ 发布一个为==初创公司==写的 ==AI Agent 构建指南==,详情见附件。
+ 如何构建和部署 AI 代理,最大化公司的业务目标效率和生产力。
+ 如何利用 Google Cloud 生成式 AI 工具,包括 Vertex AI 平台以及代理开发套件检索。
+ ==Gemini Robotics 1.5:让机器人有真正的“思考力”的模型==
两个模型协同工作:Gemini Robotics-ER 1.5、Gemini Robotics 1.5,前者充当高级大脑,与人交互、理解环境、协调工具,并制定执行任务的详细计划。 后者负责执行,将指令转化为机器人进行常规移动和行动所需的精确电机指令。模型的预览版已正式上线,可以通过Google AI Studio 体验。
详细地址:deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/
## 4. OpenAI
+ OpenAI 悄悄上线新模型 GPT-5-Chat-Safety,却从未在任何官方文档中提及。过滤用户与 GPT-4o 模型的聊天记录(重写聊天内容)。甚至是任何涉及你过往记忆的对话,只要被系统归类为“有风险”(哪怕只是一丝丝情感流露),用户得到的回复就不是来自 GPT-4o,而是被替换上来的 GPT-5-Chat-Safety。
+ OpenAI 新产品 ChatGPT Pulse,一个AI 助理,基于个人信息(聊天记录、个人资料、关联的日历、邮箱、文档等等),当你晚上睡觉时,ChatGPT 主动地分析你的兴趣、梳理你的日程,甚至推测用户未来的需要。例如:每日新闻早报、行程规划、行动建议、灵感启发。
详细地址:openai.com/index/introducing-chatgpt-pulse/
+ OpenAI发布了300多套各个行业的Prompt Packs(提示词包),从IT、销售到HR、管理、市场、工程、产品,几乎所有常见岗位都能找到对应内容。
详细地址:academy.openai.com/public/tags/prompt-packs-6849a0f98c613939acef841c
## 5. 其他动态
1. Kimi报道,不同模型API供应商提供的模型API服务,虽然都是宣称用的Kimi K2开源模型,但工具调用能力上差异很大。最差的只能到官方的60%左右。Kimi - # 2025W38 AI大模型领域精选热点 🔥
---
## 1. OpenAI
+ OpenAI 更新发布了 GPT-5-CodeX! ,专门针对 Codex 优化,更易于引导,更能遵循 AGENTS. md 的指示。它基于GPT-5进行了进一步强化,更适合真正的软件开发场景。此外,它的代码审查能力也得到大幅提升,能在软件上线前揪出关键漏洞。目前,GPT-5-Codex已经全面上线:云端任务和代码审查默认使用该模型,也可以在本地通过Codex CLI和IDE扩展自由切换使用。
+ OpenAI发布史上最大规模ChatGPT用户行为报告:
+ 用户活跃度持续增长,所有用户群体的消息量均稳步提升。
+ 职业差异显著,计算机相关岗位使用率近60%领跑,管理与工程科学类紧随其后约50%,非专业用户也达40%。
+ 功能偏好集中于实用指导(29%)、信息查询(25%)、写作(24%)与多媒体创作(7%),编程对话仅占4.2%,陪伴类更低至1.9%。
+ 性别比例趋向平衡,女性用户首次超越男性,46%用户年龄集中18-25岁,老年用户工作相关对话占比显著减少,仅16%。
参考地址:cdn.openai.com/pdf/a253471f-8260-40c6-a2cc-aa93fe9f142e/economic-research-chatgpt-usage-paper.pdf
+ OpenAI发布大学生专属大语言模型聊天话题指南(100 chats for college students),涉及学习、职业发展、生活等多个方面。
参考地址:chatgpt.com/use-cases/students
+ OpenAI 和 Gemini 2.5 Deep Think 都刷到了 2025 ICPC 金牌!OpenAI 12 题全对(12/12),Gemini(10/12)。
## 2. Ali
+ 开源新模型 Wan2.2-Animate-14B,这是一个统一的角色动画和替换模型,能够完整复制动作和表情。一定程度上替代动作捕捉。基于 Wan-I2V 构建的。对于身体运动控制,使用通过空间对齐合并的骨架信号。对于面部表情控制,利用从面部图像中提取的隐式特征作为驱动信号。此外,对于角色替换,还训练了一个辅助的 Relighting LoRA 来增强角色与新环境的融合。
模型地址:huggingface.co/Wan-AI/Wan2.2-Animate-14B
+ 国产GPU:平头哥最新的 GPU/AI 算力卡,片间带宽能达到 700GB/s,而且搭载 HBM2e显存96G,功耗400W, 感觉这个卡可以用来训练了。
+ 据传,qwen3 多模态模型将迎来一波更新。
## 3. Google
+ 谷歌发布了带有 Gemini 的 Chrome 浏览器,支持总结回答页面问题,对比多页面的信息,跨站点快速提炼关键信息,未来会上线 Agentic 能力,操作浏览器网页完成任务,仅美国地区可用
+ 谷歌推出**代理支付协议(AP2)**。谷歌与领先的支付和技术公司共同开发的开放协议,旨在安全地跨平台发起和处理Agent主导的支付。该协议可作为**代理对代理 (A2A)** 协议和模型**上下文协议 (MCP)** 的扩展。正在与 60 多个组织组成的多元化团体合作。
Repo 地址:github.com/google-agentic-commerce/AP2
官方介绍:cloud.google.com/blog/products/ai-machine-learning/announcing-agents-to-payments-ap2-protocol
## 4. Meta
+ Meta 新模型 MobileLLM-R1-950M,官方宣称超过了 Qwen3-0.6B (官方:Qwen3-0.6B 是在 36T 数据上训练出来的,我们只用了不到5T)。
模型地址:huggingface.co/facebook/MobileLLM-R1-950M
+ Meta 正式发布了新款的 Ray-Ban Display AI 智能眼镜(发布会严重翻车)。配备 EMG Neural Band 神经腕带可以用非常精准的手势控制眼镜,甚至可以虚空写字,重 69 克,混合使用续航 6 小时(配充电盒 30 小时),起价 799 美元,9 月 30 日在美国发售。
## 5. 其他动态
1. NVIDIA ViPE,用于 3D 几何感知的视频姿势引擎,可以将视频转换为3D空间。
官网:research.nvidia.com/labs/toronto-ai/vipe/
论文:research.nvidia.com/labs/toronto-ai/vipe/assets/paper.pdf
Repo: github.com/nv-tlabs/vipe
2. 字节开源SAIL-VL2一种开放式视觉语言基础模型(LVM) 实现全面的多模态理解和推理。有2B、8B、推理\不推理一共四个版本。
技术报告:huggingface.co/papers/2509.14033
论文地址:arxiv.org/abs/2509.14033
## Github Repos Recommend
1. Github 官方发布的39个mcp server,可一键安装到VSCode
Repo地址:github.com/mcp
2. presentation-ai 开源的 AI 演示文稿生成器,只需输入主题,AI 就能自动生成完整的 PPT 大纲和精美的幻灯片,支持多种主题风格、自定义配色方案,还能根据内容智能配图。
Repo 地址:github.com/allweonedev/presentation-ai
3. Tongyi DeepResearch:阿里巴巴推出的顶尖开源深度研究Agent,专注长时域信息检索和复杂推理任务。
完全开源的 Web Agent。模型Alibaba-NLP/Tongyi-DeepResearch-30B-A3B,上下文128K,端到端agent训练 。
+ 全流程数据合成:不依赖昂贵的人工标注,通过创新的数据合成方案,为智能体的持续预训练(CPT)、监督微调(SFT)和强化学习(RL)提供海量高质量数据 。
+ 端到端训练框架:建立了一个从“智能体持续预训练”到“智能体强化学习”的无缝训练循环,并采用定制化的在策略(on-policy)强化学习算法(GRPO)来对齐模型行为 。
+ 创新的推理模式:除了标准的ReAct模式,还开发了基于IterResearch范式的“重模式”(Heavy Mode),通过解构任务和重组工作区来克服长程任务中的“认知窒息”问题,从而最大化模型的推理和规划潜力 。
模型地址:huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
Repo地址:github.com/Alibaba-NLP/DeepResearch
技术博客:tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
4. CodeX
OpenAI 官方出的的《OpenAI 如何使用 Codex》的文档
+ 从 "询问模式" (Ask Mode) 开始:对于复杂的任务,先让 Codex 生成一个实现计划,再切换到代码模式进行具体操作 。
+ 结构化提示词:像写一个 Github Issue 一样提供清晰的上下文,包括文件路径、组件名和代码片段等 。
+ 迭代优化开发环境:通过配置启动脚本和环境变量来减少 Codex 的错误率 。
+ 善用任务队列:将一些次要的修复或想法随时抛给 Codex,作为一个轻量级的待办事项列表 。
+ 利用 AGENTS.md 文件提供持久上下文:在这个文件中定义项目的命名规范、业务逻辑等信息,帮助 Codex 更好地理解项目 。
+ 利用 "N选优" (Best of N) 功能:针对一个任务生成多个方案,从中挑选最好的一个或组合成一个更强的方案 。
Repo地址:github.com/openai/codex
5. ardupilot 自动驾驶开源软件
可以用来自动驾驶 飞机,水下航行器,直升机,漫游车,帆船,四旋翼飞机、多旋翼飞行器,直升机,平衡机器人,甚至潜艇
Repo地址:github.com/ArduPilot/ardupilot
https://deeplearningwithpython.io/chapters/ - # 2025W37 AI大模型领域精选热点 🔥
---
## 1. Ali
+ 发布 Qwen3-ASR:一款集多语言、高鲁棒性与极简接入于一体的全能语音识别模型。
+ 支持11种语言(含中英、阿拉伯语、德语、日语、韩语、俄语等),自动识别语言,无需手动切换。
+ 适应复杂环境:噪声、远场、低音质均有 <8% 的词错误率(WER),歌曲、说唱及带背景音乐的语音也能精准识别。
+ 独特自定义上下文功能:可粘贴任意文本(专有名词、行业术语、甚至乱码),极大提升识别准确率和适用场景。
+ 单一模型覆盖多场景,简化部署流程,极适合教育科技、媒体转录、客服智能等多领域应用。
+ 提供开放API及在线Demo,方便快速体验与集成。
体验地址:huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
+ 开源 Qwen3-Next-80B-A3B 系列新架构模型,包括 Qwen3-Next-80B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Thinking
+ 总参数高激活参数低,训练成本低,推理速度快
+ 80B 总参数激活参数 3B,混合架构 Gated DeltaNet + Gated Attention
+ 稀疏MoE:512 个专家,10 个路由专家 + 1 个共享专家
跑分Qwen3-Next-80B-A3B-Instruct 跟 Qwen3-235B-A22B 差不多,感觉是新的架构尝试,结合了 Gated DeltaNet 和 Gated Attention,以及高稀疏性 MoE 层,(80B仅激活3B),并且长文本性能也增强了很多,原生 262K,可以扩展到 1M。
模型地址:
huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking
## 2.Kimi Checkpoint Engine
+ Checkpoint-engine 是一个简单的中间件,用于更新大语言模型推理引擎中的模型权重——这是强化学习中的一个关键步骤。
基于该项目可以在不中断服务、不重启整个模型的情况下,直接修改正在运行中的大模型推理服务所使用的权重参数,更新kimi k2的参数只需要20秒。
Repo地址:github.com/MoonshotAI/checkpoint-engine
详细解析:zhuanlan.zhihu.com/p/1949882680167621566
## 3. 小米
+ 小米 Kaldi 团队发布基于 Flow Matching 架构的ZipVoice系列语音合成(TTS)模型——**ZipVoice(零样本单说话人语音合成模型)与ZipVoice-Dialog(零样本对话语音合成模型)**。
+ ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破。
+ ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈,实现了又快又稳又自然的语音对话合成。
ZipVoice系列的模型文件、训练代码和推理代码以及6.8k小时的语音对话数据集OpenDialog已开源:github.com/k2-fsa/ZipVoice
Zipvoice 论文:arxiv.org/pdf/2506.13053
体验地址:zipvoice.github.io
## 4. Minmax Music 1.5
+ Minmax 发布新的音乐模型 Music 1.5,开启了“一人即乐队”的新时代,生成时长升至4分钟,并具备四大新突破:强控制力、人声自然饱满、乐器层次丰富、歌曲结构清晰。
体验地址:minimaxi.com/audio/music
详细介绍:minimaxi.com/news/minimax-music-15
## 5. 其他动态
1. 百度发布(不开源)新模型 ERNIE X1.1,官方数据宣称比 Gemini-2.5-Pro 和 GPT-5 猛。 (似乎没什么浪花
2. 美团小美agent app上线,支持自主点外卖,有邀请码的小伙伴可以尝试体验。
3. 继字节的 Trae、阿里的Qoder后,腾讯发布了AI Coding工具CodeBuddy Code,同时支持插件、IDE和CLI三种形态的AI编程工具。支持集成Figma、supabase等。体验地址:codebuddy.ai
4. 字节Seed正式发布图像模型Seedream 4.0,即梦4.0
官方介绍:seed.bytedance.com/seedream4_0
体验地址:
1. 即梦网页端(jimeng.jianying.com)-图片生成-上传参考图-选择图片 4.0 模型-输入 Prompt
2. 豆包 App 对话框-AI 生图/生视频-上传参考图-输入 Prompt
5. Google发布差异化隐私模型:VaultGemma,通过应用差分隐私构建了一个注重隐私保护的大语言模型,尽量保证使用模型时不会暴露出训练数据中的私人信息。研究人员发现并量化了模型大小、训练数据批次大小和隐私保护强度(噪声量)之间的关系。在实现强大隐私保护的同时,最大限度地保留模型的性能。
模型地址:huggingface.co/google/vaultgemma-1b
## Github Repos Recommend
1. PDFMathTranslate 基于 AI 完整保留排版的 PDF 文档全文双语翻译,支持 Google/DeepL/Ollama/OpenAI 等服务,提供 CLI/GUI/MCP/Docker/Zotero
Repo 地址:github.com/Byaidu/PDFMathTranslate
2. ToddlerBot,一个低成本、开源的人形机器人平台
官方介绍:toddlerbot.github.io
论文地址:arxiv.org/abs/2502.00893
Repo地址:github.com/hshi74/toddlerbot
3. ROMA 一个开源 DeepResearch 实现,可以接入本地模型或者大模型API。适用于:学术研究、市场分析、竞争情报、技术文档。Repo地址:github.com/sentient-agi/ROMA
4. 社区驱动的模型上下文协议 (MCP) 服务器注册服务
Repo地址:github.com/modelcontextprotocol/registry - vLLM 深度解析:系统梳理大规模语言模型推理架构与优化细节
+ 全流程剖析:输入输出请求处理、调度机制、分页注意力、连续批处理,揭示推理引擎核心运转逻辑
+ 高级技术揭秘:分块预填充、前缀缓存、受限语法 FSM 指导解码、推测性解码、计算存储分离设计(Disaggregated P/D)
+ 横向扩展策略:从单 GPU 小模型到万亿参数级分布式推理,涵盖张量并行、流水线并行、分片并行多节点部署方案
+ 服务化架构:离线部署到多 API 服务器集群,负载均衡与数据并行协调,支持多引擎同时运行
+ 性能指标与分析:延迟(ttft、itl、e2e、tpot)、吞吐量测量,结合 GPU Roofline 性能模型精准评估
+ 丰富示例与视觉辅助,助力理解复杂概念与代码实现细节
了解更多🔗aleksagordic.com/blog/vllm - 开源实用的双臂移动家用机器人XLeRobot,成本大概在4000块钱,使用90%的3D打印组件,配合经济实惠的电机和电子元件。
Repo地址:github.com/Vector-Wangel/XLeRobot
3. RAG Time 微软推出的5周进阶课程,系统掌握Retrieval-Augmented Generation(RAG)技术,打造更智能的AI应用。
Repo地址:github.com/microsoft/rag-time
4. perplexity的开源版 fireplexity 支持实时引用、流式响应和动态数据,基于 Firecrawl 技术构建,可搜索网页、新闻和图片,并支持本地/在线部署。MIT License,允许自由使用和二次开发。
Repo地址:github.com/firecrawl/fireplexity
5. Memori:适用于 LLM、AI 代理和多代理系统的开源记忆引擎
Repo地址:github.com/GibsonAI/memori
6. Orchestrator:多Agent AI编程系统
Repo地址:github.com/Danau5tin/multi-agent-coding-system - # 2025W36 AI大模型领域精选热点 🔥
---
## 1. Ali 发布万亿参数模型
+ 阿里推出 Qwen3-Max-Preview (Instruct),拥有超过 1 万亿个参数!可通过 Qwen Chat 和阿里云 API 使用。 基准测试表明,它超越了阿里之前的最佳产品 Qwen3-235B-A22B-2507。内部测试和早期用户反馈证实:性能更强劲,知识面更广,对话、代理任务和指令执行能力更佳。
体验地址:chat.qwen.ai
Alibaba Cloud API: modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview
## 2. Kimi 模型升级
+ Kimi K2-0905 模型升级,Agentic Coding 能力提升,上下文长度从 128K 升级到 256K,优化前端代码生成与工具调用准确率,保证100%工具调用成功率。
技术报告:moonshotai/Kimi-K2-Instruct-0905 模型地址:huggingface.co/moonshotai/Kimi-K2-Instruct-0905
+ 重点:其Turbo API 可以“保证 100% 的工具调用准确率”,Kimi 在论文里面其实也提到他们使用的方法,参考了 lm-format-enforcer 的实现。
Repo地址:github.com/MoonshotAI/walle
## 3. Google 发布新的嵌入模型 Embedding Gemma!
+ 轻量级多语言嵌入模型的全新标杆,模型参数量 308M, 上下文是 2K
+ 基于 Gemma 3 架构,已针对 100 多种语言进行训练,并且体积小巧,经过量化后可在不到 200MB 的 RAM 上运行。
+ 旨在与 Gemma 3n 配合使用,共同为移动 RAG 管道、语义搜索等解锁新的用例。
详情介绍:developers.googleblog.com/en/introducing-embeddinggemma
模型地址:huggingface.co/google/embeddinggemma-300m
集成示例:baseten.co/library/embeddinggemma
## 4. 美团 & 快手 & 腾讯 新模型
+ LongCat-Flash-Chat:美团开源,支持128k上下文,5600亿参数MoE大模型
+ 动态激活机制:上下文驱动激活18.6B~31.3B参数(均值约27B)
+ 开源MIT许可,已适配SGLang和vLLM,支持快速部署和定制,适合研发与实际应用探索。
Repo地址:github.com/meituan-longcat/LongCat-Flash-Chat
模型地址:huggingface.co/meituan-longcat/LongCat-Flash-Chat-FP8
+ Klear-46B-A2.5B:快手发布大模型参数 46B 激活 2.5B, 压缩比达到了接近 18:1;256 个专家激活 8 个 + 1个共享专家 + sigmoid路由,上下文长度64K,像是在积累技术经验。
模型地址:huggingface.co/Kwai-Klear/Klear-46B-A2.5B-Instruct
+ Hunyuan-MT 推出的多语言翻译模型与集成方案,包含 Hunyuan-MT-7B 单模型与首个开源翻译集成模型 Hunyuan-MT-Chimera,支持33种语言互译,涵盖5种中国少数民族语言 。
+ 训练流程覆盖预训练 → 继续预训练 → 监督微调 → 翻译强化学习 → 集成强化学习,系统提升模型质量与泛化能力。
+ 自研 AngleSlim 工具实现FP8与INT4量化,显著提升推理效率,降低部署门槛,无需额外训练即可量化模型。
+ 支持TensorRT-LLM、vLLM、SGLang等多种推理框架,提供Docker镜像快速部署,兼容OpenAI接口标准。
+ 丰富的提示模板覆盖中英及多语言翻译任务,方便接入transformers库,支持多节点分布式训练与微调。
Repo地址:github.com/Tencent-Hunyuan/Hunyuan-MT
+ 腾讯混元世界模型-Voyager(HunyuanWorld-Voyager)发布并开源,基于 HunyuanWorld 1.0 构建,融合了视频生成与 3D 建模技术。能够基于单张输入图像生成具有世界一致性的 3D 点云,并支持用户按照自定义的相机路径进行沉浸式世界探索。能够同时生成精确对齐的深度信息与 RGB 视频,无需后处理即可直接用于高质量三维重建。
Repo地址:github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
模型地址:huggingface.co/tencent/HunyuanWorld-Voyager
技术报告:3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
## 5. 其他动态
1. 英伟达计划对中国市场推出新显卡 B30A 基于Blackwell 架构,售价是当前H20的2倍,性能为其6倍,最早9月向客户交付样品。
2. OpenAI 斥资11亿美金,收购了一家全新的公司Statsig,还顺便「买」了人 Statsig的CEO Vijaye Raji直接空降,成了OpenAI应用部门的新CTO。
3. CUDA 13.0 正式发布
+ 弃旧迎新:放弃 Maxwell(如 GTX 980)、Pascal(如 GTX 1080 Ti)、Volta(如 Titan V、V100)架构的离线编译支持,老旧 GPU 只能用 CUDA 12.x 工具包编译代码。
+ Windows 安装流程调整:CUDA 工具包不再内置 NVIDIA 显卡驱动,需手动安装版本≥580.xx 的驱动,确保兼容性。
+ 性能大幅提升:新增 Blackwell GPU 支持,cublas 中 FP4 gemm 性能爆发,cusolver 推出“仿真 FP32”模式;数学库关键函数(sinhf、coshf、modff)提升近 50%;Ampere 及以后架构的 MPS 服务器客户端限制从 48 提升至 60。
+ 工具链更新:nvprof 和 NVIDIA Visual Profiler 正式退场,推荐迁移至 Nsight Systems 和 Nsight Compute,样例程序需从 GitHub 自行构建,cooperative groups 相关 API 及旧版 NPP 非上下文接口被移除。
+ 开发环境要求:Ubuntu 需升级至 22.04 LTS 及以上,Visual Studio 要求 2017 版本,Intel ICC 更新至 2021.7。
详细信息:docs.nvidia.com/cuda/pdf/CUDA_Toolkit_Release_Notes.pdf
4. Deep Research Agent 训练门槛骤降,30小时H200算力即可超越Sonnet-4,开源工具助力人人可达前沿水平。
技术细节与完整教程地址:art.openpipe.ai/tutorials/open-deep-research
5. 阿里最近发布两个和AI安全有关的项目。
> “AI安全,不该是AI与用户的对抗,也不该是安全与能力的零和博弈,而应是一场共同成长的对话,希望我们离一个更负责任的AI近了一步。”
+ Oyster 系列, Alibaba-AAIG 自研的安全模型,致力于构建负责任的 AI 生态。
Repo 地址:github.com/Alibaba-AAIG/Oyster
+ Strata-Sword 阿里 AAIG 团队提出的一种多级安全评测基准,旨在更全面地评估模型在面对不同思考复杂度下的安全能力,帮助模型开发者更好地理解不同模型的安全边界。
+ 推理复杂度作为安全评估维度:定义并量化“推理复杂度”作为可评估的安全维度。
+ 分级越狱评测集构建:将15种不同的越狱攻击方法按照推理复杂度划分成3个不同的等级,包括700条越狱指令集。
+ 考虑了语言特性,针对中文和英文分别定制攻击方法,引入了三种具有中文特色的越狱攻击方法,包括藏头诗攻击、猜灯谜攻击、和汉字拆解攻击。
Repo地址:github.com/Alibaba-AAIG/Strata-Sword
## Github Repos Recommend
1. 开源的智能眼镜操作系统MentraOS,MIT 许可证。内置数十款应用。用户可享受 AI 助手、通知、翻译、屏幕镜像、字幕等功能。
Repo地址:github.com/Mentra-Community/MentraOS
2. - # 2025W35 AI大模型领域精选热点 🔥
---
## 1. Google 又发布新模型 Nano banana
> 图像模型容易出爆款,前有openai和qwen-image,现在google也来了
+ 新的图像编辑模型,又名gemini-2.5-flash-image-preview,轻松实现对图片进行各种精准编辑修改(中文文字编辑不太好,但是结合qwen image 补齐)。 现在可以访问 Gemini 和 AI Studio 随时体验。模型玩法:改变图像风格、通过草图指定人物动作,同时保持极佳的人物一致性、替换图中的物品、改变图中场景的视点、抠图等等。
+ 强大的功能也可能被滥用,比如,有人可能会通过篡改图片来欺骗买家或卖家。好在 Google 已经为 Nano Banana 生成的所有图片中嵌入了隐形水印,采用的是 SynthID 技术。具体来说,水印会直接嵌在图片的像素、视频的每一帧或音频的声谱图里,文本则通过调整词语出现的概率,形成独特、可识别的模式。即使内容被裁剪、压缩、加噪或加滤镜,这些水印依然能够被检测出来。如果怀疑某些内容是 AI 生成的,可以通过 SynthID Detector 网站进行检测(目前需要加入 waitlist)。
详细介绍:blog.google/technology/ai/google-synthid-ai-content-detector
## 2. OpenAI 发布语音对话模型 gpt-realtime
+ OpenAI 正式开放其实时 API (Realtime API),同步推出公司迄今最先进的语音对话模型 gpt-realtime,以及一系列新功能,助力开发者打造可用于生产环境的 AI 语音智能体。gpt-realtime 模型(版本号 gpt-realtime-2025-08-28)在多个方面都有显著提升:它能更好地理解并执行复杂的指令,更精准地调用外部工具,而且生成的语音听起来也更自然、更富于情感。
+ 实时 API (Realtime API) 现在支持远程 MCP 服务器,还能通过会话发起协议 (Session Initiation Protocol, SIP) 拨打电话。这意味着 AI 语音智能体能够调用更多样的工具、获取更丰富的上下文信息。
+ OpenAI 还发布了两款全新的声音:Cedar 和 Marin。这两款声音是实时 API (Realtime API) 的专属福利。与此同时,现有的八种声音也得到了更新和优化。
+ 在衡量模型推理能力的 Big Bench Audio 评测基准上,gpt-realtime 的准确率达到了 82.8%,远超其 2024 年 12 月发布的上一代模型的 65.6%。
参考地址:openai.com/index/introducing-gpt-realtime
+ OpenAI 发布了整合版 API 文档纯文本文件,助力模型的高效调用与集成。
+ 文件包含所有 LLM 指南与 API 参考,约 530k tokens(2.5MB),适合直接作为上下文输入模型或导入开发工具。
+ 统一文本格式,一次性获取完整资料库,极大提升检索与自动化处理效率。
参考地址:cdn.openai.com/API/docs/txt/llms-full.txt
## 3. Grok Code Fast 1:xAI 推出全新轻量级推理模型
> 专为 agentic 编码场景设计,将速度与经济性结合,适合追求高效迭代和多步重构的开发者。
+ 擅长 TypeScript、Python、Java、Rust、C++、Go 等主流语言,跨全栈应用表现出色
+ 每百万个输入token 0.20 美元,每百万输出token 1.50 美元,每百万个缓存的输入token 0.02 美元
+ 附带实用提示指南,帮助用户最大化利用模型能力 docs.x.ai/docs/guides/grok-code-prompt-engineering
参考地址:x.ai/news/grok-code-fast-1
## 4. vLLM:**semantic-router**
> Intelligent Mixture-of-Models Router for Efficient LLM Inference:Auto-Reasoning and Auto-Selection of Models
用于高效 LLM 推理的智能混合模型路由器,智能地将 OpenAI API 请求从定义的池中定向到最合适的后端模型。使用基于 BERT 的语义理解和分类,它优化了性能和成本效率。支持自主选择合适的模型(创意写作/代码生成/数学计算),个人隐私保护(PII检测、提示词防越狱、安全路由)等。
Repo 地址:github.com/vllm-project/semantic-router
官网地址:vllm-semantic-router.com/
## 5. 其他动态
1. Marvis-TTS 打破实时语音合成瓶颈,10秒音频样本即可克隆自然流畅的声音,支持边生成边播放,轻量级模型:量化后仅500MB,支持iOS、Android、Windows、macOS等终端本地推理,适配多平台边缘设备。目前优化英语,德语、法语、葡萄牙语、普通话支持即将上线。适用场景广泛:语音助手、内容创作、无障碍辅助、播客配音及交互式AI等。
Repo地址:github.com/Marvis-Labs/marvis-tts
2. 微软开源长时长、高表达力的TTS 模型: VibeVoice-1.5B,采用 MIT 协议,支持最长 90 分钟连续语音合成,内置 AI 生成音频免责声明和不可感知水印,强化可信度和防滥用。
模型地址:huggingface.co/microsoft/VibeVoice-1.5B Repo地址:github.com/microsoft/VibeVoice
3. 七夕跃阶星辰发布了语音对话模型Step-Audio 2 mini (7B)(输入是音频,输出也是音频,可以实现对话),类似是GPT-realtime 的开源替代。模型地址:huggingface.co/stepfun-ai/Step-Audio-2-mini
4. 美团开源大模型LongCat-Flash,MoE 架构,总参数量达 560B,采用了创新的动态计算机制,能根据上下文需求激活 18.6 B 至 31.3 B 的参数(平均约 27B)。模型地址:huggingface.co/meituan-longcat/LongCat-Flash-Chat
5. 字节发布 OmniHuman-1.5 ,是通过音频和图像生成视频,支持双人音频驱动生成视频、支持多人场景表演、支持生成超过一分钟的视频。官方案例:omnihuman-lab.github.io/v1_5 论文地址:arxiv.org/abs/2508.19209
6. 通义发布Mobile-Agent-v3,一个基于 GUI-Owl 的跨平台多智能体框架,将复杂的任务流拆解为四个不同的智能体角色:
- 管理者(Manager Agent): 负责进行战略规划,将用户的高级指令拆解成有序的子目标列表。
- 执行者(Worker Agent): 负责操作执行,根据当前界面状态选择并执行最合适的子目标。
- 反思者(Reflector Agent): 负责自我修正,对比操作意图和实际结果,判断操作是否成功并提供反馈。
- 记录员(Notetaker Agent): 负责上下文记忆,在成功操作后提取并存储关键信息(如验证码、地址等)。
Repo地址:github.com/X-PLUG/MobileAgent
7. Qwen预告:9月qwen系列还会有一波更新。通义万相预计还要发布一个新模型 Wan2.2-S2V。
8. 据传,Apple尝试使用Google的AI模型加强自己的Siri。
9. 英伟达发布目前最强的机器人大脑平台 Jetson Thor ,采用 Blackwell GPU 并配备 128GB 内存,AI 算力 2,070TFLOPS(FP4),功耗 130W。Jetson AGX Thor 开发者套件现已上市,起售价为 3,499 美元。
## Github Repos Recommend
1. 腾讯开源 Youtu-agent 一个灵活、高性能的框架,用于构建、运行和评估自主代理。除了在基准测试中名列前茅之外,该框架还提供强大的代理功能,例如数据分析、文件处理和深入研究,所有这些都使用开源模型。
Repo地址:github.com/Tencent/Youtu-agent
2. 微软官方MCP(Model Context Protocol)服务器合集,MIT许可,社区驱动,接受贡献,配套完整的代码规范与安全政策。
Repo 地址:github.com/microsoft/mcp
3. NPU运行的大模型推理框架Lemonade
支持在 AMD 显卡和 其它AMD全家桶上运行,包括CPU以及NPU,支持 GGUF 和 ONNX 模型。
Repo地址:github.com/lemonade-sdk/lemonade - # 2025W34 AI大模型领域精选热点 🔥
---
## 1. Deepseek 更新 V3.1 模型
> 评价两极分化严重,只能期待 R2 或者 V4 了
- DeepSeek-V3.1-Base 是一个 Hybrid-Model, 可以开关思考模式(这不是Qwen 通过社区验证已经放弃了的嘛?混合模型在非推理任务上的性能损失非常严重),更新记录:api-docs.deepseek.com/zh-cn/news/news250821
- 支持了anthropic API模式,可以接入Claude code,参考文档:api-docs.deepseek.com/zh-cn/guides/anthropic_api
- 新增原生 search token 的支持
- 后续模型取消夜间优惠,涨价是始料未及的
模型地址:huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
## 2. 阿里
> 感觉阿里现在得有1万个部门在搞AI
- 阿里面向全球市场发布了 Agentic 编程平台 Qoder。又一个新的叫Qoder的IDE,难道通义灵码不用了嘛?
- 内置代码检索引擎
- 支持 Repo Wiki
- 集成长短期记忆系统
- 除了提供 Ask Mode(问答模式) 和 Agent Mode(智能体模式) 之外,Qoder 新增了 Quest Mode(AI自主编程)
体验地址:qoder.com
+ qwen开源一个图片编辑模型Qwen-Image-Edit(Qwen-Image 的图像编辑版本),类似gpt-image-1和google gemini image的功能 。Qwen-Image-Edit 基于20B Qwen-Image 模型,将 Qwen-Image 独特的文本渲染功能扩展到图像编辑任务中,实现精确的文本编辑。并且支持多图 reference。实际效果很强大。
Blog地址:qwenlm.github.io/zh/blog/qwen-image-edit
体验地址:chat.qwen.ai
Repo地址: github.com/QwenLM/Qwen-Image
模型地址: huggingface.co/Qwen/Qwen-Image-Edit
## 3. 字节 Seed-OSS 系列模型开源
模型大小都是36B。这个模型的特性是可以调整思考长度(类似 GPT-OSS 调整思考长度的 low-high). 以及针对 Agent 性能进行了优化。原生上下文长度为512K。目前从官方放出的测试数据来看,基本是30B这个规模大模型的 SOTA。
模型包括:
- Seed-OSS-36B-Base (基础模型,包含了合成指令数据的预训练版本)
- Seed-OSS-36B-Base-woSyn (基础模型的"纯净版",没有经过合成指令数据的预训练)
- Seed-OSS-36B-Instruct (指令微调模型,适用于各种下游任务,在智能体任务和推理能力上表现比较好)
模型地址:
- huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base
- huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base-Instruct
- huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base-woSyn
字节AI硬件OCEAN团队研发豆包手机中,中兴 ODM 代工,可能年底或明年年初内部推出
## 4. 智谱发布 AutoGLM 智能体
> 感觉像是给用户预制了1台云端虚拟手机(云手机),实际体验怎么样呢?各大应用商店下载试试吧,注意保护个人隐私
- 可能是世界上首个手机通用 Agent
- 操作全在云手机&云电脑上运行
- 全平台覆盖的客户端,IOS&安卓均支持
- 可以实现多个应用联动自动操作(点外卖、订机票)
## 5. 其他动态
1. OpenAI 7 月份营收达到了 10 亿美元。
ChatGPT Go —— 一款全新的低成本订阅计划,首先支持印度,价格为每月 399 卢比(约合 4.55 美元),会将根据用户的反馈进行学习和调整,然后再决定是否推广到其他国家。与免费版相比,Go 套餐提供了:消息上限提升 10 倍、图像生成数量提升 10 倍、文件上传数量提升 10 倍,以及记忆时长延长 2 倍
2. 马斯克宣布 grok2开源(开源弱鸡模型没人用的),模型地址:huggingface.co/xai-org/grok-2
3. 为何精神控制类Prompt远胜普通事务性Prompt:机制解析与实战指南 jieyibu.net/a/87962 github.com/linkerlin/PUAX
4. NASA 和 IBM 联合搞了个大模型——Surya-1.0 是用来预测太阳耀斑的。模型大小1.8GB左右。
模型地址:huggingface.co/nasa-ibm-ai4science/Surya-1.0
5. Google DeepMind 的研究员展示了他们在AI生成的世界里(Genie 3)训练AI 的场景。世界模型 Genie 3,能够即时想象并生成全新的世界。具身智能体 Sima 被投放到这些世界中,并能自主学习如何在其中导航。
6. 一个在线可玩的实时通用领域生成世界引擎,Mirage 2,上传图片可以变成可玩的环境,通过对话也可以改变环境。目前 Mirage 2 能够创造10分钟以上的交互视频,延迟为 200 毫秒。
体验地址:dynamicslab.ai
7. Runway 推出了通用世界模型(General World Models),能够实时生成拥有独一无二角色和故事的游戏。每一次游玩都会有不同的事件发生,甚至可以自己打造专属的故事和玩法。目前只支持图文模式。
体验地址:play.runwayml.com
8. 据称,英伟达正基于最新Blackwell架构为中国开发两款新型AI芯片:一款暂名B30A,原始算力约为其旗舰B300的一半,具备高宽带内存与NVLink技术,性能优于当前获准销售的H20,该芯片规格尚未完全确定,但英伟达计划最快下月向中国客户交付样品进行测试;另一款中国专供芯片则于今年5月被报道,暂名RTX6000D,主要用途为AI推理任务,售价低于H20,内存带宽略低于美国政府限制阈值,预计9月小批量交付。
9. Google Pixel 10 手机发布,可以本地运行 Gemini Nano 模型。手机系统的所有自带软件全部 AI 化(AI 软件场景有 AI 健康教练和 AI 修图&拍摄指导),多个系统 APP 之间的 AI 能力可以联动,输出的信息可以相互流转。除了手机之外的其他硬件产品也全部加上了 Gemini 的对话和沟通能力。新的 Pixel Watch 4 有 Gemini 驱动的健身教练能力,提供主动健身与睡眠指导及按需建议,通过“抬腕交谈”唤出 Gemini 交流。
## Github Repos Recommend
1. agent-lightning 一个智能体训练框架,由微软开源,配置使用较为简单且不受限于各种框架。
Repo 地址:github.com/microsoft/agent-lightning
2. 开源AI生成图片检测对抗工具 Image-Detection-Bypass-Utility
可以通过噪声注入、FFT 平滑、FFT 匹配、像素扰动、相机模拟等来绕过 AI 图像检测。支持 ComfyUI 工作流的接入。
Repo地址:github.com/PurinNyova/Image-Detection-Bypass-Utility
3. 类似 AI操作手机的框架 DroidRun的开源项目 mobile-use
Repo地址:github.com/minitap-ai/mobile-use
4. AgenticSeek:一个私有、本地的 Manus 替代方案
一个本地运行的 Manus AI 替代品,支持语音 AI 助手,可自主浏览网页、编写代码、规划任务,所有数据仅保存在本地设备上。
Repo地址:github.com/Fosowl/agenticSeek/ - 送你一张免单卡,请通过任一方式领取
①去淘宝App搜索提取码:50H390
②点击链接领取https://m.tb.cn/h.hFziSCp?tk=4y364lSHP9q
③完整复制这条信息,打开淘宝App自动识别 - Flintlock - Create and manage the lifecycle of MicroVMs, backed by containerd.
https://github.com/liquidmetal-dev/flintlock - 我就说嘛,既然 Lovable 那么火,不会没有开源版的 🤣 这就来了,不过 e2b 和 firecrawl 也还是必须项
https://github.com/mendableai/open-lovable - 一个非常轻量的 coding agent 实现,无论 OpenAI 还是 Anthropic 格式的模型都可以使用,也支持在对话过程中切换模型。
这工具其实也就一般,让我注意到它的是因为它背后的公司,这家明确写了所有请求数据将在 14 天后删除(自称隐私优先)
https://github.com/synthetic-lab/octofriend -
- // eip
在 cn1 region 和 cw1 region 分别有 12 个 和 9个 eip;
cn1 region 12 个
- public bastion 1个
- 3个vpc 共计 4个 nat 对应 4个
- service nlb 涉及 2个,以及备份 2个,共 4个
- testkube nlb 涉及 2个
- 空闲1个 eip
cw1 region 9 个
- service nlb 涉及 3个,以及备份 3个,共 6个
- 1个vpc 共计3个nat 对应 3个
// endpoint
cn1 region 有 33 个,其中vpc a 有16个,vpc b 有10个,vpc c 有 7个 endpoint
cw1 region 有 15 个 endpoint
// security group
cn1 region 有 29 个,其中vpc a 有17个(2个用于redis,1个用于private bastion,2个用于eks cluster,1个用于 eks node,1个用于nlb,2个用于public bastion,1个public alb,1个private alb,endpoint 1个,rds 1个,lambda 1个,default 1个,2个闲置),
vpc b 有6个 (2个用于 eks cluster,1个用于eks node,1个用于endpoint,1个用于nlb,还有1个default),
vpc c 有 6个 (2个用于 eks cluster,1个用于eks node,1个用于endpoint,1个用于nlb,还有1个default)
cw1 region 有 16个,全部属于 vpc d。
有16个(2个用于redis,2个用于eks cluster,1个用于 eks node,1个用于nlb,1个public alb,1个private alb,1个用于endpoint ,用于 rds 1个,用于 lambda 1个,default 1个,4个闲置)
// tgw 每个region 各有 1tgw,流量关系:dx-》vif-》dx gateway-》每个region 的 tgw
// service 流量关系 sdk request -> nlb ->alb -> eks
// testkube 用于执行测试 service eks 的服务
// argocd 用于执行 部署 service eks 的服务
// EC2
cn1 region 有 11 台 ec2,1台 public bastion,1台private bastion,5 台 service eks cluster,2台 testkube eks cluster,2台 argocd eks cluster
cw1 region 有5台 ec2,均属于 service eks cluster
// EBS
cn1 region 有13个 全部 in-use
cw1 region 有 5个
// snapshot 若干
// key pair 3个
// interface 122 cn1, 85 cw1
// LB cn1 6个(3个用于service(1个nlb,2个alb),1个nlb用于 testkube,1个alb用于argocd,1个闲置) cw1 有3个用于service(1个nlb,2个alb)
// targetgroup cn1 region 有14个(12个service,2个argocd), cn1 region 有9个 (全部为service)
// 22 个 s3 bucket,其中 cn1 18个,cw1 4个
// rds
1个regional cluster,2个实例,在cw1 创建 cross region replica 同样2个节点
// redis
2个 redis cluster,每个cluster 2个实例
// lambda 8个cn1, 5个 cw1
// R53 托管一个域名用于 service 和 argocd 和 testkube
// acm 1个域名证书,用于service alb cn1 和 cw1
// waf 每个 region 各1个,关联对应的service alb
// kms 中 cn1 248个 cmk,cw1 240 个 cmk
// sm 每个 region 各4个
// cloudwatch 每个region 有 对于 ec2 ,eks ,elasticache,rds, elb 等基础监控(cpu、内存、硬盘),还有扩展监控像是 - // vpc a subnet
vpc-a 在 1a 和 1b 两个az,其中 1a 有8个subnet,
分别为
pub-1(10.120.12.0/24),
pri-1(10.120.1.0/24),
pri-2(10.120.4.0/24),
pri-3(10.120.15.0/24),
pri-4(10.120.31.0/24),
pri-5(10.120.163.0/24),
pri-6(10.120.193.0/24)。
pri-5 和 pri-6 属于 DB subnet 没有NAT,pri-5为 elastcache 使用,pri-6为rds使用;
pri-1 为 bastion 使用,pri-2 为 service eks 使用,pri-3 为 lambda 使用,private-4 为 proxy 使用,这些subnet 都有 NAT;
其中 1b 有8个subnet,
分别为
pub-1(10.120.12.0/24),
pri-1(10.120.1.0/24),
pri-2(10.120.4.0/24),
pri-3(10.120.15.0/24),
pri-4(10.120.31.0/24),
pri-5(10.120.163.0/24),
pri-6(10.120.193.0/24)。
pri-5 和 pri-6 属于 DB subnet 没有NAT,pri-5为 elastcache 使用,pri-6为rds使用;
pri-1 为 bastion 使用,pri-2 为 service eks 使用,pri-3 为 lambda 使用,private-4 为 proxy 使用,这些subnet 都有 NAT;
这个 vpc 有7张 route table,2个nat gateway 每个az 一个,每个 nat 关联除 public subnet 和 db private subnet外的所有子网;
有1个 IGW,关联public subnet,还有2个gateway类型 endpoint(s3 + ddb)关联除 public subnet 和 db private subnet外的所有子网;
关于 route table,其中 private 子网除 DB 子网外都有 0.0.0.0 和 gateway endpoint 2个 pl,与 vpc d 存在 peering 路由
flow logs 配置在s3 bucket, bucket 名称为 accountid-vpc-flow-logs,路径为 vpc name
// vpc b subnet
vpc-b 在 1a 和 1b 两个az,其中 1a 有2个subnet,
分别为
pub-1(10.200.12.0/24),
pri-1(10.200.1.0/24),
其中 pri-1 子网用于 部署 argocd 所在 eks 集群的 ec2 节点。pri-1 有 NAT, pub-1 有IGW,pri-1还有1个 s3 gateway endpoint。
其中 1b 有2个subnet,
分别为
pub-2(10.200.13.0/24),
pri-2(10.200.2.0/24),
其中 pri-3 子网用于 部署 argocd 所在 eks 集群的 ec2 节点。pri-3 有 NAT, pub-2 有IGW,pri-1还有1个 s3 gateway endpoint。
共计3张 route table ,其中 private 子网 有 0.0.0.0 和 gateway endpoint 1个 pl。
flow logs 配置在s3 bucket, bucket 名称为 accountid-vpc-flow-logs,路径为 vpc name
// vpc c subnet
vpc-c 在 1a 和 1b 两个az,其中 1a 有2个subnet,
分别为
pub-1(10.201.12.0/24),
pri-1(10.201.1.0/24),
其中 pri-1 子网用于 部署 testkube 所在 eks 集群的 ec2 节点。pri-1 有 NAT, pub-1 有IGW,pri-1还有1个 s3 gateway endpoint。
其中 1b 有2个subnet,
分别为
pub-2(10.201.13.0/24),
pri-2(10.201.2.0/24),
其中 pri-3 子网用于 部署 testkube 所在 eks 集群的 ec2 节点。pri-3 有 NAT, pub-2 有IGW,pri-1还有1个 s3 gateway endpoint。
共计3张 route table ,其中 private 子网 有 0.0.0.0 和 gateway endpoint 1个 pl。
flow logs 配置在s3 bucket, bucket 名称为 accountid-vpc-flow-logs,路径为 vpc name
// vpc d subnet 在 cw1 region
vpc-d 在 1a 和 1b 和 1c 三个az,其中 1a 有2个subnet,
分别为
pub-1(10.121.12.0/24),
pri-1(10.121.1.0/24),
pri-2(10.121.4.0/24),
pri-3(10.121.15.0/24),
pri-4(10.121.31.0/24),
pri-5(10.121.163.0/24),
pri-6(10.121.193.0/24)。
pri-5 和 pri-6 属于 DB subnet 没有NAT,pri-5为 elastcache 使用,pri-6为rds使用;
pri-1 为 bastion 使用,pri-2 为 service eks 使用,pri-3 为 lambda 使用,private-4 为 proxy 使用,这些subnet 都有 NAT;
其中 1b 有8个subnet,
分别为
pub-1(10.121.13.0/24),
pri-1(10.121.2.0/24),
pri-2(10.121.5.0/24),
pri-3(10.121.16.0/24),
pri-4(10.121.32.0/24),
pri-5(10.121.164.0/24),
pri-6(10.121.194.0/24)。
pri-5 和 pri-6 属于 DB subnet 没有NAT,pri-5为 elastcache 使用,pri-6为rds使用;
pri-1 为 bastion 使用,pri-2 为 service eks 使用,pri-3 为 lambda 使用,private-4 为 proxy 使用,这些subnet 都有 NAT;
其中 1b 有8个subnet,
分别为
pub-1(10.121.14.0/24),
pri-1(10.121.3.0/24),
pri-2(10.121.6.0/24),
pri-3(10.121.17.0/24),
pri-4(10.121.33.0/24),
pri-5(10.121.165.0/24),
pri-6(10.121.195.0/24)。
pri-5 和 pri-6 属于 DB subnet 没有NAT,pri-5为 elastcache 使用,pri-6为rds使用;
pri-1 为 bastion 使用,pri-2 为 service eks 使用,pri-3 为 lambda 使用,private-4 为 proxy 使用,这些subnet 都有 NAT;
这个 vpc 有9张 route table,2个nat gateway 每个az 一个,每个 nat 关联除 public subnet 和 db private subnet外的所有子网;
有1个 IGW,关联public subnet,还有2个gateway类型 endpoint(s3 + ddb)关联除 public subnet 和 db private subnet外的所有子网;
关于 route table,其中 private 子网除 DB 子网外都有 0.0.0.0 和 gateway endpoint 2个 pl,与 vpc a 存在 peering 路由
flow logs 配置在s3 bucket, bucket 名称为 accountid-vpc-flow-logs,路径为 vpc name - // 创建NAT网关(每个AZ一个)
MERGE (nat1a:NatGateway {id: 'nat-gw-1a', az: 'cn-north-1a'})
ON CREATE SET nat1a.accountId = '018778855179';
MERGE (nat1b:NatGateway {id: 'nat-gw-1b', az: 'cn-north-1b'})
ON CREATE SET nat1b.accountId = '018778855179';
// 创建IGW
MERGE (igw:InternetGateway {id: 'igw-1', name: 'VPC-A IGW'})
ON CREATE SET igw.accountId = '018778855179';
// 创建网关终端节点(S3和DDB)
MERGE (s3:GatewayEndpoint {id: 's3-endpoint', type: 'S3'})
ON CREATE SET s3.accountId = '018778855179';
MERGE (ddb:GatewayEndpoint {id: 'ddb-endpoint', type: 'DynamoDB'})
ON CREATE SET ddb.accountId = '018778855179';
// 将IGW关联到公共子网
MERGE (sub1a1)-[:HAS_ROUTE]->(igw);
MERGE (sub1b1)-[:HAS_ROUTE]->(igw);
// 将NAT网关关联到需要NAT的私有子网(排除DB子网)
MERGE (sub1a2)-[:HAS_ROUTE]->(nat1a); // Bastion (1a)
MERGE (sub1a3)-[:HAS_ROUTE]->(nat1a); // EKS (1a)
MERGE (sub1a4)-[:HAS_ROUTE]->(nat1a); // Lambda (1a)
MERGE (sub1a5)-[:HAS_ROUTE]->(nat1a); // Proxy (1a)
MERGE (sub1b2)-[:HAS_ROUTE]->(nat1b); // Bastion (1b)
MERGE (sub1b3)-[:HAS_ROUTE]->(nat1b); // EKS (1b)
MERGE (sub1b4)-[:HAS_ROUTE]->(nat1b); // Lambda (1b)
MERGE (sub1b5)-[:HAS_ROUTE]->(nat1b); // Proxy (1b)
// 将网关终端节点关联到除公共和DB子网外的私有子网
MERGE (sub1a2)-[:HAS_ROUTE]->(s3);
MERGE (sub1a3)-[:HAS_ROUTE]->(s3);
MERGE (sub1a4)-[:HAS_ROUTE]->(s3);
MERGE (sub1a5)-[:HAS_ROUTE]->(s3);
MERGE (sub1b2)-[:HAS_ROUTE]->(s3);
MERGE (sub1b3)-[:HAS_ROUTE]->(s3);
MERGE (sub1b4)-[:HAS_ROUTE]->(s3);
MERGE (sub1b5)-[:HAS_ROUTE]->(s3);
MERGE (sub1a2)-[:HAS_ROUTE]->(ddb);
MERGE (sub1a3)-[:HAS_ROUTE]->(ddb);
MERGE (sub1a4)-[:HAS_ROUTE]->(ddb);
MERGE (sub1a5)-[:HAS_ROUTE]->(ddb);
MERGE (sub1b2)-[:HAS_ROUTE]->(ddb);
MERGE (sub1b3)-[:HAS_ROUTE]->(ddb);
MERGE (sub1b4)-[:HAS_ROUTE]->(ddb);
MERGE (sub1b5)-[:HAS_ROUTE]->(ddb);
// 创建7个路由表(示例,可根据实际调整)
MERGE (rtb1:RouteTable {id: 'vpca-rtb-1', name: 'Public Route Table'})
ON CREATE SET rtb1.accountId = '018778855179';
MERGE (rtb2:RouteTable {id: 'vpca-rtb-2', name: 'Private Bastion Route Table'})
ON CREATE SET rtb2.accountId = '018778855179';
MERGE (rtb3:RouteTable {id: 'vpca-rtb-3', name: 'Private EKS Route Table'})
ON CREATE SET rtb3.accountId = '018778855179';
MERGE (rtb4:RouteTable {id: 'vpca-rtb-4', name: 'Private Lambda Route Table'})
ON CREATE SET rtb4.accountId = '018778855179';
MERGE (rtb5:RouteTable {id: 'vpca-rtb-5', name: 'Private Proxy Route Table'})
ON CREATE SET rtb5.accountId = '018778855179';
MERGE (rtb6:RouteTable {id: 'vpca-rtb-6', name: 'DB ElastiCache Route Table'})
ON CREATE SET rtb6.accountId = '018778855179';
MERGE (rtb7:RouteTable {id: 'vpca-rtb-7', name: 'DB RDS Route Table'})
ON CREATE SET rtb7.accountId = '018778855179';
// 将路由表关联到子网
MERGE (sub1a1)-[:ASSOCIATED_WITH]->(rtb1);
MERGE (sub1b1)-[:ASSOCIATED_WITH]->(rtb1);
MERGE (sub1a2)-[:ASSOCIATED_WITH]->(rtb2);
MERGE (sub1b2)-[:ASSOCIATED_WITH]->(rtb2);
MERGE (sub1a3)-[:ASSOCIATED_WITH]->(rtb3);
MERGE (sub1b3)-[:ASSOCIATED_WITH]->(rtb3);
MERGE (sub1a4)-[:ASSOCIATED_WITH]->(rtb4);
MERGE (sub1b4)-[:ASSOCIATED_WITH]->(rtb4);
MERGE (sub1a5)-[:ASSOCIATED_WITH]->(rtb5);
MERGE (sub1b5)-[:ASSOCIATED_WITH]->(rtb5);
MERGE (sub1a6)-[:ASSOCIATED_WITH]->(rtb6);
MERGE (sub1b6)-[:ASSOCIATED_WITH]->(rtb6);
MERGE (sub1a7)-[:ASSOCIATED_WITH]->(rtb7);
MERGE (sub1b7)-[:ASSOCIATED_WITH]->(rtb7); - ON CREATE SET sub1a2.accountId = '018778855179';
MERGE (sub1a3:Subnet {subnetId: 'pri-3', cidr: '10.120.4.0/24', type: 'private', purpose: 'eks', az: 'cn-north-1a'})
ON CREATE SET sub1a3.accountId = '018778855179';
MERGE (sub1a4:Subnet {subnetId: 'pri-5', cidr: '10.120.15.0/24', type: 'private', purpose: 'lambda', az: 'cn-north-1a'})
ON CREATE SET sub1a4.accountId = '018778855179';
MERGE (sub1a5:Subnet {subnetId: 'pri-7', cidr: '10.120.31.0/24', type: 'private', purpose: 'proxy', az: 'cn-north-1a'})
ON CREATE SET sub1a5.accountId = '018778855179';
MERGE (sub1a6:Subnet {subnetId: 'pri-9', cidr: '10.120.163.0/24', type: 'private', purpose: 'elastcache', az: 'cn-north-1a'})
ON CREATE SET sub1a6.accountId = '018778855179';
MERGE (sub1a7:Subnet {subnetId: 'pri-11', cidr: '10.120.193.0/24', type: 'private', purpose: 'rds', az: 'cn-north-1a'})
ON CREATE SET sub1a7.accountId = '018778855179';
// 创建子网(1b AZ)
MERGE (sub1b1:Subnet {subnetId: 'pub-2', cidr: '10.120.13.0/24', type: 'public', az: 'cn-north-1b'})
ON CREATE SET sub1b1.accountId = '018778855179';
MERGE (sub1b2:Subnet {subnetId: 'pri-2', cidr: '10.120.2.0/24', type: 'private', purpose: 'bastion', az: 'cn-north-1b'})
ON CREATE SET sub1b2.accountId = '018778855179';
MERGE (sub1b3:Subnet {subnetId: 'pri-4', cidr: '10.120.3.0/24', type: 'private', purpose: 'eks', az: 'cn-north-1b'})
ON CREATE SET sub1b3.accountId = '018778855179';
MERGE (sub1b4:Subnet {subnetId: 'pri-6', cidr: '10.120.16.0/24', type: 'private', purpose: 'lambda', az: 'cn-north-1b'})
ON CREATE SET sub1b4.accountId = '018778855179';
MERGE (sub1b5:Subnet {subnetId: 'pri-8', cidr: '10.120.32.0/24', type: 'private', purpose: 'proxy', az: 'cn-north-1b'})
ON CREATE SET sub1b5.accountId = '018778855179';
MERGE (sub1b6:Subnet {subnetId: 'pri-10', cidr: '10.120.161.0/24', type: 'private', purpose: 'elastcache', az: 'cn-north-1b'})
ON CREATE SET sub1b6.accountId = '018778855179';
MERGE (sub1b7:Subnet {subnetId: 'pri-12', cidr: '10.120.194.0/24', type: 'private', purpose: 'rds', az: 'cn-north-1b'})
ON CREATE SET sub1b7.accountId = '018778855179';
// 子网与VPC和AZ的关系
MERGE (vpcA)-[:CONTAINS]->(sub1a1);
MERGE (vpcA)-[:CONTAINS]->(sub1a2);
MERGE (vpcA)-[:CONTAINS]->(sub1a3);
MERGE (vpcA)-[:CONTAINS]->(sub1a4);
MERGE (vpcA)-[:CONTAINS]->(sub1a5);
MERGE (vpcA)-[:CONTAINS]->(sub1a6);
MERGE (vpcA)-[:CONTAINS]->(sub1a7);
MERGE (vpcA)-[:CONTAINS]->(sub1b1);
MERGE (vpcA)-[:CONTAINS]->(sub1b2);
MERGE (vpcA)-[:CONTAINS]->(sub1b3);
MERGE (vpcA)-[:CONTAINS]->(sub1b4);
MERGE (vpcA)-[:CONTAINS]->(sub1b5);
MERGE (vpcA)-[:CONTAINS]->(sub1b6);
MERGE (vpcA)-[:CONTAINS]->(sub1b7);
MERGE (az1a)-[:HAS_SUBNET]->(sub1a1);
MERGE (az1a)-[:HAS_SUBNET]->(sub1a2);
MERGE (az1a)-[:HAS_SUBNET]->(sub1a3);
MERGE (az1a)-[:HAS_SUBNET]->(sub1a4);
MERGE (az1a)-[:HAS_SUBNET]->(sub1a5);
MERGE (az1a)-[:HAS_SUBNET]->(sub1a6);
MERGE (az1a)-[:HAS_SUBNET]->(sub1a7);
MERGE (az1b)-[:HAS_SUBNET]->(sub1b1);
MERGE (az1b)-[:HAS_SUBNET]->(sub1b2);
MERGE (az1b)-[:HAS_SUBNET]->(sub1b3);
MERGE (az1b)-[:HAS_SUBNET]->(sub1b4);
MERGE (az1b)-[:HAS_SUBNET]->(sub1b5);
MERGE (az1b)-[:HAS_SUBNET]->(sub1b6);
MERGE (az1b)-[:HAS_SUBNET]->(sub1b7);