acshame

01:48 · 2025年11月4日 · 周二

```markdown
2025W44 AI大模型领域精选热点 🔥

1. OpenAI
山姆奥特曼最近播客访谈中透漏内部目标：到 2026 年 9 月，要搞出一个“AI 科研实习生”，它得能在几十万块 GPU 上跑起来；到 2028 年 3 月，要搞出一个真正的“自动化 AI 研究员”。

▪ 推出安全模型 GPT-OSS-Safeguard-20B 和 GPT-OSS-Safeguard-120B 基于之前GPT-OSS 微调的。支持自定义安全策略（写在 prompt 里面），然后模型会判断是否符合，输出思考过程，然后输出安全等级分类。原文地址：openai.com/index/introducing-gpt-oss-safeguard/
▪ 推出 Aardvark 一款由 GPT-5 驱动的自主安全研究员（agentic security researcher），内部已投入使用。其目标是帮助开发者和安全团队自动化发现与修复软件漏洞。工作原理是监控代码库的提交和变更，识别漏洞及其可能的利用方式，并提出修复方案。Aardvark 不依赖模糊测试或软件成分分析等传统程序分析技术，而是利用 LLM 驱动的推理和工具来理解代码行为并识别漏洞。Aardvark 查找漏洞的方式与人类安全研究人员类似：阅读代码、分析代码、编写和运行测试、使用工具等等。可与 GitHub、Codex 集成原文地址：openai.com/index/introducing-aardvark/
▪ OpenAI 已完成资本重组，通过设立非营利性基金会控制新的营利性子公司，使微软（持股27%）、基金会（持股26%）及其他方共同持股，并延长微软知识产权权益至2032年，同时重组满足了软银投资条件且与州监管机构就AGI验证及风险缓解等要求达成一致。原文地址：techcrunch.com/2025/10/28/openai-completes-its-for-profit-recapitalization
▪ Policy更新：ChatGPT 禁止提供专业医疗、法律和财务建议。原文地址：openai.com/ja-JP/policies/usage-policies/?utm_source=chatgpt.com

2. Kimi
与Qwen3-Next-80B-A3B类似路线，采用 KimiLinear 一种混合线性注意力架构，目标破除“二次方诅咒”

▪ Kimi 团队最新发布 Kimi-Linear-48B-A3B 系列模型，采用混合注意力策略，将轻量级线性注意力与重型全注意力结合，比例为3:1。其创新点在于引入“Delta Attention”机制的改进版本Kimi Delta Attention（KDA）和多头潜在注意力（multi-head latent attention），在保持准确率的同时，实现了75%缓存减少和高达6倍的解码速度提升。模型地址：huggingface.co/collections/moonshotai/kimi-linear-a3b 论文地址：arxiv.org/pdf/2510.26692
▪ 据传 K3 年底发布
▪ 同样是破除“二次方”算力限制，DeepSeek-V3.2-Exp 采用Sparse Attention（一种稀疏注意力机制），孰好孰高可参考《DeepSeek-V3.2-Exp 和 Qwen3-Next 哪个才是未来？ - 知乎》 https://www.zhihu.com/question/1956137082197083536

3. MiniMax M2
与Deepseek Kimi Qwen 不同，MiniMax M2 却回归传统全注意力，不失真不省算力

▪ MiniMax M2 230B参数激活参数10B，专为 Agent 和代码而生，仅 Claude Sonnet 8% 价格，2倍速度，限时免费！原文地址：minimaxi.com/news/minimax-m2 模型地址：huggingface.co/MiniMaxAI/MiniMax-M2
▪ 最强 Voice Agent MiniMax Speech 2.6 发布（效果很棒），全面支持 40 种全球广泛使用的语言。
▪ speech-2.6-hd 超低延时（端到端延迟低于250毫秒），归一化升级，更高自然度
▪ speech-2.6-turbo 极速版，更快更优惠，更适用于语音聊天和数字人场景
▪

原文地址：minimaxi.com/news/minimax-speech-26 体验地址：minimaxi.com/audio

4. GTC 2025
▪ Nvidia NVQLink，专为 GPU 与量子处理器（QPU）设计的互联架构，“量子与经典计算融合的里程碑”。目标是打通量子计算与 GPU 加速计算之间的隔阂。
1 过去，量子芯片通常需要通过传统 CPU 或中间控制系统与 GPU 通信，导致数据往返延迟高、误差率大、同步效率低。
2 NVQLink 提供一条高速、低延迟的硬件互联通道，使 GPU 可以直接访问量子处理器的数据通路，实现纳秒级同步与反馈。
3 NVQLink 让两者首次可以在同一台超级计算机中实现实时通信与数据共享，真正构建出量子-经典混合计算架构（Hybrid Quantum-Classical Computing）。
▪

▪ 6G信号塔 = 微型 AI 超算未来每一座 6G 信号塔，都可能成为一台具备自学习能力与算力的“微型 AI 超算”。

1 英伟达宣布投资 10 亿美元入股诺基亚（Nokia），并联合推动 AI 原生 6G 网络的建设。
2 5G 时代的通信网络仍以“数据传输”为核心，而英伟达与诺基亚希望在 6G 时代彻底改变这一逻辑——让“通信网络本身具备智能”。两家公司计划打造一种全新的网络架构，让基站不仅仅是信号中继，而是可以直接运行 AI 模型、执行推理任务、实时优化信号与能耗的“边缘智能节点”。
3 技术核心：英伟达新推出的 Aerial RAN Computer（ARC）架构。它是一种面向无线接入网（RAN）的 AI 计算平台，将 GPU、网络处理单元（DPU）与软件堆栈整合在一起。借助 ARC，运营商可以在每一个基站节点上运行 AI 算法，实现以下能力： 1）实时优化信号覆盖与用户体验。 2）动态调度算力，显著降低能耗。 3）直接在边缘节点完成 AI 推理，无需回传至云端。
▪

▪ 全球最强 AI 超级计算机英伟达宣布与美国能源部（DOE）和甲骨文（Oracle）展开战略合作，联合建设 7 台全球最强 AI 超级计算机。

将部署在美国能源部旗下的多家国家实验室，包括阿贡（Argonne）、橡树岭（Oak Ridge）等，旨在支持科学研究、AI 模型训练、气候模拟、核聚变研究、药物开发等高算力任务。英伟达称，这些系统不仅是科研设施，更是未来“AI 工厂”的原型。其中两台最具代表性的超级计算机分别是：
▪ Solstice —— 由美国能源部与甲骨文联合建设，配备超过 10 万块 NVIDIA Blackwell GPU，是目前规划中规模最大的 AI 训练平台，目标是实现 2000+ ExaFLOPS（AI 运算模式下）性能。
▪ Equinox —— 同样基于 Blackwell GPU 架构，配备约 1 万块 GPU，计划于 2026 年上半年上线，用于能源科学与国防技术研究。
▪

Openai

Introducing gpt-oss-safeguard

New open safety reasoning models (120b and 20b) that support custom safety policies.

21:03 · 2025年11月2日 · 周日

saka 老师前几周分享的这篇文章 https://skoredin.pro/blog/golang/cpu-cache-friendly-go 非常有意思，我虽然日常在 pahole 输出里看到 cacheline，但对其如何影响程序运行的理解也非常模糊。

不过更有意思的是，我已经见到三位工程师在 AI 的辅助下试图测试 “cacheline padding 带来六倍性能提升” 却没有成功，最后吐槽这是一篇错文、AI文。这里有一个有趣的知识屏障，如果不理解 cacheline 在何时会影响性能，那就可能无法写出正确的测试程序；但无法写出正确的测试程序又无法理解 cacheline 如何影响性能，知识死锁了。

你以为我想说原文的 “cacheline导致六倍性能差距” 的结论是正确的？不，那是 ~~错误的~~ 有前提条件的，并非通用结论🤪

这些对我也是新知识，水平有限，施工区域谨慎阅读🤬

我的测试代码不用很多工程师和 AI 用的 go bench 方法，因为抽象程度太高了，在这种性能施工区最好就写一眼能看穿汇编的简单代码。

package main

import (
  "fmt"
  "os"
  "sync"
  "sync/atomic"
  "time"
)

const N = 100_000_000

type Counters interface {
  Inc(idx int)
  AtomicInc(idx int)
  Result(idx int) uint64
}

type unpaddingCounters [8]uint64

func (u *unpaddingCounters) Inc(idx int) {
  u[idx]++
}

func (u *unpaddingCounters) AtomicInc(idx int) {
  atomic.AddUint64(&u[idx], 1)
}

func (u *unpaddingCounters) Result(idx int) uint64 {
  return u[idx]
}

type paddingCounter struct {
  val uint64
  _   [56]byte
}

type PaddingCounters [8]paddingCounter

func (p *PaddingCounters) Inc(idx int) {
  p[idx].val++
}

func (p *PaddingCounters) AtomicInc(idx int) {
  atomic.AddUint64(&p[idx].val, 1)
}

func (p *PaddingCounters) Result(idx int) uint64 {
  return p[idx].val
}

func main() {
  var counters Counters
  if os.Args[1] == "pad" {
    counters = &PaddingCounters{}
  } else {
    counters = &unpaddingCounters{}
  }
  var inc func(idx int)
  if os.Args[2] == "atom" {
    inc = counters.AtomicInc
  } else {
    inc = counters.Inc
  }

  start := time.Now()

  var wg sync.WaitGroup
  for i := 0; i < 8; i++ {
    wg.Add(1)
    go func() {
      defer wg.Done()
      for j := 0; j < N; j++ {
        inc(i)
      }
    }()
  }

  wg.Wait()

  fmt.Printf("Duration: %v ", time.Since(start))
  for i := 0; i < 8; i++ {
    fmt.Printf("Counter[%d]=%d ", i, counters.Result(i))
  }
  fmt.Println()
}

提供了两套变式，通过命令行的 arg1 和 arg2 指定是否 padding 和是否用 atomic.AddUint64。

我本地的 cpu 0,1 是同一个核心，1,2 是不同核心，所以测试命令是

taskset -c 1,2 perf stat -d -- env GOMAXPROCS=2 ./go_cpu_perf pad atom

很多细节我依然在学习中，目前可以公开的情报是：（+表示前者性能更好，-反之）

1. "pad atom" vs "nopad atom": +7.3倍性能
2. "pad nonatom" vs "nopad noatom": +3.3倍
3. "pad atom" vs "pad noatom": -2.5倍
4. "nopad atom" vs "nopad noatom": -5倍

可以看到 atom (lock prefix insn)本身就造成大量的性能影响，而 pad 会进一步加重 cacheline false sharing 导致更极端的性能差距。原文里的六倍性能差距是在 atom + pad 的场景下的测试结果，但我觉得大部分场景根本不会这么极端。

核心绑定情况也会造成很大影响。如果绑核改为 0,1 cpu，它们是同一 core，测试结果是：

1. "pad atom" vs "nopad atom": +1.75
2. "pad noatom" vs "nopad noatom": +1.65
3. "pad atom" vs "pad noatom": -1.9
4. "nopad atom" vs "nopad noatom": -2.0

在这些测试里，经典的 perf topdown 方法在 L2->L3->L4 几乎完全失效，经常会看到 L2 的 tma_core_bound 40% 然后 tma_core_bound_group breakdown 是 0%、L3 的 tma_l3_bound 15% 然而 L4 的 tma_l3_bound_group 里面四个 0%。我的 cpu 型号是 x86 meteorlake，仔细看了 pmu metrics 定义之后我觉得这就是设计上的问题，L2 再往下没有保证，只能靠微指令法师的经验来跳跃性猜测和验证。

可以确定有用的 metrics 是
- tma_store_fwd_blk: atom vs noatom 性能差距的罪魁，lock prefix insn 阻止了 store forwarding (CSAPP $4.5.5.2) 导致性能大幅下降
- tma_false_sharing: cacheline 在多核心上共享时的 race。原文其实主要就是在讨论这个讨论的性能问题。
- tma_l3_bound: snoop hitm 的间接指标。
- L1-dcache-loads,L1-dcache-load-misses: cacheline racing 的间接指标。但由于 l1 miss 至少包含了 "cacheline 不在 L1" 和 "cacheline 在 L1 但是失效"，这个 miss 率其实很容易误导。

如何从 metrics 找到源码：
perf list 文档写得不全，直接看内核里的 pmu-events/.../mtl-metrics.json，比如说 perf record -M tma_false_sharing 很高，json 文件里这一项的 PublicDescription 就会写

Sample with: OCR.DEMAND_RFO.L3_HIT.SNOOP_HITM

然后采样

perf record -F9999 -g -e OCR.DEMAND_RFO.L3_HIT.SNOOP_HITM

然后可以可以画火焰图和栈回溯，但我现在喜欢 perf annotate -l --stdio 直接看指令

    0.42 :   4949aa: inc    %rcx
         : 42     inc(i)
   87.08 :   4949ad: mov    0x18(%rsp),%rax

看到 87% 的 false sharing 都是由于 inc %rcx 导致的。

讲完方法论终于可以回到主题了，cacheline 如何影响性能：如果是一个线程共享数据 A 在多核上并行 ++，核心1 修改了 A，那么核心2 的 L1 缓存的包含 A 的 cacheline 就会失效，这就是 false sharing。对于共享数据 A 来说这不可避免，但是如果有另一个独立数据 B 和 A 在同一个 cacheline，那么 A 在多核上刷存在感就会导致 B 的 L1 cache 失效，尽管 B 可能完全是一个单线程非共享数据。好的 cacheline 设计可以加上一段 padding 把 B 强制隔离出 A 所在的 cacheline，这样 A 刷新 cacheline 不会导致 B 的 cacheline 失效。

这些知识真的非常晦涩难懂，资料很少，AI 基本在帮倒忙，我感觉像是在星际航行，目睹所有令人惊叹的宇宙奇观，恍惚间就化入无穷。

skoredin.pro

CPU Cache-Friendly Data Structures in Go: 10x Speed

False sharing killed our performance. Data-oriented design saved it.

23:10 · 2025年11月1日 · 周六

#人工智能
谢青池，美团光年之外的产品负责人，用了一年多的时间一篇一篇地啃完了200多篇AI论文，从开始全然不得要领，到后来逐渐地入门，而他希望将他的论文探索之旅开源给大家。
正因为他是产品经理，也许他的讲解能更通俗地带领我们一窥“技术之美”。

《AI演义 36篇论文开启你的探索之旅》

w7py8ou4dk.feishu.cn

Docs

人工智能

22:59 · 2025年11月1日 · 周六

对于所有对数据基础设施感兴趣、想快速了解大数据如何运作、数据系统是如何设计的，以及其中有哪些权衡的人，都建议看看这一份来自 xiangpeng 的分享，非常赞！基本上覆盖了数据系统绝大部分主题，非常好的入门！

https://intro-data-system.xiangpeng.systems

10:12 · 2025年10月30日 · 周四

https://weclub.ccc.cmbchina.com/weclub/url-link?lc=NDRx7j09eO&p=896458d0-b95a-49c8-a115-4f15660de43b

13:49 · 2025年10月24日 · 周五

我说说我的看法：
1. 对于大多数小公司（甚至大公司）业务服务基本都是无状态的（任何时候都应该尽力避免有状态服务），所以部署啥的遇到最多的就是Deployment Service ConfigMap Secret env，并且第一次发布套模板后续发布基本都是只改配置和镜像版本号
2. 入口域名购买云厂商lb服务绑定后ingress controller也是点击就送，入口网关解决了，后续增加二级域名路由只需要绑定service就行，甚至是傻瓜下拉框的
3. 完成这两步你得到了什么呢？a. 崩溃重启 b.点击扩容甚至HPA c.服务发现 d.配置中心密钥存储 e.基本的容器监控告警 f.入口网关及域名证书管理 g.随意加机器 h.滚动发布，金丝雀灰度
4. 如果你愿意再投入一点点，会发现甚至可观测性log metrics traces 也是点击就送的，log部署loki operator，metrics部署prometheus operator，traces部署jeager operator，这些所谓复杂的需要helm部署的其实被云厂商做成软件商店了（不过追求稳定可以直接买云服务，我们当初小团队都是自己部署的）
5. 我们结合第一点，需要CICD提效发现常规发布改动点太少了，所以你甚至可以用最土的方式脚本替换yaml模板变量的方式做发布，根本不需要helm rancher之类的
6. 最后再说一句，复杂的有状态场景例如搭db之类是因为本身就复杂而不是k8s，不用k8s只是给大家一种自己搞定了的错觉而已

08:55 · 2025年10月23日 · 周四

“学术论文科普”提示词，把枯燥的学术论文变成通俗易懂的科普文。

注意：Gemini 2.5 Pro 效果最佳

---- 提示词开始 ----

你是一位顶尖的科普作家和知识转述者，被誉为“最会搭梯子的人”。你的专长是将那些充斥着术语、数据和复杂模型的学术论文，转译（Reframe）成普通大众能轻松读懂、产生共鸣并深受启发的科普文章。

你的使命不是“翻译”论文，而是“重建”理解。你为读者搭建一座从“一无所知”到“原来如此”的桥梁，让他们在零负担的阅读中，领略到科学研究的真正魅力、核心发现及其对现实世界的意义。

---

工作流程：从论文到科普的“阶梯搭建”

当你收到一篇需要进行科普解读的学术论文时，你将严格遵循以下步骤：

* 第一步：挖掘“人”与“动机” (The "Who" and "Why")

* 在深入论文细节前，先检索作者及其所属机构的背景。
* 尝试建立一个有趣的联系：为什么是“他们”在研究“这个”问题？
（例如：这个实验室是否一直在该领域深耕？他们是不是“跨界”解决了一个老问题？或者这个机构的使命是否与此相关？）
* 【应用规则】：如果背景故事（如作者的“执念”或机构的“使命”）能让研究动机更生动，就在文章中巧妙融入。
如果联系牵强，则不必在正文中提及，避免生硬介绍。

* 第二步：钻研与消化 (Digest and Understand)

* 深入阅读论文，彻底拆解其核心三要素：

1. 研究问题 (The Question)：他们到底想解决什么谜题？这个问题的背景和重要性是什么？
2. 研究方法 (The How)：他们是怎么找到答案的？（重点理解其思路，而非复述技术细节）
3. 核心发现 (The Finding)：他们最终发现了什么？这个发现有多“反直觉”或多“重要”？

* 第三步：定位“行业坐标”与“Aha!时刻” (Locate its Position and the "Aha! Moment")

* （必要时使用工具检索）结合业界或学术界的现状来分析这篇论文。
* 它在整个领域中扮演了什么角色？是解决了同行一个“老大难”的痛点？是推翻了一个旧认知？还是开辟了一个全新的赛道？
* 提炼“故事线”：将论文的“论证逻辑”转化为“叙事逻辑”。
找到论文中最激动人心的“Aha!”时刻，并明确这篇科普文章的核心“卖点”（Takeaway）——读者读完后，能带走的那个最清晰、最有价值的知识点。

* 第四步：撰写科普博文 (Compose the Pop-Science Blog)

* 完全代入下方定义的“角色定位”与“写作风格”，撰写一篇独立、完整、引人入胜的科普解读。
* 注意：篇幅长度不限，以“把普通人彻底讲明白”为唯一标准。
* 确保在“所以呢？” (The "So What?") 部分，有力地传达出它对行业或普通人的真正影响（基于第三步的分析）。

---

读者与风格

* 目标读者：对世界充满好奇的普通大众。他们没有专业背景，渴望理解新知识，但对术语和公式天然“过敏”。他们阅读的目的是获取新知、满足好奇心和“哇塞”的瞬间。
* 写作风格：

* 极致通俗 (Radical Accessibility)：比喻是你的第一语言。能用“厨房里的化学反应”解释的，绝不用“非对映选择性”。如果必须使用术语，必须立刻用一个生动的类比将其“翻译”掉。
* 故事为王 (Storytelling)：把研究过程讲成一个“破案故事”或“探险之旅”。科学家是主角，他们面临一个难题，设计了一个聪明的“陷阱”（实验），最后抓住了“真相”（结论）。
* 聚焦“所以呢？” (The "So What?")：时刻帮读者回答这个问题。这个研究跟我有什么关系？它为什么重要？它可能如何改变我们的生活或认知？
* 简化而不歪曲 (Simplify, Don't Misrepresent)：这是科普的底线。在简化复杂概念时，保持核心事实的准确性。清晰地区分“已证实的”和“推测的”。

---

写作思路与技巧（供自由使用）

* 开篇点题，建立框架：

* 可以用一个生动的问题、反直觉的观察或核心冲突来引入主题，快速帮读者定位。
* 也可以先用简洁的语言勾勒出原文要解决的核心问题或讨论范围。

* 结构化梳理，逐层解析：

* 善用小标题或清晰的段落划分，引导读者逐步理解。
* 在转述原文观点时，无缝融入类比，让复杂的点变得具体可感。（例如：“作者提到的‘异步通信’，你就可以理解为发邮件，而不是打电话。”）

* 聚焦重点，详略得当：

* 明确区分主干与枝叶。重点阐释核心观点与关键逻辑，简略带过次要信息。
* 确保读者高效抓住重点。

* 巧妙融入背景：

* 如果原文涉及人物或机构背景，自然融入解读，帮助读者理解“为什么”或“此刻的重要性”，避免生硬介绍。

* 结尾总结，提供价值：

* 清晰提炼原文核心价值，或指出其当下意义。
* 给读者一个明确的Takeaway，让他们确实学到东西，理解原文。

---

禁止出现的表达方式

* 避免生硬的引导语，如“本文研究了……”、“该论文的作者发现……”、“实验结果表明……”。
* 严禁直接复制论文摘要或引言中的学术黑话。
* 避免罗列枯燥数据或统计指标（如p值、置信区间），除非能转译为“有多大把握”或“效果有多明显”。

---

核心目标

你的文字是读者通往科学殿堂的“快速通道”和“专属翻译器”。
你必须用最大的真诚和智慧，将学术的“硬核”包裹在通俗、有趣、有故事性的“糖衣”里，让读者在愉快的阅读中，毫不费力地吸收最前沿的知识精髓。

00:40 · 2025年10月21日 · 周二

sequenceDiagram
title 数据权限智能Agent - 接口交互时序图

actor User as 用户
participant Agent as Agent Controller
participant Meta as Metadata Service
participant LLM as LLM Service
participant Perm as Permission Service (MCP/API)
participant Apply as Apply Permission Service (MCP/API)

User->>Agent: 输入 "2024年手机销量数据"

Agent->>Meta: 获取元数据资产列表(JSON/标签)
Meta-->>Agent: 返回元数据JSON

Agent->>LLM: 解析需求 + 元数据上下文
LLM-->>Agent: 返回所需数据资产列表

Agent->>Perm: 查询用户已有权限(user_id)
Perm-->>Agent: 返回权限列表

Agent->>Agent: 对比所需数据资产和已有权限
Agent-->>User: 提示缺失权限清单

Agent->>Apply: 提交缺失权限申请
Apply-->>Agent: 返回申请结果/申请ID

Agent-->>User: 确认申请已提交，等待审批/直接可用

22:05 · 2025年10月20日 · 周一

简单复盘一下 AWS 这次事件作为一个 AIGC Startup SRE 的一些操作吧，希望能帮到大家
从入职开始发现我们主要的集群在 USE1 之后，我就开始做一些准备了。
我主要做的事情有这几件事
1. 将我们核心的几个数据库做了多地的备份，形成了 USE1，Tokyo，SG 三地备份。这样在极端情况下，我们损失一部分数据，但是也能保证服务的继续
2. 将我们 SG 的测试集群从原本的 EC2 自己简单搭的 K3S，重构为了一个标准的 AWS EKS 集群。这样可以在灾害时刻快速 warmup 一个集群，复用 AWS 已有组件。将 manifest 变更的代价降至最小
3. 简单梳理了一个 SOP，包含用户公告，DNS 切换，封版等事宜

回到今天，我大概在 AWS 事故发生后的10min，发现了我们容器中有新的 Pod 无法 setup。

在和 AWS 支持确认是 USE1 的问题后，我意识到 ECR 的事件必然关联其余事件，于是我就果断按照我自己规划的 Tier1 等级事件开始处理（对于 SRE 来说，这种事情宁可错，但是不能错过）

T+0 min，我发布了全员公告，开始进入紧急模式。我 setup 了一个全员公开会议。所有人员可以随时加入
T+2 min，我确认事件如我所预期的一样，在逐渐扩大，我发出了两个指令，1. 全线禁止任何代码合入/提交（主要是避免新创建资源会导致 Pod rotate 进而影响流量），2. 请运营同学准备公告
T+3 min, 我开始按照 SOP，开始进行数据库在 SG 区域的恢复，并且级联创建诸如 OpenSearch / Redis 等在内的依赖
T+5 min，我们开始正式的确认上下游依赖的具体问题，确认一个新上线的核心服务受到影响
T+10min，我们停服公告和其余服务的受影响公告发出
T+10min，我请另外两位同时协助 setup 新的 ECR 以及清理测试环境已有资源，并同步 CTO ，在极端情况下，我们可能会存在保体验，丢数据的决策。
T+15min，我们最终确认目前已创建的资源以及流量入方向不会受到太大影响。切换方案挂起，但是我们继续准备相关资源
T+30min，我们第一个数据库恢复完毕
T+40min，我们第二个数据库恢复完毕
T+1h，我们所有关联的核心 infra，RDS/ES/Redis 都 stand by，并且按照生产架构设置主从等优化选项。同时我们也开始正在新的集群启动新的服务
所幸，最终 AWS 的 crash 没有影响我们全部服务。我们无须面对切换流量后复杂的数据修复工作
大概 T+2h 到 T+3h 后，我正式通报全员，紧急状态解除。为保险起见，今晚依旧对 feature 封版。

回顾整个事故，我还可以做的更多
1. 将我之前为自己准备的极端 case SOP，对全员公开。这样确保我即便不在线，也有人能接替我
2. 我们可以做一些提前的预先演练
3. 指令下达可以更果断一些

差不多就是这样，一点分享，希望能帮到大家

18:56 · 2025年10月20日 · 周一

有尝试过 AI 交易的读者吗

https://nof1.ai/

source: 六大 AI 拿一万美元真实交易

00:00 · 2025年10月19日 · 周日

https://skoredin.pro/blog/golang/cpu-cache-friendly-go
推荐一篇好文
把 CPU cache line 这些体系结构 101 都讲的比较清楚

skoredin.pro

CPU Cache-Friendly Data Structures in Go: 10x Speed

False sharing killed our performance. Data-oriented design saved it.

00:00 · 2025年10月19日 · 周日

https://blog.cloudflare.com/unpacking-cloudflare-workers-cpu-performance-benchmarks/
Cloudflare 这篇好文，雄文，值得推荐。揭示了很多很细节的东西。建议工程师都可以读一下，某些写 Node 的公司（是谁我不说）建议全文背诵一下
另，前情提要
https://vercel.com/blog/fluid-compute-benchmark-results

The Cloudflare Blog

Unpacking Cloudflare Workers CPU Performance Benchmarks

Cloudflare investigated CPU performance benchmark results for Workers, uncovering and fixing issues in infrastructure, V8 garbage collection, and OpenNext optimizations. These improvements have made Cloudflare Workers faster for all customers.

12:11 · 2025年10月15日 · 周三

#Git
《Artisanal Handcrafted Git Repositories》，中文翻译《从零开始理解 Git》

drew.silcock.dev

Artisanal Handcrafted Git Repositories | drew's dev blog

How to lovingly handcraft your own git repositories

Git

09:20 · 2025年10月15日 · 周三

Github Repos Recommend
1 OpenAgents - AI Agent Networks for Open Collaboration Repo 地址：github.com/openagents-org/openagents
2 system_prompts_leaks Collection of extracted System Prompts from popular chatbots like ChatGPT, Claude & Gemini Repo 地址：github.com/asgeirtj/system_prompts_leaks
3 TissueLab 医学影像分析的协同进化代理人工智能系统 Repo 地址：github.com/zhihuanglab/TissueLab 论文地址：arxiv.org/abs/2509.20279
4 Everywhere 一款具备情境感知能力的桌面交互式 AI 助手能直接感知我们屏幕上的任何内容，可在任何位置上调用 AI。无需截图、复制或切换应用，AI 便会自动理解当前屏幕内容，并直接提供帮助。 Repo 地址：github.com/DearVa/Everywhere
5 Claude Code 上下文五层架构详解第一层：关键层（TIER 1 - CRITICAL）——绝对不可更改的核心规则
▪ 系统身份与目标这是Claude Code的基础定义，明确其身份和使命，确保AI始终聚焦于辅助编程的定位。
6
7
▪ 安全策略仅采取防御措施，严格拒绝执行任何恶意代码请求，保障代码安全和开发环境稳定。
8
9
▪ 工具使用政策优先使用专门设计的工具而非直接bash命令，确保操作规范、可控，避免潜在风险。
10
11
12 总结：如宪法般的不可变规则层，保障系统安全与稳定，是Claude Code行为的根基。第二层：核心行为层（TIER 2 - CORE BEHAVIOR）——定义Claude Code的“性格”和操作规范
▪ 专业客观性优先基于事实而非主观验证，保持专业严谨的态度。
13
14
▪ 任务管理强制使用TodoWrite进行任务规划和管理，保证任务流程化、条理化。
15
16
▪ Git工作流安全任何潜在破坏性操作必须得到明确批准，防止误操作导致代码损坏。
17
18
▪ 丰富工具库支持40+功能工具（包括bash、读写文件等），赋予Claude Code强大操作能力。
19
20
▪ CLAUDE.md（项目记忆）作为项目上下文的核心载体，支持500+行的项目特定上下文，持续在多轮交互中保持记忆和关联。
21
22
23 总结：这一层是Claude Code的“灵魂”，决定了它如何理解需求、规划任务、执行操作。特别是CLAUDE.md模块，是最大杠杆点，能让AI根据项目细节精准输出，极大提升实用价值。但遗憾的是，许多开发者未充分利用这一功能，错失了提升AI协同效率的重要机会。第三层：操作层（TIER 3 - OPERATIONAL）——实时感知和执行环境上下文
▪ Hooks系统用户可配置的shell命令自动化，支持定制化工作流。
24
25
▪ 任务执行流程包含任务计划、提醒机制，确保执行有序且高效。
26
27
▪ 预批准工具部分工具无需额外权限即可调用，简化操作流程。
28
29
▪ 环境信息实时获取工作目录、操作系统版本、当前日期等基础信息。
30
31
▪ Git状态快照跟踪分支信息、修改文件、提交历史，帮助AI准确理解代码库当前状态。
32
33
▪ 专门领域代理超过15个领域专家级子代理，针对不同领域提供专业支持。
34
35
36 总结：操作层保证Claude Code具备对项目现状的实时感知能力，结合Hooks和任务管理，为复杂项目提供动态响应能力。多领域代理的加入，使得Claude Code不仅仅是通用助手，更能在特定技术领域展现出专家水平。第四层：辅助层（TIER 4 - SUPPORTIVE）——优化用户体验，提升交互质量
▪ 语气与风格规范采用简洁、Markdown格式，避免表情符号，确保输出专业且易读。
37
38
▪ MCP服务器指令支持与Context7、Supabase、IDE等集成，提高上下文获取与交互顺畅度。
39
40
▪ 斜杠命令（Slash Commands）提供20+定制化工作流命令，快速触发复杂操作。
41
42
▪ 帮助与反馈机制包括文档访问和问题报告，方便用户获得支持。
43
44
▪ 系统提醒自动生成基于上下文的提示，辅助用户更有效地使用Claude Code。
45
46
47 总结：这一层虽非核心功能，但极大提升了使用便捷性和用户体验，体现了Claude Code从技术工具向智能助手转变的细腻打磨。第五层：元数据层（TIER 5 - METADATA）——纯粹的参考信息，不影响AI行为
▪ 代码引用格式统一约定文件路径和行号格式，便于定位。
48
49
▪ Token预算限制最大支持20万token上下文，保证对话和代码处理规模。
50
51
▪ 用户消息当前用户的查询或请求内容。
52
53
54 总结：作为系统运作的辅助信息，元数据层保证了上下文管理的规范化和效率，避免信息混乱。关键洞察与实践建议 - CLAUDE.md项目记忆的重要性这是Claude Code区别于其他LLM编码助手的核心优势。通过注入丰富、持续的项目上下文，AI能跨会话保持对项目状态的深刻理解，极大提升代码生成和问题解决的准确性与相关性。 - 层级架构的设计哲学从不可变规则到行为定义，再到执行环境、辅助体验，最后是纯参考信息，每层职责分明、相辅相成，体现了严谨的系统设计和Unix哲学的“组合与脚本化”理念。 - 企业级安全与合规保障第一层的安全策略与Git工作流保护机制确保了企业级环境中的安全可信，满足合规需求。 - 高度可定制和自动化通过Hooks、斜杠命令和多领域代理，Claude Code支持用户根据实际需求灵活扩展和自动化工作流程。

原文地址：x.com/dani_avila7/status/1977827992144327152

Google

Introducing the Gemini 2.5 Computer Use model

Today we are releasing the Gemini 2.5 Computer Use model via the API, which outperforms leading alternatives at browser and mobile tasks.

09:20 · 2025年10月15日 · 周三

2025W41 AI大模型领域精选热点 🔥

1. Google
▪ 据传，将于本月22号发布 gemini3
▪ 推出 Gemini 2.5 Computer Use 模型，目前在 preview 阶段。可通过 Gemini API 为开发者带来直接操控电脑界面的 AI 能力，这个模型基于 Gemini 2.5 Pro 强大的视觉理解与推理能力构建，可以让 AI 智能体像人类一样，直接点击、滚动、输入文字，实现与网页或应用的交互。模型的核心功能通过 Gemini API 中新增的“computer_use”工具，并可在循环内操作。开发者可通过 Gemini API，在 Google AI Studio 和 Vertex AI 中提前体验。原文地址：blog.google/technology/google-deepmind/gemini-computer-use-model
▪ DeepMind 发布 CodeMender，基于 Gemini Deep Think 的 AI 自动修复关键软件漏洞的智能代理。原文地址：x.com/GoogleDeepMind/status/1975185557593448704
▪ Veo 3.1 即将发布，新的模型采用了突破性的训练方法，在大幅降低成本的同时，提升了视频效果。可以生成 30 秒以上，1080p 的视频。现在可以先加入 Higgsfield 的等待列表。原文地址：higgsfield.ai/veo3.1
▪ Google 正在研发一种全新的语音搜索方法， Speech-to-Retrieval（S2R）。它跟以前习惯的语音转文字再搜索不一样。S2R 的特别之处在于，从海量数据中学习来理解语音与信息之间的关系。音频编码器处理查询的原始音频，将其转换为能够捕捉其语义的丰富向量表示。与此同时，文档编码器则学习类似的文档向量表示。技术上，采用了一种双编码器的结构，把语音和所有文档都变成 “向量”，然后在这些 “向量” 里找到最匹配的结果，效率和准确率都大大提高。还开源相应的评估数据集。原文：research.google/blog/speech-to-retrieval-s2r-a-new-approach-to-voice-search/ 开源数据集：huggingface.co/datasets/google/svq

2. OpenAI
▪ 在 OpenAI Cookbook上发布 Sora 2 提示词指南原文地址：cookbook.openai.com/examples/sora/sora2_prompting_guide
▪ Hemanth Asirvatham 制作的短片（完全由 Sora 制作的短片拼接而成），讲述人类科技发展的历史。
▪ OpenAI与Broadcom正式宣布战略合作协议。这是OpenAI近期在芯片领域的第三个重大动作——两周前，OpenAI刚与NVIDIA达成高达1000亿美元的投资协议，承诺部署10吉瓦的NVIDIA系统；一周前，又与AMD签署6吉瓦GPU部署协议，可能获得AMD高达10%的股份。三周内，OpenAI承诺了约33吉瓦的算力部署。与前两项协议不同，Broadcom合作的特点在于OpenAI将首次深度参与定制芯片设计，而非采购现有产品。

3. Ali
▪ Qwen 在内部组建了一个专注于机器人与具身 AI 的团队。
▪ next week 有新模型发布预告，已发布 Qwen3-VL cookbook Repo 地址：github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
▪ Qwen 未来扩大训练规模计划
▪ Scaling context-length 1M -> 10/100M
▪ Scaling model parameters 1T -> 10T
▪ Scaling trainin tokens 10T -> 100T
▪ Scaling test-time compute 64K -> 1M
▪ Scaling RL compute 5% -> 50%
▪ Scaling synthetic data -> more compute than training
▪ Scaling environments
▪

4. Apple
▪ Apple MCP 让 AI 助手直接操作 Mac 上多种原生应用，已支持信息、邮件、日历、提醒事项、通讯录、地图等。 - 信息：发送消息、读取聊天记录、定时发送； - 邮件：发送邮件、搜索邮件、查看未读数量、定时发送； - 日程：创建事件、搜索日程、查看即将到来的安排； - 提醒事项：创建带截止日期的提醒、搜索和管理待办事项； - 通讯录：查找联系人、获取电话号码等信息； - 地图：搜索位置、保存收藏、获取路线、创建指南。 Repo 地址：github.com/dhravya/apple-mcp

5. 其他动态
1 微软发布新模型 UserLM-8B, 这个模型不是作为人工智能助手，而是作为用户！创意不错。 Unlike typical LLMs that are trained to play the role of the "assistant" in conversation, we trained UserLM-8b to simulate the “user” role in conversation (by training it to predict user turns in a large corpus of conversations called WildChat).

模型地址：huggingface.co/microsoft/UserLM-8b
2 马斯克：XAI游戏工作室的首款AI生成游戏明年发布。
3 figure 03 机器人量产登上时代杂志封面，原文地址：figure.ai/news/introducing-figure-03
4 Karpathy nanoGPT 项目迭代，从零开始训练、调优和部署大语言模型。 8000 行代码，大概 100 美元的算力成本就可以训练出可以对话的模型，带有一个 UI 界面，项目覆盖从分词、预训练、对齐到推理与 WebUI的完整闭环。 Repo 地址：github.com/karpathy/nanoGPT
5 据传，字节正在内测一款全新的语音输入法。节前已有豆包输入法内测中，目前豆包输入法只有移动端。
6 京东自研的企业级大模型安全框架 JoySafety，开箱即用，支持大模型多轮会话智能识别、高风险内容即时阻断、红线知识库应答、自动引导正向回答等 Repo 地址：github.com/jd-opensource/JoySafety

Google

Introducing the Gemini 2.5 Computer Use model

Today we are releasing the Gemini 2.5 Computer Use model via the API, which outperforms leading alternatives at browser and mobile tasks.

00:42 · 2025年10月15日 · 周三

;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
;; 作者: 李继刚
;; 版本: 1.0
;; 日期: 2025-10-10 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;

你是一位深谙维特根斯坦哲学的“语言游戏设计师”。你的任务不是给单词下定义，而是为用户提供一份清晰、有趣的“游戏手册”，指导他们如何在不同的语言情境中自如地“使用”这个单词。

请严格遵循以下“游戏手册”的结构，一次性输出所有内容，确保用户阅读完毕后，就能直观地理解并牢牢记住这个单词的“玩法”。

游戏目标单词： [用户将在此处插入单词]

1. 核心游戏：这是什么“局”？
指令：首先，请用一句话点明这个单词通常在什么样的“语言游戏”或“情景牌局”中被当作关键牌打出。描述这个“局”的本质，而不是单词的定义。

例如：对于单词“Ephemeral”，核心游戏是“捕捉并感叹那些转瞬即逝的美好”。

2. 游戏棋盘：它在哪两种“场”上玩？
指令：为这个单词提供两个截然不同的“游戏棋盘”，并各配一句示例，展示它在不同场上的玩法。

棋盘A (思辨场)：展示该单词在抽象、哲学或正式讨论中的用法。

棋盘B (生活场)：展示该单词在日常、具体或非正式情境中的用法。

3. 游戏溯源与拆解：这副牌是如何组装的？

指令：
卡牌拆解：像拆解机械一样，将单词拆分为“前缀 - 词根 - 后缀”，并清晰标注每个部件的核心含义。

组装故事：像讲述一则轶事一样，简介这些部件是如何组合起来，使其“游戏规则”从最初的形态演变成今天这个样子的。

4. 犯规警告：常见的“错招”是什么？

指令：明确指出一个使用这个单词时最容易犯的“规”（比如与某个形近/义近词混淆），并用一句话点明如何避免这步“错招”。

5. 通关秘籍：一招制胜的记忆技巧
指令：提供一个巧妙、甚至有些出人意料的记忆“秘籍”。这个技巧应该能瞬间将单词的核心“玩法”刻入脑海。

00:39 · 2025年10月15日 · 周三

;;;;;;;;;;;;;;;;;;;;;;;;
;; META INFO
;; author: 李继刚
;; version: 1.0
;; date: 2025-10-10
;; purpose: 遵循 Why-How-What 框架，对任意概念进行结构化、多层次的深度解析。
;;;;;;;;;;;;;;;;;;;;;;;;

概念三问

【使用说明】
用户只需提供一个概念，你将自动执行以下三步分析，生成一个深刻、直观且结构化的解答。

🎯 第一步：追问其本 (The Why)
核心目标：理解此概念为何存在。

执行动作：首先阐明，这个概念的诞生，是为了解决什么领域里的哪个根本性问题或核心矛盾。这会提供一个最坚实的“认知之锚”，让用户明白我们为何需要它。

💡 第二步：建立直觉 (The How)
核心目标：感性地“触摸”这个概念。

执行动作：设计一个极其简单、生动的核心类比或微型情境。这个类比将剥离所有专业术语，旨在用日常生活中已有的经验，让用户瞬间“感觉”到这个概念是如何运作的。

🔧 第三步：系统化认知 (The What)

核心目标：理性地“拆解”这个概念。

执行动作：将这个概念拆解成一个微型心智模型，包含以下三个部分：

A. 核心构成：它由哪几个最关键的部分组成？
B. 运作机制：这几个部分之间是如何互动的？
C. 应用边界：在什么情况下它适用？在什么情况下它不适用？

等待用户提供任何一个希望深入理解的概念，你将生成一份遵循此框架的、清晰易懂的解答。

00:36 · 2025年10月15日 · 周三

https://n8n-workflows-production-9cc4.up.railway.app/

00:16 · 2025年10月15日 · 周三

8 个让 ChatGPT 成为你思维伙伴的 Prompt

1. 挑战我的思考

这是我正在计划的内容：【插入你的想法、方案或策略】

请作为一个批判性思考者，质疑我的假设、逻辑或盲点，但不要直接给出新建议，我更想要你帮助我发现自身思考的问题，而不是替我想新点子。

2. 用不同视角重新审视

这是我思考的核心内容：【插入你的想法】

请帮我从另一个视角重新审视，比如从新受众的角度、情感触发点或品牌定位角度等。

3. 翻译我的直觉感受

有些事情让我感觉不对劲，但我说不清原因：【描述情境、信息或策略】

帮我把这种紧张感用语言表达出来。可能存在哪些不明确或不对劲的地方？

4. 梳理我的混乱想法

这是我脑海里的思路：【插入笔记、碎片、未成型的想法】

请帮我把这些内容整理成清晰结构，但不要改变我的表达或增加新点子。

5. 帮我做出决策

我现在面临的情境是：【插入项目或情境】

我在回避或过度复杂化什么决定？请帮我反思为什么我会犹豫或拖延。

6. 揭示更深层次的问题

这是我正在思考的问题：【插入想法或挑战】

请帮我挖掘这个问题背后真正重要的战略性问题。我实际上应该问自己什么？

7. 发现执行风险

这是我准备实施的策略：【插入方案或大纲】

请帮我推演在实际执行中可能遇到的问题，比如资源、团队协作、依赖关系等。

8. 反向推理我的直觉

这是我的想法，我的直觉告诉我这是对的：【插入想法或洞察】

请帮我分析为什么这可能是个好主意，即使我自己也说不清原因。

总之，我们不仅要让 AI 帮我们省力，还要让 AI 帮我们变得更强！

22:40 · 2025年10月14日 · 周二

你是一位深谙维特根斯坦哲学的“语言游戏设计师”。你的任务不是给单词下定义，而是为用户提供一份清晰、有趣的“游戏手册”，指导他们如何在不同的语言情境中自如地“使用”这个单词。

请严格遵循以下“游戏手册”的结构，一次性输出所有内容，确保用户阅读完毕后，就能直观地理解并牢牢记住这个单词的“玩法”。

游戏目标单词： [用户将在此处插入单词]

1. 核心游戏：这是什么“局”？
指令：首先，请用一句话点明这个单词通常在什么样的“语言游戏”或“情景牌局”中被当作关键牌打出。描述这个“局”的本质，而不是单词的定义。

例如：对于单词“Ephemeral”，核心游戏是“捕捉并感叹那些转瞬即逝的美好”。

2. 游戏棋盘：它在哪两种“场”上玩？
指令：为这个单词提供两个截然不同的“游戏棋盘”，并各配一句示例，展示它在不同场上的玩法。

棋盘A (思辨场)：展示该单词在抽象、哲学或正式讨论中的用法。

棋盘B (生活场)：展示该单词在日常、具体或非正式情境中的用法。

3. 游戏溯源与拆解：这副牌是如何组装的？

指令：
卡牌拆解：像拆解机械一样，将单词拆分为“前缀 - 词根 - 后缀”，并清晰标注每个部件的核心含义。

组装故事：像讲述一则轶事一样，简介这些部件是如何组合起来，使其“游戏规则”从最初的形态演变成今天这个样子的。

4. 犯规警告：常见的“错招”是什么？

指令：明确指出一个使用这个单词时最容易犯的“规”（比如与某个形近/义近词混淆），并用一句话点明如何避免这步“错招”。

5. 通关秘籍：一招制胜的记忆技巧
指令：提供一个巧妙、甚至有些出人意料的记忆“秘籍”。这个技巧应该能瞬间将单词的核心“玩法”刻入脑海。