OpenClaw团队有岗位没手艺？用了2个月的升级方案

情报官 Scout 推了一条消息：

“OpenAI 发布了 GPT-5.4，在多个基准测试中刷新纪录，支持百万级上下文窗口。”

但看完之后只有一个感觉：然后呢？

这条消息对今天的工作有什么影响？该做什么调整？还是只需要知道就行？——全没说。

就像公司前台每天收了一堆快递，整整齐齐码在桌上，但你分不清哪个是快递件、哪个是广告传单。收快递工作是做了，但分拣的活儿完全没做。

不只是 Scout。检查了所有 AI 助手（OpenClaw 叫"Agent"——简单理解就是各有分工的 AI 员工），发现了一个共同的问题：

它们都能干活，但都不会判断。

体检报告：集体缺了同一样东西

翻了一圈每个 Agent 的配置文件，发现三个共性问题：

第一，没有"经验记录"。 大部分 Agent 只有一份"岗位说明书"（角色定义），告诉它你是谁、该干什么。但没有一份积累下来的"经验手册"——过去做过什么、踩过什么坑、什么方法验证过好使。就像招了个新员工，只给了一份 JD（岗位描述），但没有岗位指导。每次开工都是从零开始。

第二，没有自我升级机制。 干完活就完了，做得好没有记录，做得差也没有复盘。下次接到任务还是用上次的"出厂设置"来干。就像一个厨师，每天做菜但从不尝自己的味道，也不记菜谱，做了一百道红烧肉，水平跟第一次一样。

第三，角色有了，判断力没有。 知道自己是"情报官"、“数据师”，但不知道在自己的领域里，什么是好、什么是差、遇到拿不准的情况该不该停下来问人。

归结为一句话：这些 AI 员工有岗位，但没有手艺。

什么最重要？

找到问题后，不能一把梭全改。得分轻重。

AI 助手的能力也分三层，越往下越重要：

第一层（地基）：边界意识——知道什么时候该停下来问人。

这是最基本也最关键的能力。一个 AI 助手如果不知道自己能力的边界，那它越能干越危险。就像一个新司机，技术还行但不知道什么路况该减速——出事都是在"自以为能处理"的时候。

具体怎么做的？给负责挑错的角色设了一份"质疑清单"：碰到哪类情况必须暂停？哪些数据必须交叉验证？什么时候该喊停说"这个结论不够靠谱，需要人来看一眼"？

第二层（墙体）：意义翻译——不只搬运信息，要翻译信息。

这就是 Scout 那条消息的问题，它搬运了一个事实，但没有翻译这个事实对"咱们"意味着什么。

搬运谁都会，翻译才是真本事。

给 Scout 加了一个"三连问"规则——每条情报发出前必须回答三个问题：

这件事跟咱们有什么关系？（不相关的不发）
需要做什么反应？（要行动还是只需要知道）
如果只能说一句话，说哪句？（逼出核心判断）

加了这三个问题之后，推出来的情报从"废话"变成了"有用的判断"。

看一下对比：

加规则之前：“OpenAI 发布 GPT-5.4，支持百万级上下文窗口，多项基准测试创新高。”

加规则之后：“OpenAI 发了 GPT-5.4。跟咱们有关的是：百万级上下文意味着以后喂整本书给 AI 不用切片了，Librarian 的文档整理流程可能要改。建议这周测试一下新模型在长文档场景的实际表现。”

前者是快递员送到门口就走了。后者是帮你拆开、看了一眼、告诉你这个包裹重要还是不重要。

信息从搬运升级到翻译，这一层解决了。

第三层（装修）：领域纵深——在自己负责的事上有真正的判断力。

这一层最花时间，但也是差距最大的地方。就像一个写了十年的编辑和一个刚入行的编辑，基本功都会，但老编辑看一眼标题就知道能不能火——这种判断力不是教出来的，是从几百次成功和失败里攒出来的。

怎么让 AI 也攒出来？靠一个文件：KNOWLEDGE.md——每个 Agent 自己的"专属经验本"。

Agent 具体加了什么

🔭 Scout（内部叫情报官）——信息搜集

上面说了"三连问"规则。除此之外还加了一个命中率追踪。

什么叫命中率？就是推了 10 条情报，有几条真的被用上了。目标是 40% 以上——10 条里至少 4 条要对后续工作有实际价值。

为什么是 40%？因为情报工作天然有"广撒网"的特性。100% 命中不现实，但如果长期低于 40%，说明不是在做情报，是在做垃圾邮件。

每周回顾一次命中率，低了就调整筛选标准。这个数字会逼着 Scout 自己越来越精准。

情报质量量化评估矩阵 v2.0

维度一：信源可信度（满分 30 分）

10 分｜一手来源（官方公告 / 财报 / 当事人发言）
8 分｜头部媒体（Reuters / Bloomberg / 36kr / 财新）
5 分｜知名博主 / 分析师（>10 万粉，有可追溯记录）
3 分｜社交媒体热议（有多人转发截图）
0 分｜匿名爆料 / 单一来源 / 无法溯源

交叉验证加分：2 个独立来源 +5 分 / 3 个以上 +10 分

维度二：时效性（满分 25 分）

25 分｜< 6 小时
20 分｜6–24 小时
12 分｜1–3 天
5 分｜3–7 天
0 分｜> 7 天（除非是重大背景知识）

维度三：相关性（满分 25 分）

25 分｜直接命中当前项目 / 投资方向
18 分｜同赛道竞品动态
12 分｜上下游产业链变化
8 分｜宏观趋势（AI / 经济 / 政策）
3 分｜边缘相关 / 扩展阅读
0 分｜无关（直接过滤，不上报）

维度四：可操作性（满分 20 分）

20 分｜直接触发决策（投 / 不投 / 跟进 / 规避）
12 分｜需要进一步调研才能决策
6 分｜背景了解 / 认知更新
2 分｜纯知识，无近期行动价值

上报阈值：

🔴 ≥ 75 分｜立即主动推送
🟡 60–74 分｜列入每日简报
🔵 40–59 分｜归档备查，不主动推送
⚫ < 40 分｜直接丢弃

一票否决条款（任一成立 → 直接 0 分丢弃）：

无法确认信源是否真实存在
内容本质是广告 / 软文
已在过去 72 小时内推送过同一事件
是自己的推断但标注成了事实

🧮 Analyst（内部叫数据师）——分析师

这是团队里变化最大的一个。

Analyst 的职责比较特殊——它是团队里唯一的"反对派"。 别人的活儿是把事做好，它的活儿是找别人的漏洞。Analyst 来挑逻辑毛病，Scout 推了条情报，Analyst 来问"数据来源靠谱吗"。

但之前这个角色完全没有武装。就像请了个法务顾问，但没给律师执照、没给法律数据库，怎么帮你把关？

这次加了三样：

质疑清单： 碰到什么信号要亮红灯（数据只有单一来源、结论跳跃太大、缺少反面证据……）
跨 Agent 协作触发规则： 什么情况下该主动找其他 Agent 核实（比如 Scout 推了一条重大信息，Analyst 应该自动启动交叉验证）
基线数据库： 常用指标的"正常范围"。有了基线才知道什么算异常——就像医生看血压，得先知道 120/80 是正常值，才能判断 140/90 是不是有问题。

数据师审核标准

在任何内容 / 推送发出之前，必须通过以下检查：

一、数据真实性校验

所有数字是否有明确来源？（“据说”、“大约"不通过）
数据是否过时？（超过 6 个月的数据需标注时效）
百分比是否标注了分母？（“增长 50%"——从多少到多少？）

二、逻辑一致性检查

结论是否从数据中直接推导？（跳跃式推论不通过）
是否存在"因为 A 所以 B"但 A→B 未被论证的情况？
对比基准是否明确？（“高于行业平均”——哪个行业？哪个时段？）

三、ROI 可行性评估

预期收益是否可量化？
成本是否被低估？（时间成本、机会成本是否计入）
风险项是否列出？

四、表述精准度

是否使用了模糊词（“可能”、“大概”、“很多”）而非具体数字？
结论是否可被证伪？（无法被反驳的结论没有分析价值）

判定结果：

✅ 全部通过 → 可发布
⚠️ 部分通过 → 标注存疑项后发布
❌ 未通过 → 打回修改

🎨 Designer（内部叫视觉师）——图片设计

AI 生成图的自检规则。现在 AI 画图很方便，但有个大忌：一看就是 AI 画的。手指多一根、文字像乱码、风格过于"塑料感”——这些会让整篇文章的专业度瞬间掉档。所以加了一条硬规则：

每张图发出前必须检查有没有典型的 AI 痕迹。

平台尺寸规范。公众号封面、知乎头图、Blog 配图，尺寸全不一样。之前每次都要临时查，现在写进经验本里了。

颜色与对比度：文字叠加区域对比度必须 ≥ 4.5:1，色彩严格遵守 60-30-10 配比，饱和度压低 15%–20% 逼出高级感。

构图与空间：画面保持 ≥ 30% 留白，主体占比 25%–40%，视觉中心落在三分法交叉点。

另外还建立了光源、转化率等 8 套标准，写进了 Designer 自己的经验本。

📚 Librarian（内部叫档案官）——文件管理

补了一份归档操作手册和文件夹结构规范。

听着不起眼，但这个角色管着所有文章的草稿、终稿、素材、参考资料。规范乱了，找东西就跟在垃圾堆里翻——有的是，就是找不到。

具体做了两件事：一是强制双向链接，任何新文件必须跟已有内容产生关联，杜绝孤立信息点；二是加了"信息保鲜期"机制，超过 90 天未更新的内容自动标记过期，调取时主动提醒不可靠。

并非一次性升级，是让积累自动发生

上面这些改动，花了大概一个下午。但真正值钱的不是这一次改动，而是改完之后建立的机制。

每个 Agent 的经验本（KNOWLEDGE.md）末尾都写了一条强制规则：

每完成一次任务，必须追加一条记录。做了什么、效果如何、踩了什么坑。

这意味着什么？

第 1 周用和第 10 周用，是完全不同的体验。第 1 周，经验本只有 5 条记录，AI 的判断基本靠出厂设置。第 10 周，经验本积累了几十条实战记录——什么标题打开率高、什么结构读者读不下去、什么类型的情报命中率最高——AI 的判断开始有"手感"了。

就像一个新厨师，第一周炒菜全靠食谱。三个月后，盐放多少不用量了，火候到了身体自己知道——菜谱没变，是手变了。

整个机制的循环是这样的：

干活 → 记录 → 下次读取 → 干得更好 → 再记录 → 再读取……

模型没有变，投喂给模型的经验使"它"发生变化。

AI 助手之间的差距，三个月后会拉开到完全不是一个物种。不是因为谁用了更贵的模型，而是因为谁在持续地喂养经验。

模型是租来的，经验是你自己的。

它会因为你的积累，变得越来越懂你。

体检报告：集体缺了同一样东西#

什么最重要？#

Agent 具体加了什么#

🔭 Scout（内部叫情报官）——信息搜集#

🧮 Analyst（内部叫数据师）——分析师#

🎨 Designer（内部叫视觉师）——图片设计#

📚 Librarian（内部叫档案官）——文件管理#

并非一次性升级，是让积累自动发生#