情报官 Scout 推了一条消息:

“OpenAI 发布了 GPT-5.4,在多个基准测试中刷新纪录,支持百万级上下文窗口。”

但看完之后只有一个感觉:然后呢?

这条消息对今天的工作有什么影响?该做什么调整?还是只需要知道就行?——全没说。

就像公司前台每天收了一堆快递,整整齐齐码在桌上,但你分不清哪个是快递件、哪个是广告传单。收快递工作是做了,但分拣的活儿完全没做。

不只是 Scout。检查了所有 AI 助手(OpenClaw 叫"Agent"——简单理解就是各有分工的 AI 员工),发现了一个共同的问题:

它们都能干活,但都不会判断。

体检报告:集体缺了同一样东西

翻了一圈每个 Agent 的配置文件,发现三个共性问题:

第一,没有"经验记录"。 大部分 Agent 只有一份"岗位说明书"(角色定义),告诉它你是谁、该干什么。但没有一份积累下来的"经验手册"——过去做过什么、踩过什么坑、什么方法验证过好使。就像招了个新员工,只给了一份 JD(岗位描述),但没有岗位指导。每次开工都是从零开始。

第二,没有自我升级机制。 干完活就完了,做得好没有记录,做得差也没有复盘。下次接到任务还是用上次的"出厂设置"来干。就像一个厨师,每天做菜但从不尝自己的味道,也不记菜谱,做了一百道红烧肉,水平跟第一次一样。

第三,角色有了,判断力没有。 知道自己是"情报官"、“数据师”,但不知道在自己的领域里,什么是好、什么是差、遇到拿不准的情况该不该停下来问人。

归结为一句话:这些 AI 员工有岗位,但没有手艺。

什么最重要?

找到问题后,不能一把梭全改。得分轻重。

AI 助手的能力也分三层,越往下越重要:

第一层(地基):边界意识——知道什么时候该停下来问人。

这是最基本也最关键的能力。一个 AI 助手如果不知道自己能力的边界,那它越能干越危险。就像一个新司机,技术还行但不知道什么路况该减速——出事都是在"自以为能处理"的时候。

具体怎么做的?给负责挑错的角色设了一份"质疑清单":碰到哪类情况必须暂停?哪些数据必须交叉验证?什么时候该喊停说"这个结论不够靠谱,需要人来看一眼"?

第二层(墙体):意义翻译——不只搬运信息,要翻译信息。

这就是 Scout 那条消息的问题,它搬运了一个事实,但没有翻译这个事实对"咱们"意味着什么。

搬运谁都会,翻译才是真本事。

给 Scout 加了一个"三连问"规则——每条情报发出前必须回答三个问题:

  1. 这件事跟咱们有什么关系?(不相关的不发)
  2. 需要做什么反应?(要行动还是只需要知道)
  3. 如果只能说一句话,说哪句?(逼出核心判断)

加了这三个问题之后,推出来的情报从"废话"变成了"有用的判断"。

看一下对比:

加规则之前:“OpenAI 发布 GPT-5.4,支持百万级上下文窗口,多项基准测试创新高。”

加规则之后:“OpenAI 发了 GPT-5.4。跟咱们有关的是:百万级上下文意味着以后喂整本书给 AI 不用切片了,Librarian 的文档整理流程可能要改。建议这周测试一下新模型在长文档场景的实际表现。”

前者是快递员送到门口就走了。后者是帮你拆开、看了一眼、告诉你这个包裹重要还是不重要。

信息从搬运升级到翻译,这一层解决了。

第三层(装修):领域纵深——在自己负责的事上有真正的判断力。

这一层最花时间,但也是差距最大的地方。就像一个写了十年的编辑和一个刚入行的编辑,基本功都会,但老编辑看一眼标题就知道能不能火——这种判断力不是教出来的,是从几百次成功和失败里攒出来的。

怎么让 AI 也攒出来?靠一个文件:KNOWLEDGE.md——每个 Agent 自己的"专属经验本"。

Agent 具体加了什么

🔭 Scout(内部叫情报官)——信息搜集

上面说了"三连问"规则。除此之外还加了一个命中率追踪。

什么叫命中率?就是推了 10 条情报,有几条真的被用上了。目标是 40% 以上——10 条里至少 4 条要对后续工作有实际价值。

为什么是 40%?因为情报工作天然有"广撒网"的特性。100% 命中不现实,但如果长期低于 40%,说明不是在做情报,是在做垃圾邮件。

每周回顾一次命中率,低了就调整筛选标准。这个数字会逼着 Scout 自己越来越精准。

情报质量量化评估矩阵 v2.0

维度一:信源可信度(满分 30 分)

  • 10 分|一手来源(官方公告 / 财报 / 当事人发言)
  • 8 分|头部媒体(Reuters / Bloomberg / 36kr / 财新)
  • 5 分|知名博主 / 分析师(>10 万粉,有可追溯记录)
  • 3 分|社交媒体热议(有多人转发截图)
  • 0 分|匿名爆料 / 单一来源 / 无法溯源

交叉验证加分:2 个独立来源 +5 分 / 3 个以上 +10 分

维度二:时效性(满分 25 分)

  • 25 分|< 6 小时
  • 20 分|6–24 小时
  • 12 分|1–3 天
  • 5 分|3–7 天
  • 0 分|> 7 天(除非是重大背景知识)

维度三:相关性(满分 25 分)

  • 25 分|直接命中当前项目 / 投资方向
  • 18 分|同赛道竞品动态
  • 12 分|上下游产业链变化
  • 8 分|宏观趋势(AI / 经济 / 政策)
  • 3 分|边缘相关 / 扩展阅读
  • 0 分|无关(直接过滤,不上报)

维度四:可操作性(满分 20 分)

  • 20 分|直接触发决策(投 / 不投 / 跟进 / 规避)
  • 12 分|需要进一步调研才能决策
  • 6 分|背景了解 / 认知更新
  • 2 分|纯知识,无近期行动价值

上报阈值:

  • 🔴 ≥ 75 分|立即主动推送
  • 🟡 60–74 分|列入每日简报
  • 🔵 40–59 分|归档备查,不主动推送
  • ⚫ < 40 分|直接丢弃

一票否决条款(任一成立 → 直接 0 分丢弃):

  • 无法确认信源是否真实存在
  • 内容本质是广告 / 软文
  • 已在过去 72 小时内推送过同一事件
  • 是自己的推断但标注成了事实

🧮 Analyst(内部叫数据师)——分析师

这是团队里变化最大的一个。

Analyst 的职责比较特殊——它是团队里唯一的"反对派"。 别人的活儿是把事做好,它的活儿是找别人的漏洞。Analyst 来挑逻辑毛病,Scout 推了条情报,Analyst 来问"数据来源靠谱吗"。

但之前这个角色完全没有武装。就像请了个法务顾问,但没给律师执照、没给法律数据库,怎么帮你把关?

这次加了三样:

  1. 质疑清单: 碰到什么信号要亮红灯(数据只有单一来源、结论跳跃太大、缺少反面证据……)
  2. 跨 Agent 协作触发规则: 什么情况下该主动找其他 Agent 核实(比如 Scout 推了一条重大信息,Analyst 应该自动启动交叉验证)
  3. 基线数据库: 常用指标的"正常范围"。有了基线才知道什么算异常——就像医生看血压,得先知道 120/80 是正常值,才能判断 140/90 是不是有问题。

数据师审核标准

在任何内容 / 推送发出之前,必须通过以下检查:

一、数据真实性校验

  • 所有数字是否有明确来源?(“据说”、“大约"不通过)
  • 数据是否过时?(超过 6 个月的数据需标注时效)
  • 百分比是否标注了分母?(“增长 50%"——从多少到多少?)

二、逻辑一致性检查

  • 结论是否从数据中直接推导?(跳跃式推论不通过)
  • 是否存在"因为 A 所以 B"但 A→B 未被论证的情况?
  • 对比基准是否明确?(“高于行业平均”——哪个行业?哪个时段?)

三、ROI 可行性评估

  • 预期收益是否可量化?
  • 成本是否被低估?(时间成本、机会成本是否计入)
  • 风险项是否列出?

四、表述精准度

  • 是否使用了模糊词(“可能”、“大概”、“很多”)而非具体数字?
  • 结论是否可被证伪?(无法被反驳的结论没有分析价值)

判定结果:

  • ✅ 全部通过 → 可发布
  • ⚠️ 部分通过 → 标注存疑项后发布
  • ❌ 未通过 → 打回修改

🎨 Designer(内部叫视觉师)——图片设计

AI 生成图的自检规则。现在 AI 画图很方便,但有个大忌:一看就是 AI 画的。手指多一根、文字像乱码、风格过于"塑料感”——这些会让整篇文章的专业度瞬间掉档。所以加了一条硬规则:

每张图发出前必须检查有没有典型的 AI 痕迹。

平台尺寸规范。公众号封面、知乎头图、Blog 配图,尺寸全不一样。之前每次都要临时查,现在写进经验本里了。

颜色与对比度:文字叠加区域对比度必须 ≥ 4.5:1,色彩严格遵守 60-30-10 配比,饱和度压低 15%–20% 逼出高级感。

构图与空间:画面保持 ≥ 30% 留白,主体占比 25%–40%,视觉中心落在三分法交叉点。

另外还建立了光源、转化率等 8 套标准,写进了 Designer 自己的经验本。

📚 Librarian(内部叫档案官)——文件管理

补了一份归档操作手册和文件夹结构规范。

听着不起眼,但这个角色管着所有文章的草稿、终稿、素材、参考资料。规范乱了,找东西就跟在垃圾堆里翻——有的是,就是找不到。

具体做了两件事:一是强制双向链接,任何新文件必须跟已有内容产生关联,杜绝孤立信息点;二是加了"信息保鲜期"机制,超过 90 天未更新的内容自动标记过期,调取时主动提醒不可靠。

并非一次性升级,是让积累自动发生

上面这些改动,花了大概一个下午。但真正值钱的不是这一次改动,而是改完之后建立的机制。

每个 Agent 的经验本(KNOWLEDGE.md)末尾都写了一条强制规则:

每完成一次任务,必须追加一条记录。做了什么、效果如何、踩了什么坑。

这意味着什么?

第 1 周用和第 10 周用,是完全不同的体验。第 1 周,经验本只有 5 条记录,AI 的判断基本靠出厂设置。第 10 周,经验本积累了几十条实战记录——什么标题打开率高、什么结构读者读不下去、什么类型的情报命中率最高——AI 的判断开始有"手感"了。

就像一个新厨师,第一周炒菜全靠食谱。三个月后,盐放多少不用量了,火候到了身体自己知道——菜谱没变,是手变了。

整个机制的循环是这样的:

干活 → 记录 → 下次读取 → 干得更好 → 再记录 → 再读取……

模型没有变,投喂给模型的经验使"它"发生变化。

AI 助手之间的差距,三个月后会拉开到完全不是一个物种。不是因为谁用了更贵的模型,而是因为谁在持续地喂养经验。

模型是租来的,经验是你自己的。

它会因为你的积累,变得越来越懂你。