情报官 Scout 推了一条消息:
“OpenAI 发布了 GPT-5.4,在多个基准测试中刷新纪录,支持百万级上下文窗口。”
但看完之后只有一个感觉:然后呢?
这条消息对今天的工作有什么影响?该做什么调整?还是只需要知道就行?——全没说。
就像公司前台每天收了一堆快递,整整齐齐码在桌上,但你分不清哪个是快递件、哪个是广告传单。收快递工作是做了,但分拣的活儿完全没做。
不只是 Scout。检查了所有 AI 助手(OpenClaw 叫"Agent"——简单理解就是各有分工的 AI 员工),发现了一个共同的问题:
它们都能干活,但都不会判断。
体检报告:集体缺了同一样东西
翻了一圈每个 Agent 的配置文件,发现三个共性问题:
第一,没有"经验记录"。 大部分 Agent 只有一份"岗位说明书"(角色定义),告诉它你是谁、该干什么。但没有一份积累下来的"经验手册"——过去做过什么、踩过什么坑、什么方法验证过好使。就像招了个新员工,只给了一份 JD(岗位描述),但没有岗位指导。每次开工都是从零开始。
第二,没有自我升级机制。 干完活就完了,做得好没有记录,做得差也没有复盘。下次接到任务还是用上次的"出厂设置"来干。就像一个厨师,每天做菜但从不尝自己的味道,也不记菜谱,做了一百道红烧肉,水平跟第一次一样。
第三,角色有了,判断力没有。 知道自己是"情报官"、“数据师”,但不知道在自己的领域里,什么是好、什么是差、遇到拿不准的情况该不该停下来问人。
归结为一句话:这些 AI 员工有岗位,但没有手艺。
什么最重要?
找到问题后,不能一把梭全改。得分轻重。
AI 助手的能力也分三层,越往下越重要:
第一层(地基):边界意识——知道什么时候该停下来问人。
这是最基本也最关键的能力。一个 AI 助手如果不知道自己能力的边界,那它越能干越危险。就像一个新司机,技术还行但不知道什么路况该减速——出事都是在"自以为能处理"的时候。
具体怎么做的?给负责挑错的角色设了一份"质疑清单":碰到哪类情况必须暂停?哪些数据必须交叉验证?什么时候该喊停说"这个结论不够靠谱,需要人来看一眼"?
第二层(墙体):意义翻译——不只搬运信息,要翻译信息。
这就是 Scout 那条消息的问题,它搬运了一个事实,但没有翻译这个事实对"咱们"意味着什么。
搬运谁都会,翻译才是真本事。
给 Scout 加了一个"三连问"规则——每条情报发出前必须回答三个问题:
- 这件事跟咱们有什么关系?(不相关的不发)
- 需要做什么反应?(要行动还是只需要知道)
- 如果只能说一句话,说哪句?(逼出核心判断)
加了这三个问题之后,推出来的情报从"废话"变成了"有用的判断"。
看一下对比:
加规则之前:“OpenAI 发布 GPT-5.4,支持百万级上下文窗口,多项基准测试创新高。”
加规则之后:“OpenAI 发了 GPT-5.4。跟咱们有关的是:百万级上下文意味着以后喂整本书给 AI 不用切片了,Librarian 的文档整理流程可能要改。建议这周测试一下新模型在长文档场景的实际表现。”
前者是快递员送到门口就走了。后者是帮你拆开、看了一眼、告诉你这个包裹重要还是不重要。
信息从搬运升级到翻译,这一层解决了。
第三层(装修):领域纵深——在自己负责的事上有真正的判断力。
这一层最花时间,但也是差距最大的地方。就像一个写了十年的编辑和一个刚入行的编辑,基本功都会,但老编辑看一眼标题就知道能不能火——这种判断力不是教出来的,是从几百次成功和失败里攒出来的。
怎么让 AI 也攒出来?靠一个文件:KNOWLEDGE.md——每个 Agent 自己的"专属经验本"。
Agent 具体加了什么
🔭 Scout(内部叫情报官)——信息搜集
上面说了"三连问"规则。除此之外还加了一个命中率追踪。
什么叫命中率?就是推了 10 条情报,有几条真的被用上了。目标是 40% 以上——10 条里至少 4 条要对后续工作有实际价值。
为什么是 40%?因为情报工作天然有"广撒网"的特性。100% 命中不现实,但如果长期低于 40%,说明不是在做情报,是在做垃圾邮件。
每周回顾一次命中率,低了就调整筛选标准。这个数字会逼着 Scout 自己越来越精准。
情报质量量化评估矩阵 v2.0
维度一:信源可信度(满分 30 分)
- 10 分|一手来源(官方公告 / 财报 / 当事人发言)
- 8 分|头部媒体(Reuters / Bloomberg / 36kr / 财新)
- 5 分|知名博主 / 分析师(>10 万粉,有可追溯记录)
- 3 分|社交媒体热议(有多人转发截图)
- 0 分|匿名爆料 / 单一来源 / 无法溯源
交叉验证加分:2 个独立来源 +5 分 / 3 个以上 +10 分
维度二:时效性(满分 25 分)
- 25 分|< 6 小时
- 20 分|6–24 小时
- 12 分|1–3 天
- 5 分|3–7 天
- 0 分|> 7 天(除非是重大背景知识)
维度三:相关性(满分 25 分)
- 25 分|直接命中当前项目 / 投资方向
- 18 分|同赛道竞品动态
- 12 分|上下游产业链变化
- 8 分|宏观趋势(AI / 经济 / 政策)
- 3 分|边缘相关 / 扩展阅读
- 0 分|无关(直接过滤,不上报)
维度四:可操作性(满分 20 分)
- 20 分|直接触发决策(投 / 不投 / 跟进 / 规避)
- 12 分|需要进一步调研才能决策
- 6 分|背景了解 / 认知更新
- 2 分|纯知识,无近期行动价值
上报阈值:
- 🔴 ≥ 75 分|立即主动推送
- 🟡 60–74 分|列入每日简报
- 🔵 40–59 分|归档备查,不主动推送
- ⚫ < 40 分|直接丢弃
一票否决条款(任一成立 → 直接 0 分丢弃):
- 无法确认信源是否真实存在
- 内容本质是广告 / 软文
- 已在过去 72 小时内推送过同一事件
- 是自己的推断但标注成了事实
🧮 Analyst(内部叫数据师)——分析师
这是团队里变化最大的一个。
Analyst 的职责比较特殊——它是团队里唯一的"反对派"。 别人的活儿是把事做好,它的活儿是找别人的漏洞。Analyst 来挑逻辑毛病,Scout 推了条情报,Analyst 来问"数据来源靠谱吗"。
但之前这个角色完全没有武装。就像请了个法务顾问,但没给律师执照、没给法律数据库,怎么帮你把关?
这次加了三样:
- 质疑清单: 碰到什么信号要亮红灯(数据只有单一来源、结论跳跃太大、缺少反面证据……)
- 跨 Agent 协作触发规则: 什么情况下该主动找其他 Agent 核实(比如 Scout 推了一条重大信息,Analyst 应该自动启动交叉验证)
- 基线数据库: 常用指标的"正常范围"。有了基线才知道什么算异常——就像医生看血压,得先知道 120/80 是正常值,才能判断 140/90 是不是有问题。
数据师审核标准
在任何内容 / 推送发出之前,必须通过以下检查:
一、数据真实性校验
- 所有数字是否有明确来源?(“据说”、“大约"不通过)
- 数据是否过时?(超过 6 个月的数据需标注时效)
- 百分比是否标注了分母?(“增长 50%"——从多少到多少?)
二、逻辑一致性检查
- 结论是否从数据中直接推导?(跳跃式推论不通过)
- 是否存在"因为 A 所以 B"但 A→B 未被论证的情况?
- 对比基准是否明确?(“高于行业平均”——哪个行业?哪个时段?)
三、ROI 可行性评估
- 预期收益是否可量化?
- 成本是否被低估?(时间成本、机会成本是否计入)
- 风险项是否列出?
四、表述精准度
- 是否使用了模糊词(“可能”、“大概”、“很多”)而非具体数字?
- 结论是否可被证伪?(无法被反驳的结论没有分析价值)
判定结果:
- ✅ 全部通过 → 可发布
- ⚠️ 部分通过 → 标注存疑项后发布
- ❌ 未通过 → 打回修改
🎨 Designer(内部叫视觉师)——图片设计
AI 生成图的自检规则。现在 AI 画图很方便,但有个大忌:一看就是 AI 画的。手指多一根、文字像乱码、风格过于"塑料感”——这些会让整篇文章的专业度瞬间掉档。所以加了一条硬规则:
每张图发出前必须检查有没有典型的 AI 痕迹。
平台尺寸规范。公众号封面、知乎头图、Blog 配图,尺寸全不一样。之前每次都要临时查,现在写进经验本里了。
颜色与对比度:文字叠加区域对比度必须 ≥ 4.5:1,色彩严格遵守 60-30-10 配比,饱和度压低 15%–20% 逼出高级感。
构图与空间:画面保持 ≥ 30% 留白,主体占比 25%–40%,视觉中心落在三分法交叉点。
另外还建立了光源、转化率等 8 套标准,写进了 Designer 自己的经验本。
📚 Librarian(内部叫档案官)——文件管理
补了一份归档操作手册和文件夹结构规范。
听着不起眼,但这个角色管着所有文章的草稿、终稿、素材、参考资料。规范乱了,找东西就跟在垃圾堆里翻——有的是,就是找不到。
具体做了两件事:一是强制双向链接,任何新文件必须跟已有内容产生关联,杜绝孤立信息点;二是加了"信息保鲜期"机制,超过 90 天未更新的内容自动标记过期,调取时主动提醒不可靠。
并非一次性升级,是让积累自动发生
上面这些改动,花了大概一个下午。但真正值钱的不是这一次改动,而是改完之后建立的机制。
每个 Agent 的经验本(KNOWLEDGE.md)末尾都写了一条强制规则:
每完成一次任务,必须追加一条记录。做了什么、效果如何、踩了什么坑。
这意味着什么?
第 1 周用和第 10 周用,是完全不同的体验。第 1 周,经验本只有 5 条记录,AI 的判断基本靠出厂设置。第 10 周,经验本积累了几十条实战记录——什么标题打开率高、什么结构读者读不下去、什么类型的情报命中率最高——AI 的判断开始有"手感"了。
就像一个新厨师,第一周炒菜全靠食谱。三个月后,盐放多少不用量了,火候到了身体自己知道——菜谱没变,是手变了。
整个机制的循环是这样的:
干活 → 记录 → 下次读取 → 干得更好 → 再记录 → 再读取……
模型没有变,投喂给模型的经验使"它"发生变化。
AI 助手之间的差距,三个月后会拉开到完全不是一个物种。不是因为谁用了更贵的模型,而是因为谁在持续地喂养经验。
模型是租来的,经验是你自己的。
它会因为你的积累,变得越来越懂你。