Agent | 知行社

情报官 Scout 推了一条消息： “OpenAI 发布了 GPT-5.4，在多个基准测试中刷新纪录，支持百万级上下文窗口。” 但看完之后只有一个感觉：然后呢？这条消息对今天的工作有什么影响？该做什么调整？还是只需要知道就行？——全没说。就像公司前台每天收了一堆快递，整整齐齐码在桌上，但你分不清哪个是快递件、哪个是广告传单。收快递工作是做了，但分拣的活儿完全没做。不只是 Scout。检查了所有 AI 助手（OpenClaw 叫"Agent"——简单理解就是各有分工的 AI 员工），发现了一个共同的问题：它们都能干活，但都不会判断。体检报告：集体缺了同一样东西翻了一圈每个 Agent 的配置文件，发现三个共性问题：第一，没有"经验记录"。大部分 Agent 只有一份"岗位说明书"（角色定义），告诉它你是谁、该干什么。但没有一份积累下来的"经验手册"——过去做过什么、踩过什么坑、什么方法验证过好使。就像招了个新员工，只给了一份 JD（岗位描述），但没有岗位指导。每次开工都是从零开始。第二，没有自我升级机制。干完活就完了，做得好没有记录，做得差也没有复盘。下次接到任务还是用上次的"出厂设置"来干。就像一个厨师，每天做菜但从不尝自己的味道，也不记菜谱，做了一百道红烧肉，水平跟第一次一样。第三，角色有了，判断力没有。知道自己是"情报官"、“数据师”，但不知道在自己的领域里，什么是好、什么是差、遇到拿不准的情况该不该停下来问人。归结为一句话：这些 AI 员工有岗位，但没有手艺。什么最重要？找到问题后，不能一把梭全改。得分轻重。 AI 助手的能力也分三层，越往下越重要：第一层（地基）：边界意识——知道什么时候该停下来问人。这是最基本也最关键的能力。一个 AI 助手如果不知道自己能力的边界，那它越能干越危险。就像一个新司机，技术还行但不知道什么路况该减速——出事都是在"自以为能处理"的时候。具体怎么做的？给负责挑错的角色设了一份"质疑清单"：碰到哪类情况必须暂停？哪些数据必须交叉验证？什么时候该喊停说"这个结论不够靠谱，需要人来看一眼"？第二层（墙体）：意义翻译——不只搬运信息，要翻译信息。这就是 Scout 那条消息的问题，它搬运了一个事实，但没有翻译这个事实对"咱们"意味着什么。搬运谁都会，翻译才是真本事。给 Scout 加了一个"三连问"规则——每条情报发出前必须回答三个问题：这件事跟咱们有什么关系？（不相关的不发）需要做什么反应？（要行动还是只需要知道）如果只能说一句话，说哪句？（逼出核心判断）加了这三个问题之后，推出来的情报从"废话"变成了"有用的判断"。看一下对比：加规则之前：“OpenAI 发布 GPT-5.4，支持百万级上下文窗口，多项基准测试创新高。” 加规则之后：“OpenAI 发了 GPT-5.4。跟咱们有关的是：百万级上下文意味着以后喂整本书给 AI 不用切片了，Librarian 的文档整理流程可能要改。建议这周测试一下新模型在长文档场景的实际表现。” 前者是快递员送到门口就走了。后者是帮你拆开、看了一眼、告诉你这个包裹重要还是不重要。信息从搬运升级到翻译，这一层解决了。第三层（装修）：领域纵深——在自己负责的事上有真正的判断力。这一层最花时间，但也是差距最大的地方。就像一个写了十年的编辑和一个刚入行的编辑，基本功都会，但老编辑看一眼标题就知道能不能火——这种判断力不是教出来的，是从几百次成功和失败里攒出来的。怎么让 AI 也攒出来？靠一个文件：KNOWLEDGE.md——每个 Agent 自己的"专属经验本"。 ...