OpenClaw团队有岗位没手艺?用了2个月的升级方案

情报官 Scout 推了一条消息: “OpenAI 发布了 GPT-5.4,在多个基准测试中刷新纪录,支持百万级上下文窗口。” 但看完之后只有一个感觉:然后呢? 这条消息对今天的工作有什么影响?该做什么调整?还是只需要知道就行?——全没说。 就像公司前台每天收了一堆快递,整整齐齐码在桌上,但你分不清哪个是快递件、哪个是广告传单。收快递工作是做了,但分拣的活儿完全没做。 不只是 Scout。检查了所有 AI 助手(OpenClaw 叫"Agent"——简单理解就是各有分工的 AI 员工),发现了一个共同的问题: 它们都能干活,但都不会判断。 体检报告:集体缺了同一样东西 翻了一圈每个 Agent 的配置文件,发现三个共性问题: 第一,没有"经验记录"。 大部分 Agent 只有一份"岗位说明书"(角色定义),告诉它你是谁、该干什么。但没有一份积累下来的"经验手册"——过去做过什么、踩过什么坑、什么方法验证过好使。就像招了个新员工,只给了一份 JD(岗位描述),但没有岗位指导。每次开工都是从零开始。 第二,没有自我升级机制。 干完活就完了,做得好没有记录,做得差也没有复盘。下次接到任务还是用上次的"出厂设置"来干。就像一个厨师,每天做菜但从不尝自己的味道,也不记菜谱,做了一百道红烧肉,水平跟第一次一样。 第三,角色有了,判断力没有。 知道自己是"情报官"、“数据师”,但不知道在自己的领域里,什么是好、什么是差、遇到拿不准的情况该不该停下来问人。 归结为一句话:这些 AI 员工有岗位,但没有手艺。 什么最重要? 找到问题后,不能一把梭全改。得分轻重。 AI 助手的能力也分三层,越往下越重要: 第一层(地基):边界意识——知道什么时候该停下来问人。 这是最基本也最关键的能力。一个 AI 助手如果不知道自己能力的边界,那它越能干越危险。就像一个新司机,技术还行但不知道什么路况该减速——出事都是在"自以为能处理"的时候。 具体怎么做的?给负责挑错的角色设了一份"质疑清单":碰到哪类情况必须暂停?哪些数据必须交叉验证?什么时候该喊停说"这个结论不够靠谱,需要人来看一眼"? 第二层(墙体):意义翻译——不只搬运信息,要翻译信息。 这就是 Scout 那条消息的问题,它搬运了一个事实,但没有翻译这个事实对"咱们"意味着什么。 搬运谁都会,翻译才是真本事。 给 Scout 加了一个"三连问"规则——每条情报发出前必须回答三个问题: 这件事跟咱们有什么关系?(不相关的不发) 需要做什么反应?(要行动还是只需要知道) 如果只能说一句话,说哪句?(逼出核心判断) 加了这三个问题之后,推出来的情报从"废话"变成了"有用的判断"。 看一下对比: 加规则之前:“OpenAI 发布 GPT-5.4,支持百万级上下文窗口,多项基准测试创新高。” 加规则之后:“OpenAI 发了 GPT-5.4。跟咱们有关的是:百万级上下文意味着以后喂整本书给 AI 不用切片了,Librarian 的文档整理流程可能要改。建议这周测试一下新模型在长文档场景的实际表现。” 前者是快递员送到门口就走了。后者是帮你拆开、看了一眼、告诉你这个包裹重要还是不重要。 信息从搬运升级到翻译,这一层解决了。 第三层(装修):领域纵深——在自己负责的事上有真正的判断力。 这一层最花时间,但也是差距最大的地方。就像一个写了十年的编辑和一个刚入行的编辑,基本功都会,但老编辑看一眼标题就知道能不能火——这种判断力不是教出来的,是从几百次成功和失败里攒出来的。 怎么让 AI 也攒出来?靠一个文件:KNOWLEDGE.md——每个 Agent 自己的"专属经验本"。 ...

March 14, 2026 · 2 min · 成诺

我让 AI「审判」了上个月的账单,结果被骂哭了

深夜十一点半,银行 App 弹出一条推送: “您2月账单已出,本期消费 ¥12,847.63。” 盯着这个数字看了三秒,第一反应不是心疼,而是困惑—— 钱呢?花哪了?月初明明发了工资,月中就开始吃土,月底连煎饼果子加个蛋都要犹豫。一万两千块,悄无声息地蒸发了,像从来没存在过一样。 打开账单明细想复盘一下。往下一划—— 星巴克 ¥38 星巴克 ¥42 星巴克 ¥38 瑞幸 ¥9.9 星巴克 ¥38 …… 好家伙。合着这个月对星巴克的忠诚度,比对上一段感情还高。 关掉 App。算了,不看了。看了也是白看,看完也不会改,下个月还是照样花。 这种"月底账单PTSD",应该不只一个人有吧? 记账App解决不了的问题 市面上记账 App 少说有上百个。随便打开应用商店一搜,花花绿绿的图标排了好几屏。 但说句实话——记账这件事,从来不缺工具,缺的是动力。 那些 App 的问题不是不好用。恰恰相反,它们太"好用"了:每一笔手动输入,分类标签精确到小数点,月报图表漂漂亮亮。 然后呢? 然后就没有然后了。 数据躺在那里,理性地、安静地、毫无感情地告诉你:这个月超支了。 嗯,知道了。 然后该花还是花。 问题的根源其实很简单:数据不扎心,就不会改行为。 减肥的人不是不知道炸鸡热量高,是没有一个人站在旁边,在点单的瞬间用嫌弃的眼神看着说:“就这?又来?上礼拜不是刚发过誓?” 账单也一样。缺的不是一个记录者,而是一个毒舌损友——那种会翻着白眼帮你把账单从头到尾损一遍的角色。 ReceiptRoast:账单烧烤 所以有人做了一个东西,叫 ReceiptRoast。 翻译过来就是"账单烧烤"——把每一笔消费架到火上烤一烤。 用法极其简单:拍一张账单截图,扔进去。 OCR 自动识别每一笔消费,然后一个"AI 毒舌股评家"会像点评 A 股散户操作一样,逐条审判你的消费记录。 什么意思?举个例子: 🔥 审判席 · 2月消费速评 星巴克 × 14笔 ¥532 “这不是咖啡成瘾,这是对瑞幸9块9的选择性失明。14杯星巴克的钱够买一台全自动咖啡机了。建议主动投案自首。” 某奶茶品牌 × 8笔 ¥224 “连续8次下单同一款芋泥波波,口味稳定得像定投基金。遗憾的是,基金至少还有年化收益。” 外卖平台 ¥2,180 “恭喜,如果外卖消费能计入GDP,已经以一己之力拉动了区域经济。建议颁发’骑手之友’荣誉称号。” 盲盒 × 3笔 ¥297 “经典的沉没成本谬误。前两个没抽中,第三个就一定能中?这种逻辑在A股叫’补仓’,结局你懂的。” ...

March 10, 2026 · 1 min · 成诺

结构化输出:省掉70%的人工整理时间(以及它不适合的场景)

有一件事,大多数人用AI从来没想过—— 让AI帮你想,然后让机器替你做剩下的。 通常的用法是:问AI一个问题,AI回一大段话,你再从里面找你要的信息,复制粘贴,整理归档。 这个"整理归档"的环节,就是浪费的那70%时间。 问题出在哪里 AI输出的是自然语言。自然语言是给人读的,不是给程序处理的。 比如让AI每天推荐3个选题: 今天有几个不错的方向可以考虑。第一个是关于AI工具链的整合,最近这个话题在Twitter上热度很高……第二个方向是关于…… 然后你要把这段话拆成三条,分别记录标题、热度、理由。 如果是偶尔一次,没问题。 如果是每天自动跑,每次都要人工处理——自动化就是个笑话。 解决方案:Schema优先 做一件事:在给AI的指令里,提前定好输出格式。 不是说"帮我整理成列表",是说"按照这个JSON结构输出,不要输出其他任何内容"。 搜 不 只 { } 索 包 输 今 含 出 " " ] " 日 m 一 d i , t A a 个 a t { } o I r 合 t e p 领 k 法 e m " " " " _ 域 d 的 " s t s s r p 热 o J : " i o u e i 点 w S : t u m l c , n O " l r m e k 按 代 N Y [ e c a v " 以 码 对 Y " e r a : 下 块 象 Y : " y n J , : Y : " c " S 不 - " : e 今 O 包 M 话 " " 日 N 含 M 题 来 " : 最 格 任 - 标 源 一 值 式 何 D 题 平 句 1 得 输 说 D " 台 话 到 关 出 明 " , " 摘 5 注 , 文 , , 要 的 的 字 " 评 一 , , 分 条 " AI的输出会是这样: ...

March 10, 2026 · 4 min · 成诺

别解释了,点亮「他」

跟身边的人聊 AI 智能体,聊自动化工作流,聊"一个人就是一支队伍"。 对方的反应通常是: “哦,挺厉害的。” 然后,没有然后了。 不是他们不聪明,不是他们不想进步。 是因为没被电到。 1893年,芝加哥世博会。电流之战。 爱迪生的直流电已经占领了市场。特斯拉的交流电被贴上"电击致死"的标签。 特斯拉团队试过解释原理、发论文、办讲座——全部失败。 直到那一天,西屋电气在尼亚加拉大瀑布接上交流电,传输到250公里外的世博会。 一个开关。25万盏灯,同时亮了。 所有的偏见、恐惧、质疑,在那片光亮面前,全部崩塌。 特斯拉没有赢在"解释"上。他赢在"让你看见"上。 说服别人,从来不是嘴皮子的事。 别解释原理,让他看见光亮。 不需要成为布道者。只需要在对的时刻,按下那个开关。

March 5, 2026 · 1 min · 成诺