普通人用AI | 知行社

OpenClaw团队有岗位没手艺？用了2个月的升级方案

情报官 Scout 推了一条消息： “OpenAI 发布了 GPT-5.4，在多个基准测试中刷新纪录，支持百万级上下文窗口。” 但看完之后只有一个感觉：然后呢？这条消息对今天的工作有什么影响？该做什么调整？还是只需要知道就行？——全没说。就像公司前台每天收了一堆快递，整整齐齐码在桌上，但你分不清哪个是快递件、哪个是广告传单。收快递工作是做了，但分拣的活儿完全没做。不只是 Scout。检查了所有 AI 助手（OpenClaw 叫"Agent"——简单理解就是各有分工的 AI 员工），发现了一个共同的问题：它们都能干活，但都不会判断。体检报告：集体缺了同一样东西翻了一圈每个 Agent 的配置文件，发现三个共性问题：第一，没有"经验记录"。大部分 Agent 只有一份"岗位说明书"（角色定义），告诉它你是谁、该干什么。但没有一份积累下来的"经验手册"——过去做过什么、踩过什么坑、什么方法验证过好使。就像招了个新员工，只给了一份 JD（岗位描述），但没有岗位指导。每次开工都是从零开始。第二，没有自我升级机制。干完活就完了，做得好没有记录，做得差也没有复盘。下次接到任务还是用上次的"出厂设置"来干。就像一个厨师，每天做菜但从不尝自己的味道，也不记菜谱，做了一百道红烧肉，水平跟第一次一样。第三，角色有了，判断力没有。知道自己是"情报官"、“数据师”，但不知道在自己的领域里，什么是好、什么是差、遇到拿不准的情况该不该停下来问人。归结为一句话：这些 AI 员工有岗位，但没有手艺。什么最重要？找到问题后，不能一把梭全改。得分轻重。 AI 助手的能力也分三层，越往下越重要：第一层（地基）：边界意识——知道什么时候该停下来问人。这是最基本也最关键的能力。一个 AI 助手如果不知道自己能力的边界，那它越能干越危险。就像一个新司机，技术还行但不知道什么路况该减速——出事都是在"自以为能处理"的时候。具体怎么做的？给负责挑错的角色设了一份"质疑清单"：碰到哪类情况必须暂停？哪些数据必须交叉验证？什么时候该喊停说"这个结论不够靠谱，需要人来看一眼"？第二层（墙体）：意义翻译——不只搬运信息，要翻译信息。这就是 Scout 那条消息的问题，它搬运了一个事实，但没有翻译这个事实对"咱们"意味着什么。搬运谁都会，翻译才是真本事。给 Scout 加了一个"三连问"规则——每条情报发出前必须回答三个问题：这件事跟咱们有什么关系？（不相关的不发）需要做什么反应？（要行动还是只需要知道）如果只能说一句话，说哪句？（逼出核心判断）加了这三个问题之后，推出来的情报从"废话"变成了"有用的判断"。看一下对比：加规则之前：“OpenAI 发布 GPT-5.4，支持百万级上下文窗口，多项基准测试创新高。” 加规则之后：“OpenAI 发了 GPT-5.4。跟咱们有关的是：百万级上下文意味着以后喂整本书给 AI 不用切片了，Librarian 的文档整理流程可能要改。建议这周测试一下新模型在长文档场景的实际表现。” 前者是快递员送到门口就走了。后者是帮你拆开、看了一眼、告诉你这个包裹重要还是不重要。信息从搬运升级到翻译，这一层解决了。第三层（装修）：领域纵深——在自己负责的事上有真正的判断力。这一层最花时间，但也是差距最大的地方。就像一个写了十年的编辑和一个刚入行的编辑，基本功都会，但老编辑看一眼标题就知道能不能火——这种判断力不是教出来的，是从几百次成功和失败里攒出来的。怎么让 AI 也攒出来？靠一个文件：KNOWLEDGE.md——每个 Agent 自己的"专属经验本"。 ...

我让 AI「审判」了上个月的账单，结果被骂哭了

深夜十一点半，银行 App 弹出一条推送： “您2月账单已出，本期消费 ¥12,847.63。” 盯着这个数字看了三秒，第一反应不是心疼，而是困惑—— 钱呢？花哪了？月初明明发了工资，月中就开始吃土，月底连煎饼果子加个蛋都要犹豫。一万两千块，悄无声息地蒸发了，像从来没存在过一样。打开账单明细想复盘一下。往下一划—— 星巴克 ¥38 星巴克 ¥42 星巴克 ¥38 瑞幸 ¥9.9 星巴克 ¥38 …… 好家伙。合着这个月对星巴克的忠诚度，比对上一段感情还高。关掉 App。算了，不看了。看了也是白看，看完也不会改，下个月还是照样花。这种"月底账单PTSD"，应该不只一个人有吧？记账App解决不了的问题市面上记账 App 少说有上百个。随便打开应用商店一搜，花花绿绿的图标排了好几屏。但说句实话——记账这件事，从来不缺工具，缺的是动力。那些 App 的问题不是不好用。恰恰相反，它们太"好用"了：每一笔手动输入，分类标签精确到小数点，月报图表漂漂亮亮。然后呢？然后就没有然后了。数据躺在那里，理性地、安静地、毫无感情地告诉你：这个月超支了。嗯，知道了。然后该花还是花。问题的根源其实很简单：数据不扎心，就不会改行为。减肥的人不是不知道炸鸡热量高，是没有一个人站在旁边，在点单的瞬间用嫌弃的眼神看着说：“就这？又来？上礼拜不是刚发过誓？” 账单也一样。缺的不是一个记录者，而是一个毒舌损友——那种会翻着白眼帮你把账单从头到尾损一遍的角色。 ReceiptRoast：账单烧烤所以有人做了一个东西，叫 ReceiptRoast。翻译过来就是"账单烧烤"——把每一笔消费架到火上烤一烤。用法极其简单：拍一张账单截图，扔进去。 OCR 自动识别每一笔消费，然后一个"AI 毒舌股评家"会像点评 A 股散户操作一样，逐条审判你的消费记录。什么意思？举个例子： 🔥 审判席 · 2月消费速评星巴克 × 14笔 ¥532 “这不是咖啡成瘾，这是对瑞幸9块9的选择性失明。14杯星巴克的钱够买一台全自动咖啡机了。建议主动投案自首。” 某奶茶品牌 × 8笔 ¥224 “连续8次下单同一款芋泥波波，口味稳定得像定投基金。遗憾的是，基金至少还有年化收益。” 外卖平台 ¥2,180 “恭喜，如果外卖消费能计入GDP，已经以一己之力拉动了区域经济。建议颁发’骑手之友’荣誉称号。” 盲盒 × 3笔 ¥297 “经典的沉没成本谬误。前两个没抽中，第三个就一定能中？这种逻辑在A股叫’补仓’，结局你懂的。” ...

结构化输出：省掉70%的人工整理时间（以及它不适合的场景）

有一件事，大多数人用AI从来没想过—— 让AI帮你想，然后让机器替你做剩下的。通常的用法是：问AI一个问题，AI回一大段话，你再从里面找你要的信息，复制粘贴，整理归档。这个"整理归档"的环节，就是浪费的那70%时间。问题出在哪里 AI输出的是自然语言。自然语言是给人读的，不是给程序处理的。比如让AI每天推荐3个选题：今天有几个不错的方向可以考虑。第一个是关于AI工具链的整合，最近这个话题在Twitter上热度很高……第二个方向是关于…… 然后你要把这段话拆成三条，分别记录标题、热度、理由。如果是偶尔一次，没问题。如果是每天自动跑，每次都要人工处理——自动化就是个笑话。解决方案：Schema优先做一件事：在给AI的指令里，提前定好输出格式。不是说"帮我整理成列表"，是说"按照这个JSON结构输出，不要输出其他任何内容"。搜不只 { } 索包输今含出 " " ] " 日 m 一 d i , t A a 个 a t { } o I r 合 t e p 领 k 法 e m " " " " _ 域 d 的 " s t s s r p 热 o J : " i o u e i 点 w S : t u m l c ， n O " l r m e k 按代 N Y [ e c a v " 以码对 Y " e r a : 下块象 Y : " y n J ，： Y : " c " S 不 - " : e 今 O 包 M 话 " " 日 N 含 M 题来 " : 最格任 - 标源一值式何 D 题平句 1 得输说 D " 台话到关出明 " , " 摘 5 注，文 , , 要的的字 " 评一， , 分条 " AI的输出会是这样： ...

别解释了，点亮「他」

跟身边的人聊 AI 智能体，聊自动化工作流，聊"一个人就是一支队伍"。对方的反应通常是： “哦，挺厉害的。” 然后，没有然后了。不是他们不聪明，不是他们不想进步。是因为没被电到。 1893年，芝加哥世博会。电流之战。爱迪生的直流电已经占领了市场。特斯拉的交流电被贴上"电击致死"的标签。特斯拉团队试过解释原理、发论文、办讲座——全部失败。直到那一天，西屋电气在尼亚加拉大瀑布接上交流电，传输到250公里外的世博会。一个开关。25万盏灯，同时亮了。所有的偏见、恐惧、质疑，在那片光亮面前，全部崩塌。特斯拉没有赢在"解释"上。他赢在"让你看见"上。说服别人，从来不是嘴皮子的事。别解释原理，让他看见光亮。不需要成为布道者。只需要在对的时刻，按下那个开关。