你的Codex一个任务能跑多久?
前几天我们讨论过一个观点:自从2026年Q2起,未来人类所谓的“编程工作”其实比拼的是「谁能一次性把“什么叫完成”定义清楚」
详细介绍
哈喽,大家好,我是刘小排。
前几天我们讨论过一个观点:自从2026年Q2起,未来人类所谓的“编程工作”其实比拼的是「谁能一次性把“什么叫完成”定义清楚」
“定义清楚”是什么感觉呢?
就是,当你写完需求文档和验收标准后(可能要花几小时,甚至几天),你就能Codex自己执行、自己优化、直到完成全部验收标准。当它宣布“完成”的时候,你进行验收,发现完完全全就是你想要的。
例如, 我一个正在进行的任务,已经跑了22小时了,我估计还需要20小时左右。
如果想知道22小时到底在干啥,文末有更多截图。

我们继续。
写到这里,我发现,所谓“定义清楚”,并没有那么容易,
它至少应该包括:
- 底层逻辑的拆解 你不仅是在描述一个功能,更是在定义数据流转的确定性。
- 技术边界与异常路径的闭环 你要预判技术实现时的物理极限。如果你不懂网络协议的重试机制,或者不懂内存管理的泄漏风险,你根本无法定义“系统在极端弱网下的鲁棒性”具体指什么。
- 性能与成本的硬约束定义 只有当你懂技术实现的轻重缓急,才能在定义中写明:是在毫秒级响应下追求极致性能,还是在有限资源下寻找平衡点。
- 验证逻辑的可复现性标准 定义“完成”最难的部分是定义“如何证明它完成了”。如果你不懂单元测试、集成测试或压力测试的技术底座,你给出的验收标准就会是模糊的“感觉好用”。你必须懂什么叫接口的幂等性,什么叫原子化操作,才能在定义中给出AI无法回避、且必须硬性达标的验证指标。
- 语义歧义的技术消融 很多时候你觉得说清楚了,其实只是在用文学修辞替代技术语言。真正的清晰是基于技术概念的共识。如果你不懂什么是解耦、什么是异步、什么是序列化,你描述的需求就会充满逻辑漏洞。
- 人性与心理,“体验直觉” 只有当你懂心理学原理,才能在定义中写清楚:什么叫“流畅的交互体验”,什么叫“克制的广告展示”。如果你自己不懂美的标准和人性弱点,你给出的验收标准就会极其生硬,导致AI交付的产品虽然“能用”,但却“难用”。
- 商业价值的“北极星”锚定。 AI能够高效执行任务,但它并不理解“为什么要赚钱”或“为什么要省钱”。定义清楚意味着你必须洞悉业务的底层盈利模式或核心增长引擎。
- 组织语境下的“共识边界” 在一个复杂的系统里,任何任务都不是孤立存在的。
- ……
列表可以还可以继续扩展下去。
我想表达是:虽然AI看上去无所不能,但是互联网企业在过去二十年总结出来的做产品的流程、技术架构、方法论、组织和协同、内功,从来都没有变过。
可怕的是,很多人并不了解这一点。他们只会抱怨:
“AI太笨了”
“我明明说清楚了,AI就是做不出来”
“我都说了一万次了”
“为什么还是很丑?”
……
在AI时代,最可怕是你“不知道自己不知道”。
当你懂得原理时,你的定义就是一个严密的契约,每一个约束项都是基于物理现实和逻辑推演的;
当你不懂原理时,你的定义就是一张概率性的彩票,你只能祈祷AI的随机采样刚好落在了你想要的那个区间,你只是在“许愿”(俗称“抽卡”)。
因此,我想邀请你参与这个小游戏,也许可以用于自测「 能一次性把“什么叫完成”定义清楚 」的能力 ——
试试看,你能让Codex在一个任务里跑多久、并且一次性出来的正好就是你想要的?
在最开始展示的截图里,为什么我的Codex能够连续干活几十个小时?
因为它在根据我们预先确定的标准,不断测试、评估、改进自己的的工作,周而复始,不达目标不罢休。
下面是其中一部分的过程截图,Codex正在把某个指标从原始的46分提升到了100分。


欢迎参与比赛!
请在评论区贴出来图:你的Codex一个任务跑了多久? (前提:出来的东西正好是你想要的)
文章来自于”刘小排r”,作者 “刘小排r”。
