看完爆火的 Anthropic 官方提示词课,我连夜做了个「提示词全局优化器」|已开源
其实大概半年前,我就有这个需求了。那阵子我也注意到,阿里、字节这些平台都各自出了提示词优化器。但它们都得专门跑到对应的网站上去用,对我来说不够顺手。所以这回干脆借着深度复盘了 Anthropic 的 Prompt 讲座,用 Codex vibe coding 了一个全局提示词优化器。
详细介绍
这两天,Anthropic 两周前的官方讲座《The Prompting Playbook》,又小火了一把。
这场讲座来自 Anthropic 的开发者技术工坊系列 Code w/ Claude 2026 ,整个系列都很偏实践、偏开发。这一期是个实操型的 workshop,主讲的是 Anthropic 的 Apply AI 团队,从头到尾就围绕一件事:怎么写出一个能真正在生产环境里用起来的 Prompt。

我完整看了一遍,整体确实很贴近生产场景。这一年里,专门讲「在真实业务里怎么把提示词做好」的内容很少,这一期算难得的。它也算是继去年大火的《Prompting 101》之后,又一期高质量的提示词实践教学。
整场内容我就不一句句复述了,说实话讲得比较散。核心就是他们现场演示,怎么把一个模糊的提示词,一步步改成结构清晰、能扛住真实业务的提示词。
他们重点演示的,是怎么让一个提示词具备明确的角色、任务背景、约束条件和输出格式。这几样东西对效果的提升非常明显。
这里也纠正了一个常见误解:很多人觉得提示词这东西,只是模型能力不够强时的一种取巧手段,模型一强就没用了。 但从他们的实际研究看,完全不是这样。
下面先从原理说起,顺便把这个误区讲清楚。
他们做了一组多轮测试,针对的是一个零售店的排班业务,用到两个模型:小模型 Sonnet 4.6 和大模型 Opus 4.7。围绕同一个任务,提示词一共调了五轮。
第一轮,用的是最基础的提示词加小模型 Sonnet 4.6。结果推理能力明显不够,严重违反了排班规则,测试几乎全挂。

接下来几轮,他们继续优化提示词,模型还是那个小模型。加上一些更复杂的推理指令之后,部分测试开始通过了。但小模型的 token 上限也带来了新麻烦:有些用例还是会失败,延迟也偏高。

到了第五轮,他们换了个思路,搭了一个「生成、评价、修复」的循环,模型依旧是小模型 Sonnet 4.6。这一次,所有测试全部通过,用掉的 token 反而更少,延迟也更低。

同一个小模型,从全挂到全过,中间差的就是提示词和工作流。这一整期教学,我自己提炼出几个比较关键的点:
(1)始终靠系统化的评估(Evals)来验证每一次提示词的改动,凭感觉改不算数。
(2)保持提示词的「卫生」:清理冗余内容,用 XML 标签把结构区分清楚。
(3)别想着用纯指令去弥补能力上的缺口,该上外部工具就上外部工具。
(4)面对复杂任务,与其堆一个超长提示词、再做一次昂贵的大模型单次调用,不如搭一个多提示词协作的智能体工作流(Agentic Loop),往往更高效、更便宜,也更好维护。
看完之后,我把这一期的所有内容整理成了一份上下文,喂给 Codex,让它据此整理出一套可以反复复用的提示词框架,分享给大家:

不过整个提示词内容实在太长了,而且我觉得,光甩一份提示词出来,意义也不大。正好借这个机会,聊聊我平常用 AI 的工作流。
我日常用 AI,大致分两条路径。
一条是「重型任务」。碰到比较复杂的任务,或者需要深度获取知识的内容,我一般会用 Codex 或者 Claude Code 去做问答,或者直接 Vibe Coding。
另一条是「轻型任务」。平常那些比较急、只需要一点轻量知识、或者想立刻搜一个结果、立刻拿到一个判断的场景,我一般会用 ChatGPT。因为我用的是 Atlas 浏览器,它默认就带着 ChatGPT,顺手。
但问题就出在「轻型任务」路径。这种时候我往往嫌麻烦,不会专门去搭一个完整的提示词框架,随手就敲一句很短的话进去。结果提示词效果也确实一般,最后还得来回调好几轮。

这里就有个挺反直觉的,我后来也注意到了:我用一句话的短提示词去赶一个急活,省下的是写提示词那几秒,但因为质量差,后面你得追加四五轮上下文,反复补充,才能勉强拿到一个像样的结果,前后可能搭进去 10 分钟。
反过来,如果我一开始就老老实实写一个结构完整、信息到位的提示词,写它花个 1 到 2 分钟,生成结果 5 分钟,总时间反而比硬刚短提示词更短。
其实大概半年前,我就有这个需求了。那阵子我也注意到,阿里、字节这些平台都各自出了提示词优化器。但它们都得专门跑到对应的网站上去用,对我来说不够顺手。所以这回干脆借着深度复盘了 Anthropic 的 Prompt 讲座,用 Codex vibe coding 了一个全局提示词优化器。
整套提示词,加上这个优化器应用,我全部打包开源到了 GitHub 上,有需要的朋友可以自己拿去用。
https://github.com/cylqwe7855-alt/prompt-optimizer
先说说这个全局提示词优化器能干什么。这几天我一直在重度用它,体感是真的方便,省了我特别多事。
它的核心逻辑很简单:在任意一个页面的输入框里写完文字,选中,按一个快捷键,它就会自动按照那套提示词框架,调用 AI 把这句短提示词迅速优化成一份完整的。
按快捷键是我体验了多条启用路径后,决定的,跟 AI 语音输入法有异曲同工之妙。非常符号日常深度使用的流程。
整体的效果也很好。
举个例子,下面这个场景(模型用的是 GPT 5.5 Thinking,入口是 ChatGPT 网页端)。
没优化的提示词,就一句话:
帮我做一个苹果企业官方风格的 Html 文件,内容为介绍下 Codex。
直接生成的效果是这样:

用全局优化器跑一遍,优化过程的动画和实际效果是这样:

整个优化过程大概 10 秒,速度上还有提升空间,但优化出来的提示词质量确实很好。

这就回到前面 The Prompting Playbook 里最核心的那个观点了:别迷信一个面面俱到、把所有信息都塞进去的超强提示词。你真正要做的,是让 AI 该用工具就用工具,该承认自己不行就承认不行。当你把提示词交给 AI 时,还得让它清楚自己有哪些信息并不知道,缺的就去补。精华就在这一点上。
它生成出来的内容,就很贴合这个思路。最明显的,是里面会出现 task_context、input_context 这类标签,把任务背景和输入信息分得清清楚楚。

再往后还有一块很关键,就是 constraints,也就是约束条件。还有最后那一步 quality check,意思是在输出之前,让 AI 自己再把内容检查一遍。

说到底就一点:该让 AI 自己思考、自己调研的,就放手让它去;该信任的地方信任它,不该信任的地方,就一定要让它自己复查,并且老实承认哪些信息还不到位。
当然,这个全局优化器不止这一个功能。它背后还有一套比较完整的产品逻辑,里面很多东西都可以自定义,正好顺便说说几个使用上的小窍门。
先说形态。
它是一个 macOS 菜单栏应用,菜单栏上有个图标,点开能进设置、测试 API、查看转换状态、退出应用这些。核心流程就一条线:你在任意网页或应用的输入框里选中文本,按一下全局快捷键,应用就会读取你选中的内容(靠的是苹果系统设置里的 Accessibility 权限),然后用默认的提示词框架预设把这段文字包起来,调用你接入的 API Provider 去生成一份完整提示词,直接替换掉你原来选中的那段。

Provider 这块需要你自己接入 API,我给分成 OpenAI 和 Anthropic 两个接口,把你的 base URL 和 API key 复制进去就行。我还专门做了一个查询模型的功能,能直接列出模型点选,省得自己手打模型名称。
我觉得对很多人来说,手打模型名这事确实有点摩擦,既然能查,那直接点选当然会更顺咯。
模型我试了很多个,综合输出速度和文本理解能力,我比较推荐 Deepseek v4 Flash:便宜、快,文本理解也够用。
试下来我的感受是,提示词这种东西并不算高价值内容,没必要上特别复杂、特别强的大模型去做。你要的就是快,同时保持一个不错的质量,这就够了。提示词再怎么偏也偏不到哪去,它是按框架优化的,不涉及任何事实性的内容。

还有一个生成参数,我觉得挺有意思。我发现如果你把 token 量设得特别小,有时候优化出来的提示词框架本身就偏长,会被截断。所以这里需要你自己调一下,给它一个合适的 token 区间。
预设这块,我做了可以新建的多套框架,你在产品后台的默认设置里直接配就行,粘贴进去就能用。比如我一开始就建了一个 Claude Prompt Optimizer,用的就是这回 Anthropic 这期里讲到的整套框架,一键保存搞定。

做过 vibe coding 的朋友都知道,你几乎一定得配一个日志,不然很多细小的问题根本查不到。所以这个产品里我也做了一个优化日志,每次成功还是失败、失败是什么原因,它都会记下来。后面要迭代的时候,就靠它。

我还单独做了一个诊断功能,专门用来排查 Accessibility 权限有没有授权到位,也能顺手测一下当前 API 能不能正常调用。

前面优化提示词的时候,大家应该也注意到了,过程里有一个阿祖的动画标志,是连续帧做的。

做这个动画,其中一个目的就是提醒我这次优化到底跑成功没有。因为要是全程没有任何动画提示,你心里其实是没底的,会一直犯嘀咕这次到底成没成,巨 tm 让人焦虑 😅。
所以我特意加了这个阿祖的连续帧动画。这个阿祖,其实是直接照搬的我之前在 Codex 里设置的那只阿祖宠物。

我做的这个全局提示词优化器,目前也就是一个最基础的框架。
但就这么个基础版,已经在我日常的重度使用里帮了大忙了,而且整体并不复杂。最核心的部分,其实就是那套提示词优化模板。至于产品逻辑、使用方式、更深一层的功能,现在都还比较初级,剩下的空间,大家完全可以放开想象力自己去加。
比如我现在就会给不同场景配不同的快捷键,选中文本之后走不同的优化框架。再往下,甚至能做自定义的信息收集,单独弹出一个跳转页面,玩法真的太多了。
最后,祝大家都玩得开心~
看到这里,辛苦啦。
感谢你的阅读和「在场」!
文章来自于微信公众号 “AI Humanist by杉森楠”,作者 “AI Humanist by杉森楠”
