看完爆火的 Anthropic 官方提示词课，我连夜做了个「提示词全局优化器」｜已开源

2026年6月4日

其实大概半年前，我就有这个需求了。那阵子我也注意到，阿里、字节这些平台都各自出了提示词优化器。但它们都得专门跑到对应的网站上去用，对我来说不够顺手。所以这回干脆借着深度复盘了 Anthropic 的 Prompt 讲座，用 Codex vibe coding 了一个全局提示词优化器。

详细介绍

这两天，Anthropic 两周前的官方讲座《The Prompting Playbook》，又小火了一把。

这场讲座来自 Anthropic 的开发者技术工坊系列 Code w/ Claude 2026 ，整个系列都很偏实践、偏开发。这一期是个实操型的 workshop，主讲的是 Anthropic 的 Apply AI 团队，从头到尾就围绕一件事：怎么写出一个能真正在生产环境里用起来的 Prompt。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

我完整看了一遍，整体确实很贴近生产场景。这一年里，专门讲「在真实业务里怎么把提示词做好」的内容很少，这一期算难得的。它也算是继去年大火的《Prompting 101》之后，又一期高质量的提示词实践教学。

整场内容我就不一句句复述了，说实话讲得比较散。核心就是他们现场演示，怎么把一个模糊的提示词，一步步改成结构清晰、能扛住真实业务的提示词。

他们重点演示的，是怎么让一个提示词具备明确的角色、任务背景、约束条件和输出格式。这几样东西对效果的提升非常明显。

这里也纠正了一个常见误解：很多人觉得提示词这东西，只是模型能力不够强时的一种取巧手段，模型一强就没用了。 但从他们的实际研究看，完全不是这样。

下面先从原理说起，顺便把这个误区讲清楚。

他们做了一组多轮测试，针对的是一个零售店的排班业务，用到两个模型：小模型 Sonnet 4.6 和大模型 Opus 4.7。围绕同一个任务，提示词一共调了五轮。

第一轮，用的是最基础的提示词加小模型 Sonnet 4.6。结果推理能力明显不够，严重违反了排班规则，测试几乎全挂。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

接下来几轮，他们继续优化提示词，模型还是那个小模型。加上一些更复杂的推理指令之后，部分测试开始通过了。但小模型的 token 上限也带来了新麻烦：有些用例还是会失败，延迟也偏高。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

到了第五轮，他们换了个思路，搭了一个「生成、评价、修复」的循环，模型依旧是小模型 Sonnet 4.6。这一次，所有测试全部通过，用掉的 token 反而更少，延迟也更低。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

同一个小模型，从全挂到全过，中间差的就是提示词和工作流。这一整期教学，我自己提炼出几个比较关键的点：

（1）始终靠系统化的评估（Evals）来验证每一次提示词的改动，凭感觉改不算数。

（2）保持提示词的「卫生」：清理冗余内容，用 XML 标签把结构区分清楚。

（3）别想着用纯指令去弥补能力上的缺口，该上外部工具就上外部工具。

（4）面对复杂任务，与其堆一个超长提示词、再做一次昂贵的大模型单次调用，不如搭一个多提示词协作的智能体工作流（Agentic Loop），往往更高效、更便宜，也更好维护。

看完之后，我把这一期的所有内容整理成了一份上下文，喂给 Codex，让它据此整理出一套可以反复复用的提示词框架，分享给大家：

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

不过整个提示词内容实在太长了，而且我觉得，光甩一份提示词出来，意义也不大。正好借这个机会，聊聊我平常用 AI 的工作流。

我日常用 AI，大致分两条路径。

一条是「重型任务」。碰到比较复杂的任务，或者需要深度获取知识的内容，我一般会用 Codex 或者 Claude Code 去做问答，或者直接 Vibe Coding。

另一条是「轻型任务」。平常那些比较急、只需要一点轻量知识、或者想立刻搜一个结果、立刻拿到一个判断的场景，我一般会用 ChatGPT。因为我用的是 Atlas 浏览器，它默认就带着 ChatGPT，顺手。

但问题就出在「轻型任务」路径。这种时候我往往嫌麻烦，不会专门去搭一个完整的提示词框架，随手就敲一句很短的话进去。结果提示词效果也确实一般，最后还得来回调好几轮。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

这里就有个挺反直觉的，我后来也注意到了：我用一句话的短提示词去赶一个急活，省下的是写提示词那几秒，但因为质量差，后面你得追加四五轮上下文，反复补充，才能勉强拿到一个像样的结果，前后可能搭进去 10 分钟。

反过来，如果我一开始就老老实实写一个结构完整、信息到位的提示词，写它花个 1 到 2 分钟，生成结果 5 分钟，总时间反而比硬刚短提示词更短。

其实大概半年前，我就有这个需求了。那阵子我也注意到，阿里、字节这些平台都各自出了提示词优化器。但它们都得专门跑到对应的网站上去用，对我来说不够顺手。所以这回干脆借着深度复盘了 Anthropic 的 Prompt 讲座，用 Codex vibe coding 了一个全局提示词优化器。

整套提示词，加上这个优化器应用，我全部打包开源到了 GitHub 上，有需要的朋友可以自己拿去用。

https://github.com/cylqwe7855-alt/prompt-optimizer

先说说这个全局提示词优化器能干什么。这几天我一直在重度用它，体感是真的方便，省了我特别多事。

它的核心逻辑很简单：在任意一个页面的输入框里写完文字，选中，按一个快捷键，它就会自动按照那套提示词框架，调用 AI 把这句短提示词迅速优化成一份完整的。

按快捷键是我体验了多条启用路径后，决定的，跟 AI 语音输入法有异曲同工之妙。非常符号日常深度使用的流程。

整体的效果也很好。

举个例子，下面这个场景（模型用的是 GPT 5.5 Thinking，入口是 ChatGPT 网页端）。

没优化的提示词，就一句话：

帮我做一个苹果企业官方风格的 Html 文件，内容为介绍下 Codex。

直接生成的效果是这样：

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

用全局优化器跑一遍，优化过程的动画和实际效果是这样：

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

整个优化过程大概 10 秒，速度上还有提升空间，但优化出来的提示词质量确实很好。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

这就回到前面 The Prompting Playbook 里最核心的那个观点了：别迷信一个面面俱到、把所有信息都塞进去的超强提示词。你真正要做的，是让 AI 该用工具就用工具，该承认自己不行就承认不行。当你把提示词交给 AI 时，还得让它清楚自己有哪些信息并不知道，缺的就去补。精华就在这一点上。

它生成出来的内容，就很贴合这个思路。最明显的，是里面会出现 task_context、input_context 这类标签，把任务背景和输入信息分得清清楚楚。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

再往后还有一块很关键，就是 constraints，也就是约束条件。还有最后那一步 quality check，意思是在输出之前，让 AI 自己再把内容检查一遍。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

说到底就一点：该让 AI 自己思考、自己调研的，就放手让它去；该信任的地方信任它，不该信任的地方，就一定要让它自己复查，并且老实承认哪些信息还不到位。

当然，这个全局优化器不止这一个功能。它背后还有一套比较完整的产品逻辑，里面很多东西都可以自定义，正好顺便说说几个使用上的小窍门。

先说形态。

它是一个 macOS 菜单栏应用，菜单栏上有个图标，点开能进设置、测试 API、查看转换状态、退出应用这些。核心流程就一条线：你在任意网页或应用的输入框里选中文本，按一下全局快捷键，应用就会读取你选中的内容（靠的是苹果系统设置里的 Accessibility 权限），然后用默认的提示词框架预设把这段文字包起来，调用你接入的 API Provider 去生成一份完整提示词，直接替换掉你原来选中的那段。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

Provider 这块需要你自己接入 API，我给分成 OpenAI 和 Anthropic 两个接口，把你的 base URL 和 API key 复制进去就行。我还专门做了一个查询模型的功能，能直接列出模型点选，省得自己手打模型名称。

我觉得对很多人来说，手打模型名这事确实有点摩擦，既然能查，那直接点选当然会更顺咯。

模型我试了很多个，综合输出速度和文本理解能力，我比较推荐 Deepseek v4 Flash：便宜、快，文本理解也够用。

试下来我的感受是，提示词这种东西并不算高价值内容，没必要上特别复杂、特别强的大模型去做。你要的就是快，同时保持一个不错的质量，这就够了。提示词再怎么偏也偏不到哪去，它是按框架优化的，不涉及任何事实性的内容。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

还有一个生成参数，我觉得挺有意思。我发现如果你把 token 量设得特别小，有时候优化出来的提示词框架本身就偏长，会被截断。所以这里需要你自己调一下，给它一个合适的 token 区间。

预设这块，我做了可以新建的多套框架，你在产品后台的默认设置里直接配就行，粘贴进去就能用。比如我一开始就建了一个 Claude Prompt Optimizer，用的就是这回 Anthropic 这期里讲到的整套框架，一键保存搞定。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

做过 vibe coding 的朋友都知道，你几乎一定得配一个日志，不然很多细小的问题根本查不到。所以这个产品里我也做了一个优化日志，每次成功还是失败、失败是什么原因，它都会记下来。后面要迭代的时候，就靠它。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

我还单独做了一个诊断功能，专门用来排查 Accessibility 权限有没有授权到位，也能顺手测一下当前 API 能不能正常调用。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

前面优化提示词的时候，大家应该也注意到了，过程里有一个阿祖的动画标志，是连续帧做的。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

做这个动画，其中一个目的就是提醒我这次优化到底跑成功没有。因为要是全程没有任何动画提示，你心里其实是没底的，会一直犯嘀咕这次到底成没成，巨 tm 让人焦虑 😅。

所以我特意加了这个阿祖的连续帧动画。这个阿祖，其实是直接照搬的我之前在 Codex 里设置的那只阿祖宠物。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源

我做的这个全局提示词优化器，目前也就是一个最基础的框架。

但就这么个基础版，已经在我日常的重度使用里帮了大忙了，而且整体并不复杂。最核心的部分，其实就是那套提示词优化模板。至于产品逻辑、使用方式、更深一层的功能，现在都还比较初级，剩下的空间，大家完全可以放开想象力自己去加。

比如我现在就会给不同场景配不同的快捷键，选中文本之后走不同的优化框架。再往下，甚至能做自定义的信息收集，单独弹出一个跳转页面，玩法真的太多了。

最后，祝大家都玩得开心～

看到这里，辛苦啦。

感谢你的阅读和「在场」！

文章来自于微信公众号 “AI Humanist by杉森楠”，作者 “AI Humanist by杉森楠”

联系方式

赞赏支持

累计赞赏 0 积分 0 人支持

登录后赞赏

💬 发表评论取消回复

要发表评论，您必须先登录。

看完爆火的 Anthropic 官方提示词课，我连夜做了个「提示词全局优化器」｜已开源

详细介绍

联系方式

赞赏支持

💬 发表评论 取消回复

💬 发表评论取消回复