PromptPilot 实操教程：这套 Prompt 手法包教包会

AI科技 2025年08月20日 11:32 0 aa

资料来源：火山引擎开发者社区 - 与云计算、AI和大数据开发者一起成长

“Prompt？谁不会写，谁不会调试，还要这个 PromptPilot 干什么？”我知道你可能有这样的疑惑。在没有接触这款产品前，说实话我也有这样的疑惑。
在深度体验了 PromptPilot 后，我觉得，我们真的把 Prompt 想简单了。
过去，我们写 Prompt，主要靠手搓+AI 优化，然后人工 roll case 来迭代，费时又费力。而这个 PromptPilot，可以帮我们快速拉起从提示词生成到调试、优化、评估和管理的全流程，非常的高效且高质量。
特别适合 AI Agent、AI 应用的系统提示词设计。
保姆级实操教程
接下来，是实操指导。借用句藏师傅的标题，本教程包会，不会退网。
0 前置工作
首先打开网站：https://promptpilot.volcengine.com
点击左下角“登录/注册”，登录账户。

登录后，订阅 PromptPilot，建议选择 Plus 版，可以一直白嫖到 9 月 11 号。

我们先来认识下 PromptPilot 的整体界面。

左侧边栏，分别是项目管理、Prompt 生成、Prompt 调试（单 case 和批量 case）、API 接入、知识库接入。
中间 chat 区，输入你的提示词需求。
比如，我们输入：“让 LLM 扮演《黑神话：悟空》里的天命人角色，和用户对话。”

它就会在右侧生成初版 Prompt，你可以直接复制使用，也可以继续优化，以及验证 Prompt。
做完了前置工作，接下来我们以一个实际工作中的例子，来给大家展示完整的 PromptPilot 使用流程。
1 生成 Prompt
比如传统工业，车间质检巡检一直是一个非常重要且高频的工作场景，现在能不能让 LLM 帮我们做自检？
我的需求是：

为了安全生产，你需要根据生产车间的图片，判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况，需要输出思考过程，判断，以及违规类别。    # 参考描述  为了安全生产，你需要根据生产车间的图片，判断生产车间是否存在违规操作设备和未佩戴安全帽的情况，需要给出违规类别。

把这段需求发给 PromptPilot，在右侧会得到一个初版提示词，有图片变量，也有输出要求（思考、判断和违规类比）。

2 优化 Prompt
通常，车间图片是一个 URL，我们需要调整这部分变量，于是选中这部分文字，点击“优化”。

输入优化意见“变量名字必须是 image_url”，再点击确认。

就会得到一个新的 Prompt。

你的任务是根据生产车间的图片，判断生产车间是否存在违规操作设备和未佩戴安全防护用具（这里主要指安全帽）的情况，并给出违规类别。  请仔细查看以下生产车间的图片：  <生产车间图片>  {{image\_url}}  </生产车间图片>  在判断时，请仔细观察图片中的每一个细节，查看是否有工人违规操作设备（如未按操作流程使用设备、在设备运行时进行危险行为等），以及是否有工人未佩戴安全帽。  首先，在<思考>标签中详细分析你的判断依据，包括你在图片中观察到的具体情况以及如何得出相应结论的过程。然后在<判断>标签中给出你的最终判断，使用"存在违规"或"未发现违规"。最后，在<违规类别>标签中详细列出具体的违规类别，如果存在多项违规，应一一列举；若未发现违规，则填写"无"。  <思考>  [在此详细说明你对图片的分析过程]  </思考>  <判断>  [在此给出"存在违规"或"未发现违规"的判断]  </判断>  <违规类别>  [在此列出具体的违规类别]  </违规类别>  请确保你的判断客观公正，且基于图片中的实际情况。

3 调试 Prompt
好，接下来我们就可以对 Prompt 进行调试了。
调试有分单 case 调试和批量 case 调试，分别有文本、视觉和多轮对话三种类型。
点击顶部的“+”号，新建调试任务，这时会出现 2 种模式让你选择：评分模式和 GSB 比较模式。

很好理解，一个是对回答进行打分来评判，一个是比较 A、B 两种回答来评判。
因为我们的任务是视觉理解，所以需要选择“视觉理解”类型。

回到 Step2，我们把得到的提示词复制到“调试 Prompt ”栏里。同时，给本次任务取一个名字，方便后面查看和对比版本。

接下来，我们要验证这个 Prompt，需要填写图片变量。点击{{image_url}}旁边的图片按钮，选择“ URL 上传”。

比如，我们在网上随便找了一张图片，复制图片 URL，填写进去。

右上角，选择一下模型，建议选择 doubao-seed-1.6-thinking，有多模态和推理能力。也可以自己接外部模型，比如 Step3、Intern-S1、o3 等。

Prompt、变量、模型都确认完后，点击“保存并生成模型回答”。

会得到一个模型回答。可以看到，模型判断准确，施工人员未违规。

就是这思考过程复杂了点，我们可以点“基于模型回答改写”。

输入要求“简化思考过程”，优化后的思考过程，果然简洁了许多。

然后，将这次调试结果添加到评测集中。

点击“ Prompt 批量”-“视觉理解”，就可以看到刚才添加的评测数据了。

你可以对这条评测集进行评分，建议采用二分制，满意就是 5 分，不满意就是 1 分，不要填 3-4 的中间分，而且最好是正负样本都有评分，这样模型才能更好的判断。
4 多 case 调试
这只是一个单 case 调试。很多时候，我们需要大量的评测集对提示词进行批量评测，这样才能调试出最优的 Prompt。
这时，你可以选择手动添加行数据，也可以选择批量上传数据集。

比如我上传已经准备好的数据集，点击“播放”按钮，就会生成模型回答，并评分。

这样就得到了批量的评测数据集，有理想回答，有模型回答，也有评分。
5 智能优化 Prompt
有了评测数据集，接下来就可以对 Prompt 进行系统优化了。
点击右上角“智能优化”，一键优化更优的 Prompt。

因为这回数据集增加了许多，所以 Prompt 优化要点时间，我们耐心等待一下。

大概 10 来分钟左右，一个深度优化后的 Prompt 就出来了。可以看到，优化后的版本比第一版要好了很多。

也可以看优化报告，看看 PromptPilot 到底在哪些地方进行了优化，

最终版的 Prompt 如下：

你的任务是根据生产车间的图片，判断生产车间是否存在违规操作设备和未佩戴安全防护用具（这里主要指安全帽）的情况，并给出违规类别。    请仔细查看以下生产车间的图片：  <生产车间图片>  {{image\_url}}  </生产车间图片>    在判断时，请仔细观察图片中的每一个细节，查看是否有工人违规操作设备（如未按操作流程使用设备、在设备运行时进行危险行为、设备使用环境是否符合规范（如设备周围是否杂乱无章影响操作等）、是否正确使用设备的安全防护功能等，例如是否存在单手不稳操作、身体过度前倾等危险姿势，尤其注意设备是否处于危险状态运行），以及是否有工人未佩戴安全帽。    首先，在<思考>标签中详细分析你的判断依据，包括你在图片中观察到的具体情况以及如何得出相应结论的过程。然后在<判断>标签中给出你的最终判断，使用"存在违规"或"未发现违规"。最后，在<违规类别>标签中详细列出具体的违规类别，如果存在多项违规，应一一列举；若未发现违规，则填写"无"。    请确保你的判断客观公正，且基于图片中的实际情况。

理论上，你还可以重复 2-5 的步骤。数据集越多，优化后的 Prompt 越好。
有了 PromptPilot，提示词从生成、调试、优化到管理，变得更加的容易和可控，再也不是那个“开局全靠 roll”的时代了。