核心亮点

通过修改部分提示词内容来提升 Agent 编程性能。

核心流程:

  1. 将数据集划分为训练集和测试集
  2. 在训练集上运行 Agent 得到结果,使用单元测试验证结果准确性,得分分为 0 或 1
  3. 针对每个错误的结果,使用 LLM 评估结果,得到详细的错误分析内容
  4. 根据错误分析,使用元提示来迭代优化提示词
  5. 在测试集上使用优化后的提示词来运行
  6. 重复以上流程,直到达到停止迭代的条件

数据集划分时可按照 git 仓库划分,也可按照待解决的问题来划分,两种划分方式分别能体现不同层面的效果

元提示(Meta Prompt)

  • 如果在测试集上效果劣化了,该如何处理?
  • 不同轮次迭代中,数据集划分是一样的还是不同的?
  • meta prompt 是什么?为什么有效?

其它

相关链接: