Eval Mechanism
skill 的外部验证:用真实输入跑 skill,对比有无 skill 的输出差距。
核心思想
自查是 skill 执行时的内部静态验证,由 agent 对照清单自检。eval 机制是外部动态验证:用真实输入跑 skill,对比有无 skill 的输出差距,而不是靠感觉判断好坏。
四个环节
1. 测试用例
设计 2-3 个真实用户会说的提示词,同一提示词分别跑「有 skill」和「无 skill(或旧版本)」,保留两份输出用于对比。
提示词要有足够的复杂度和具体背景——skill 的触发本身依赖 agent 对 description 的语义识别,过于简单的 prompt 可能根本不会触发 skill。
2. 断言
- 客观标准:有客观标准的 skill 设计可验证检查项(如"输出文件是否包含字段 X")
- 主观类:基于人工反馈
3. 迭代循环
评估 → 修改 → 重跑 → 再评估,每轮聚焦有明确问题的用例,直到没有明显差距。
注意:每轮只看少数用例,容易把 skill 改成只对这几个 case 有效。改的时候要从具体反馈里抽出通用规律,而不是针对测试用例做针对性修补。
4. description 触发率优化
skill 内容稳定后单独优化 description,用 should-trigger / should-not-trigger 样本测试召回精度,重点关注:
- "近似场景误触发"
- "该触发却未触发"
与自查的区别
- 自查:运行时护栏,agent 执行后自检
- eval:开发期的标准线,离线评估 skill 效果