Eval Mechanism

skill 的外部验证：用真实输入跑 skill，对比有无 skill 的输出差距。

核心思想

自查是 skill 执行时的内部静态验证，由 agent 对照清单自检。eval 机制是外部动态验证：用真实输入跑 skill，对比有无 skill 的输出差距，而不是靠感觉判断好坏。

设计 2-3 个真实用户会说的提示词，同一提示词分别跑「有 skill」和「无 skill（或旧版本）」，保留两份输出用于对比。

提示词要有足够的复杂度和具体背景——skill 的触发本身依赖 agent 对 description 的语义识别，过于简单的 prompt 可能根本不会触发 skill。

评估 → 修改 → 重跑 → 再评估，每轮聚焦有明确问题的用例，直到没有明显差距。

注意：每轮只看少数用例，容易把 skill 改成只对这几个 case 有效。改的时候要从具体反馈里抽出通用规律，而不是针对测试用例做针对性修补。

skill 内容稳定后单独优化 description，用 should-trigger / should-not-trigger 样本测试召回精度，重点关注：