Appearance
三层测量确保 Agent 系统质量。
20-100 个冻结任务,带已知正确答案,每次改动后跑一遍。
不只是"任务有没有完成",还要看"工具调用顺序对不对"。
评估集在 PR 上自动跑,通过率跌破阈值直接拦截。