Core Judgment
完整 ≠ 有用
流畅 ≠ 可信
生成 ≠ 交付
把 AI 当作初稿生成器,把自己训练成主编。审查不是最后一步,而是 AI 协作能否交付的关键环节。
Loading...
会用 AI,不只是会提问,更要会判断。
AI 的回答先是草稿,不是交付物。真正的 AI 协作能力,是判断它是否真实、有用、可执行,并能指出问题和修改方向。
Core Judgment
完整 ≠ 有用
流畅 ≠ 可信
生成 ≠ 交付
把 AI 当作初稿生成器,把自己训练成主编。审查不是最后一步,而是 AI 协作能否交付的关键环节。
Review Principles
AI 输出审查的价值,是把“看起来不错”的回答重新放回任务目标、事实标准、用户场景和交付边界里。
审查的目标不是证明 AI 不行,而是把输出变成能被使用、发布或继续迭代的成果。
分数可以帮助快速定位问题,但真正决定能不能交付的,仍然是结合任务和标准的人工判断。
不要只说“不够好”,而要说明问题、原因、标准、修改方向,并转化成新的 Prompt。
10Q1R Framework
这 10 个问题用于发现输出的问题,最后的 R 用来把问题转化为明确修改方向。
是否回答了原始需求?有没有遗漏关键任务点?
先回看需求,再判断输出是否真正对题。
事实、数据、代码结果是否可靠?有没有幻觉?
关键事实需要来源、验证或明确不确定性。
内容是否具体?有没有示例、步骤或材料支撑?
警惕漂亮但空泛的模板化表达。
建议能不能落地?下一步是否清楚?
好的输出应给出条件、步骤、风险或验证方式。
是否适合目标受众、平台和当前场景?
同一内容放在网站、周报、小红书里,标准不同。
是否区分事实、解释、建议和预测?
没有来源意识的研究总结,很容易变成可信幻觉。
层级是否清楚?论点是否连贯?
结构不是装饰,而是帮助读者快速判断价值。
是否符合我的风格、项目阶段和表达边界?
好答案不只是正确,还要适合这个人、这个项目。
是否提供新观点?还是只重复常识?
有价值的输出应带来比较、反方观点或新的连接。
最大风险、遗漏和不确定点在哪里?
审查的重点,是把隐性问题显性化。
如何把问题转化成新的修改要求?
最后必须形成清晰反馈和新的 Prompt。
Quality Score
每项 0-2 分,总分 20 分。分数帮助快速定位问题,但不能替代人工审查。
01
准确性
0-2 分
02
相关性
0-2 分
03
具体性
0-2 分
04
可执行性
0-2 分
05
结构性
0-2 分
06
个人适配度
0-2 分
07
可信度
0-2 分
08
新启发
0-2 分
09
表达风格
0-2 分
10
完成度
0-2 分
0-7
输出存在明显偏差,需要重构需求、补充资料或重新生成。
8-14
有一定价值,但需要针对事实、结构或执行细节重点修正。
15-20
整体质量较好,但关键事实、代码和高风险判断仍需人工确认。
Review Flow
审查不是一次性判断,而是回看需求、识别问题、验证事实、修改迭代和沉淀模板的闭环。
01
回看原始需求
02
检查完成度
03
快速评分
04
套用任务标准
05
识别最大问题
06
事实验证
07
决定是否可用
08
写出修改反馈
09
重新生成或局部修改
10
再次审查
11
沉淀模板
Feedback Formula
把审查意见固定成五段式反馈,让 AI 知道哪里要改、为什么改、按什么标准改。
01
指出输出中具体哪里不对、缺什么或风险在哪里。
02
说明为什么这是问题,以及会带来什么影响。
03
引用任务目标、领域规范、项目风格或验收标准。
04
提出明确、可执行的修改动作,而不是模糊评价。
05
把反馈改写成下一轮 AI 可以执行的指令。
固定句式:问题是什么 → 为什么这是问题 → 应达到什么标准 → 应该如何修改 → 请按新 Prompt 重新生成。
Human In The Loop
AI 可以帮你发现结构问题、整理反馈和重写版本,但最终质量判断、价值判断和责任承担仍然属于人。
检查结构、语法、遗漏、重复、逻辑跳转,并根据框架给出第一轮问题清单。
确认事实、价值、伦理、风险、品牌调性和最终是否可以发布或交付。
法律、医疗、财务、代码、公开发布和商业策略类输出,不能只依赖 AI 自评。
AI 可以加速生成,但不能替你负责。