Supervised CoT :给定思考流程或要求,让模型进行思考
处理正确概率验证器Verifier:
推理过程需要每一步都是对的吗?不一定,
当如果有错误有时候也会纠正。
所以有时候训练的时候可以让中间是错误的,知道是错误的之后,后面遇到错误的时候,能够学会纠正。
以结果为导向进行推理。
现在有的问题是,有时候模型已经算对了,但是又要反复验证反复验证,就浪费了很多算力和时间,这种怎么优化呢?
可以训练的时候用老师学生模型,选择推理最短,且回答正确的作为学生模型的训练资料,来学习最短的推理过程。
对推理结果进行打分,把得出正确结果的收集起来,然后对推理长度做平均,超过平均长度的认为是不好的,短于平均长度的认为是好的。
但其实后面发现推理过短也不好,所以认为设定,如果超过某个长度,直接让他不说了,如果过短就强制把end替换为wait,然后继续输出。