大模型是这样进行深度思考的-程序员充电站

Supervised CoT ：给定思考流程或要求，让模型进行思考

处理正确概率验证器Verifier：

推理过程需要每一步都是对的吗？不一定，

当如果有错误有时候也会纠正。

所以有时候训练的时候可以让中间是错误的，知道是错误的之后，后面遇到错误的时候，能够学会纠正。

以结果为导向进行推理。

现在有的问题是，有时候模型已经算对了，但是又要反复验证反复验证，就浪费了很多算力和时间，这种怎么优化呢？

可以训练的时候用老师学生模型，选择推理最短，且回答正确的作为学生模型的训练资料，来学习最短的推理过程。

对推理结果进行打分，把得出正确结果的收集起来，然后对推理长度做平均，超过平均长度的认为是不好的，短于平均长度的认为是好的。

但其实后面发现推理过短也不好，所以认为设定，如果超过某个长度，直接让他不说了，如果过短就强制把end替换为wait，然后继续输出。

盲盒抽卡机小程序开发抽卡机小程序是一个基于微信的应用程序，它将线下抽卡的模式搬到线上，并进行创新融合。用户在手机上直接选择卡牌拆卡，操作非常简单，为用户带来了全新的拆卡体验。1、抽卡机小程序具有公开透明的特点&#xff…

李华

在之前的文章中，我们花了大量的篇幅，从记录后端pod真实ip开始说起，然后引入envoy，再解决了各种各样的需求：配置自动重载、流量劫持、sidecar自动注入，到envoy的各种能力：熔断、流控、分流、透明…

李华

SeaTunnel Engine 2.3.8 分离模式高可用集群实战指南分布式数据处理系统的核心价值在于其可靠性和容错能力。SeaTunnel Engine作为一款轻量级但功能强大的大数据处理框架，其分离模式设计为生产环境提供了更灵活的资源管理和更高的可用性保障。本文将深入探讨如何通…

李华

QKeyMapper：重新定义你的输入体验，游戏与办公的智能按键助手【免费下载链接】QKeyMapper [按键映射工具] QKeyMapper，Qt开发Win10&Win11可用，不修改注册表、不需重新启动系统，可立即生效和停止。支持游戏手柄映射…

李华

要关闭 Microsoft Edge 浏览器右上角的“还原页面”提示，可尝试以下方法。根据最新公开资料（截至2026年初），‌最有效且广泛验证的方法是关闭“启动增强”功能‌，部分情况下还需结合其他操作以确保效果持久。推荐操作步…

李华

盲盒抽卡机小程序开发