news 2026/5/3 20:37:34

大模型是这样进行深度思考的

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型是这样进行深度思考的

Supervised CoT :给定思考流程或要求,让模型进行思考

处理正确概率验证器Verifier:

推理过程需要每一步都是对的吗?不一定,

当如果有错误有时候也会纠正。

所以有时候训练的时候可以让中间是错误的,知道是错误的之后,后面遇到错误的时候,能够学会纠正。

以结果为导向进行推理。

现在有的问题是,有时候模型已经算对了,但是又要反复验证反复验证,就浪费了很多算力和时间,这种怎么优化呢?

可以训练的时候用老师学生模型,选择推理最短,且回答正确的作为学生模型的训练资料,来学习最短的推理过程。

对推理结果进行打分,把得出正确结果的收集起来,然后对推理长度做平均,超过平均长度的认为是不好的,短于平均长度的认为是好的。

但其实后面发现推理过短也不好,所以认为设定,如果超过某个长度,直接让他不说了,如果过短就强制把end替换为wait,然后继续输出。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/3 20:34:35

盲盒抽卡机小程序开发

盲盒抽卡机小程序开发抽卡机小程序是一个基于微信的应用程序,它将线下抽卡的模式搬到线上,并进行创新融合。用户在手机上直接选择卡牌拆卡,操作非常简单,为用户带来了全新的拆卡体验。1、抽卡机小程序具有公开透明的特点&#xff…

作者头像 李华
网站建设 2026/4/10 17:37:43

一文学习 Spring 声明式事务源码全流程总结握

在之前的文章中,我们花了大量的篇幅,从记录后端pod真实ip开始说起,然后引入envoy,再解决了各种各样的需求:配置自动重载、流量劫持、sidecar自动注入,到envoy的各种能力:熔断、流控、分流、透明…

作者头像 李华
网站建设 2026/4/10 17:37:14

SeaTunnel Engine 2.3.8 分离模式实战:如何配置TCP网络与检查点存储,让集群真正高可用

SeaTunnel Engine 2.3.8 分离模式高可用集群实战指南 分布式数据处理系统的核心价值在于其可靠性和容错能力。SeaTunnel Engine作为一款轻量级但功能强大的大数据处理框架,其分离模式设计为生产环境提供了更灵活的资源管理和更高的可用性保障。本文将深入探讨如何通…

作者头像 李华
网站建设 2026/4/10 17:35:31

QKeyMapper:重新定义你的输入体验,游戏与办公的智能按键助手

QKeyMapper:重新定义你的输入体验,游戏与办公的智能按键助手 【免费下载链接】QKeyMapper [按键映射工具] QKeyMapper,Qt开发Win10&Win11可用,不修改注册表、不需重新启动系统,可立即生效和停止。支持游戏手柄映射…

作者头像 李华
网站建设 2026/4/10 17:33:36

框架设计(Maxwell 无功老化上位机)

框架设计(Maxwell 无功老化上位机) 项目名称:Maxwell 架构:WPF Prism 8(MVVM Region 模块化 依赖注入) 命名空间:Maxwell.UI(核心 UI 层) 核心目标: 完全复…

作者头像 李华
网站建设 2026/4/10 17:27:29

Edge 浏览器不要提示还原页面

要关闭 Microsoft Edge 浏览器右上角的“还原页面”提示,可尝试以下方法。根据最新公开资料(截至2026年初),‌最有效且广泛验证的方法是关闭“启动增强”功能‌,部分情况下还需结合其他操作以确保效果持久。 推荐操作步…

作者头像 李华