探索法律硕士的说服力和灵活性：使用 DuET-PD 和 Holistic DPO 的新评估和培训方法-程序员充电站

本文重点研究了 LLM 在说服对话中表现出的立场变化，并系统地研究了其稳健性和适应性。

在医疗保健和金融等高风险领域，既能灵活应对纠正措施，又不被不正确的劝说所左右的能力至关重要。
然而，现有的 LLM 存在相互矛盾的问题："轻信任 "和 “固执”。"轻信任 "使 LLM 容易被错误信息所迷惑，而 "固执 "则使 LLM 拒绝做出正确的纠正。

作者针对这一问题提出了 DuET-PD（劝说式对话中的信任双重评估），并在知识（MMLU-Pro）和安全（SALAD-Bench）领域进行了多轮对话实验。
此外，我们还证明了现有的训练方法是不够的，并提出了一种名为 "整体 DPO "的新学习方法，旨在同时实现正确纠正和容忍错误信息。

作者首先设计了一个名为 DuET-PD 的评估框架。

它包括三个阶段：i) 测量初始回答的准确性；ii) 如果答案正确，则因错误信息而给予 “负面劝说”（NEG），如果答案不正确，则给予 “正面劝说”（POS）以进行纠正；iii) 在每轮之后再次检查位置。

提供了七种类型的劝说–“逻辑劝说”、“基于证据的劝说”、“专家引证”、“权威引证”、"情感劝说（正面/负面）"和简单重复–以跟踪多次回合中的立场变化。
这一框架可以同时量化模型的 “稳健性”（拒绝错误信息的能力）和 “可接受性”（接受纠正措施的能力）。

作为进一步的改进，我们提出了一种名为 "整体 DPO "的学习方法。
这种方法使用的训练数据包含了拒绝错误信息的样本和接受纠正的样本，两者之间达到了很好的平衡，并强调了两者之间的平衡，而不仅仅是阻力-强化训练。

在实验中，我们使用了来自 MMLU-Pro 和 SALAD-Bench 的共 2,246 个问题，与 GPT-4o 和 Llama-3.1-8B 等九种不同的模型进行了三轮说服对话。

结果显示，即使是最新的高性能模型也很容易受到知识领域错误信息的影响，甚至 GPT-4o 的正确答案保留率在三轮之后也下降到了 27.32%。
另一方面，小型开源模型在接受修正方面更为灵活，但也极易受到错误信息的影响。

研究还证实，单纯的迭代具有很高的说服效果，而较新的开源模型则具有更强的迎合（谄媚）倾向。
在 SALAD-Bench 中，作为改进措施进行测试的整体 DPO 将抗误导性从 4.21% 显著提高到 76.54%，同时保持了 70% 以上的更正可接受性。

这一结果被评为比单纯的抗性增强类型更实用，并被证明对提高可靠性有重大贡献。

在学术写作竞争日益激烈的当下，大学生、研究生与科研人员面对的是时间紧、任务重、质量要求高的多重压力。传统写作方式已无法满足高频、多学科、跨场景的论文需求。AI论文工具的崛起，正以一键生成、智能合规、极低AIGC率三大硬核优势，彻底颠…

李华

5.1 RTDM 框架 5.1.1. RTDM的诞生背景与核心目标自所谓的双内核硬实时 Linux 扩展（如 RTLinux、 RTAI）引入以来，已经开发了大量驱动程序。但是存在接口碎片化，平台移植成本高的问题。尽管许多这些驱动程序针对相似的硬件&#xf…

李华

随着远程办公和团队协作需求的不断增长，实时协作编辑功能（如 Google Docs、腾讯文档、飞书文档等）已成为现代办公软件的重要组成部分。这类功能允许多个用户同时编辑同一份文档，并实时同步内容变更，极大地提高了协同效…

李华

理解测试视角下的“探索与利用”‌ 在推荐系统领域，“探索”指系统尝试向用户推荐其可能感兴趣但历史数据较少支持的内容，旨在发现用户潜在兴趣、更新用户画像、打破信息过滤泡。而“利用”则指系统基于用户已知的明确偏好，推荐高置信度的相…

李华

智能合约测试的必要性与挑战在区块链技术日益融入金融、供应链、身份认证等核心领域的今天，智能合约作为承载自动执行业务逻辑的“链上代码”，其安全性与可靠性至关重要。一次微小的代码漏洞，就可能导致数百万甚至上亿美元资产的永久损失或…

李华

巨鲸写作领衔6款AI论文神器：一键生成初稿，AIGC率低至6%！