news 2026/4/18 9:37:14

关于llamasharp 大模型多轮对话,模型对话无法终止,或者输出角色标识User:,或者System等角色标识问题。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
关于llamasharp 大模型多轮对话,模型对话无法终止,或者输出角色标识User:,或者System等角色标识问题。

最近在使用llamasharp 本地加载大模型输出,模型启动,模型会话,模型使用cuda都没有任何问题,但是到最后一步,让大模型输出内容的时候发现,要么输出内容重复,要么输出角色标识,自问自答,而且一直自问自答,用户体验相当糟糕。

查看llamasharp 文档和源码,发现已经在 ChatSession 中实现了将gguf的自带模板通过metedata中导出,然后格式化后作为模型template 注入了,那么就以为着我们不需要在构建提示词对话模板和设置停止词了,但是我发现,模型通过InferenceParams 设置的参数确实注入到llama.cpp 中起作用,但是就是system 和 user 消息的模板没有注入到llama.cpp 中,所以,我们直接通过AddSystemMessage 添加第一条系统提示消息,后继续使用user 角色对模型问答的时候,它就不遵循对话模板来一文一答了,而是自问自答,而且还不会停止,直到输出maxtokens.

try { ModelDataInfo? modelInfo = GetModelByName(ModelName); if (modelInfo == null) return; if (modelInfo?.ModelWeight == null) await StartModel((int)modelInfo?.ModelId!); SessionDataInfo? sessionInfo = await CreateSession(SessionId,modelInfo,SystemText); if (sessionInfo == null) return; if (InferenceParam != null) await SetInferenceParam(sessionInfo.SessionId!,InferenceParam); if (sessionInfo.SessionChat == null) return; sessionInfo.SessionHistory?.AddMessage(AuthorRole.User,UserText); StringBuilder Assistant = new StringBuilder(); await foreach (var text in sessionInfo.SessionChat.ChatAsync(new ChatHistory.Message(AuthorRole.User,UserText),true,sessionInfo.SessionInference)) { if (InferenceParam != null && InferenceParam.AntiPrompts.Contains(text)) { //break; } RetMessage(text); Assistant.Append(text); } sessionInfo.SessionHistory?.AddMessage(AuthorRole.Assistant,Assistant.ToString());

最后解决方案是,System 消息提示词如下:

你是一个人工智能政务办公助手,必须严格遵守以下要求:
1. 使用中文回答。
2. 不要在你的回复中包含任何特殊标记或角色标签。
3.不要输出重复的内容。
4.只回答用户的问题,不要提出新问题。
5. 不要模拟对话,只给出答案。
6. 回答完成后就停止,不要继续生成。

User 对话的提示词如下:

<|im_start|>user{0}<|im_end|><|im_start|>assistant //注意这里的{0},对应string.fomat 对话具体内容。

然后终于解决了他不会自问自答输出角色标识的问题了,但是又发现一直输出直到达到最大token限制,这明显不符合预期,查询了大量资料和看了llamasharp 源码没发现问题,最后看了看llama.cpp 的源码了,llama系列的模型,默认保留了一个\n\n 的截断词,注意是不能转义的\n\n,模型即便输出需要两次换行它也不会输出这个标记,只要输出这个标记就以为回答完了,那么就知道了.

InferenceParams InferenceParam = new InferenceParams(); InferenceParam.MaxTokens = Inference.InferTokens; InferenceParam.TokensKeep = Inference.InferKeep; InferenceParam.DecodeSpecialTokens = Inference.InferSpecial; InferenceParam.AntiPrompts = new List<string>() {@"\n\n"}; //Inference.InferPromptAnti!.Split(",").ToList();

其他的截断提示词先不管,设置@"\n\n", 基本能满足要求。调试时候正常了,但是我通过前端设置了 多个提示词,通过,分隔,然后读取到list<string> 对象里面的时候发现又不起作用了,这里有个小坑,这个分隔字符串不能加双引号,而且不能设置成 "\\n\\n"通过转移来识别,因为c#默认下的\\转义为\ ,是输出了文本,不是换行符,所以处理的时候 @"截至词",才能匹配llama.cpp, 其实这是c# 到c++语法的一个差异性导致的,如果不同时精通这两种语言,估计始终找不到问题所在。

经过这些处理,一切正常,可以平替了ollama和dify 以及Inferences ,实现本地化自开发人工智能应用了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 5:32:00

私集同城分类信息系统 :中小创业者同城信息领域的“破局利器”

摘要&#xff1a;在互联网飞速发展当下&#xff0c;同城分类信息与行业性质网站成为获取本地信息、开展商业活动的重要平台。但中小创业者搭建功能强大、多端覆盖且易拓展的网站面临成本高、周期长、多端同步难等困境。私集同城分类信息系统 V8.0 正式版应运而生&#xff0c;为…

作者头像 李华
网站建设 2026/4/18 5:35:33

少儿编程Scratch3.0教程——06 控制积木(基础知识)

课程已经过半&#xff0c;从这节课起&#xff0c;你就将开始学习剩下的控制、侦测、运算和变量分类&#xff0c;剩下的积木块比前面学过的内容相对难一些&#xff0c;但是也更重要。难是因为它们的使用更加灵活多变&#xff0c;重要是因为想要完成一个复杂的游戏或者动画&#…

作者头像 李华
网站建设 2026/4/18 7:57:01

直播带货质检:IACheck助力商品描述与实际检测结果的一致性审核

随着直播带货成为零售行业的重要营销方式&#xff0c;商品信息的准确性和透明度越来越受到消费者关注。尤其是在直播过程中&#xff0c;主播对商品的描述往往充满了吸引力的营销语言&#xff0c;但商品的实际检测结果是否与描述一致&#xff0c;直接影响消费者的购买决策和品牌…

作者头像 李华
网站建设 2026/4/18 8:01:16

LobeChat能否申请基金?开源项目融资渠道

LobeChat能否申请基金&#xff1f;开源项目融资渠道 在AI技术加速渗透日常生活的今天&#xff0c;一个有趣的现象正在发生&#xff1a;越来越多的开发者不再满足于使用封闭的商业大模型平台&#xff0c;而是转向像 LobeChat 这样的开源聊天界面&#xff0c;构建属于自己的私有化…

作者头像 李华
网站建设 2026/4/18 5:21:35

UVa 12369 Cards

题目概述 Taha\texttt{Taha}Taha 有一副特殊的扑克牌&#xff0c;包含 525252 张常规牌和 222 张 Joker\texttt{Joker}Joker 牌。常规牌的花色分为 梅花、 方块、 红心 和 黑桃 四种&#xff0c;每种花色 131313 张。Joker\texttt{Joker}Joker 牌没有花色。Sara\texttt{Sara}Sa…

作者头像 李华
网站建设 2026/4/18 3:49:13

LobeChat能否训练微调模型?结合前端的闭环训练

LobeChat能否训练微调模型&#xff1f;结合前端的闭环训练 在企业级AI助手日益普及的今天&#xff0c;一个现实问题摆在开发者面前&#xff1a;我们部署了一个基于本地大模型的聊天系统&#xff0c;用户每天都在使用&#xff0c;反馈也不断产生——但模型却始终“原地踏步”&am…

作者头像 李华