智能客服对话系统实战：基于大模型的快速入门与避坑指南-程序员充电站

背景：规则引擎的“天花板”与大模型的“甜蜜陷阱”

做客服系统的老同学都知道，传统 if-else 树+关键词词典的方案，维护到第三个月就基本“失控”：

新增一个意图，要改 5 层嵌套条件
用户换个说法，立刻“转人工”
多轮追问（“那运费呢？”）只能硬编码槽位，代码像面条

大模型确实能把语义理解成本降 80%，但真到上线，你会发现：

首 token 延迟动辄 1.2 s，用户以为机器人“掉线”
按量计费，每 1k token 几分钱，乘以并发就是“心跳”
多轮对话状态全靠上下文，token 长度一超就截断，用户瞬间“失忆”

一句话：大模型是火箭，但燃料费、导航、回收舱都得自己造。

技术选型：一张表看清 3 条主流路线

维度	GPT-3.5-turbo	Claude-3-Haiku	文心一言 4.0
首 token 延迟 P95	650 ms	780 ms	520 ms
每 1k token 价格（输入+输出）	$0.002	$0.0016	0.012 元≈$0.0017
中文长文本指代	偶漏代词	稳	稳
函数调用	✔	✘	✔
最大上下文	16 k	200 k	8 k
RPM 免费档	3 k	5 k	2 k

结论：

预算敏感、并发高 → Claude-3-Haiku
需要函数调用做订单查询 → GPT-3.5-turbo
纯中文、政策合规优先 → 文心一言 4.0

下文代码以 GPT-3.5 为例，换模型只需改 base_url 与 model 名。

核心实现：让大模型“记得”用户是谁

1. 异步客户端 + 指数退避

import asyncio, aiohttp, backoff, time, uuid class ChatLLM: def __init__(self, api_key, base_url="https://api.openai.com/v1"): self.base_url = base_url self.headers = {"Authorization": f"Bearer {api_key}"} @backoff.on_exception(backoff.expo, aiohttp.ClientError, max_time=20) async def ask(self, messages, temperature=0.3): payload = { "model": "gpt-3.5-turbo", "messages": [{"role": "system", "content": "你是客服助手，回答简洁，不超过80字"}], "temperature": temperature, "max_tokens": 150 } payload["messages"] += [{"role": m["role"], "content": m["content"][:500]} for m in (messages or [])] async with aiohttp.ClientSession() as session: async with session.post(f"{self.base_url}/chat/completions", headers=self.headers, json=payload) as resp: data = await resp.json() return data["choices"][0]["message"]["content"]

设计要点：

截断单条消息 500 字，防止用户贴整段 log 爆 token
温度 0.3，客服场景宁肯“死板”也别“放飞”

2. 对话状态机：Redis 缓存 + 会话隔离

import redis, json, uuid r = redis.Redis(host="localhost", decode_responses=True) def get_session(sid: str): data = r.get(f"chat:{sid}") return json.loads(data) if data else {"hist": [], "ts": time.time()} def save_session(sid: str, data: dict, ttl=600): data["ts"] = time.time() r.setex(f"chat:{sid}", ttl, json.dumps(data, ensure_ascii=False))

选 Redis 而非 Memcached：需支持 500 字字符串的 LRU 逐出，且支持 ttl 精准到秒
会话 key 带前缀，方便按业务线分片

3. Prompt Engineering：让模型“说人话”

模板片段：

你是“小助手”，只能基于<知识库>回答，禁止编造。 <知识库> {kb} </知识库> 用户问题：{question} 若知识库无答案，请回复“暂无相关信息”。

用 XML 标签包裹知识库，实测减少 12% 幻觉
末尾加“若知识库无答案…”这句，可把幻觉率从 7% 压到 1.3%（1000 条人工评测）

性能优化：把 1.2 s 压到 400 ms

预热池
启动阶段批量发 20 条假请求，让模型节点“热”起来，首 token 延迟可降 35%
批处理合并
同一秒内 5 个用户提问，合并为一次 batch 请求，再按 session_id 拆分返回，平均延迟降 25%，但注意 batch 总 token 不超 4k，否则适得其反
对话历史压缩
只保留“用户问题+机器人答案”的摘要，用模型自己总结，每轮追加 60 字，却可省下 40% token。示例：

async def compress_history(hist: list) -> str: prompt = "把以下对话总结成2句话，保留关键信息：\n" + \ "\n".join(f"{h['role']}:{h['content']}" for h in hist) summary = await llm.ask([{"role": "user", "content": prompt}], temperature=0.1) return summary