智能客服引导用户提问的AI辅助开发实战：从意图识别到对话优化-程序员充电站

智能客服引导用户提问的AI辅助开发实战：从意图识别到对话优化

背景：公司客服每天 70% 的工单来自“我订单怎么了？”“东西不对”这类一句话描述，人工坐席平均要追问 2.8 轮才能定位问题。老板一句话——“用 AI 把提问质量提上来”，于是有了下面这趟从 0 到 1 的踩坑之旅。

1. 业务痛点：模糊提问到底拖垮了什么

坐席时间被切碎：同一类“物流异常”问题，因用户表述不同，平均处理时长从 3 分钟涨到 7 分钟。
机器人转人工率 58% → 32% 的波动，全靠运营同学堆关键词，维护成本指数级上升。
用户侧体验更直观——“机器人答非所问，我还是找人工吧”，NPS 直接掉 9 分。

一句话总结：不是客服不想快，是系统听不懂“人话”。

2. 技术路线对比：规则、传统 NLP、深度学习

方案	开发量	准确率(测试集)	维护成本	扩展性
正则+关键词	1 人周	68%	高，每周 200+ 新词	差
传统 ML( TF-IDF+SVM )	3 人周	78%	中，需持续标注	中
BERT 微调	5 人周	89%	低，季度增量训练	好

结论：规则引擎适合 MVP 快速验证；传统 ML 是过渡；要一劳永逸上生产，直接 BERT 走起。

3. BERT 意图识别：从数据到接口一条龙

3.1 数据预处理

原始日志 180 万句，先清洗：脱敏、去 HTML 标签、统一半角符号，再人工标注 2.1 万句，覆盖 21 个一级意图、97 个二级意图。

# data_utils.py import pandas as pd, re, json from sklearn.model_selection import train_test_split def clean(text): text = re.sub(r'<.*?>', '', text) # 去 HTML text = re.sub(r'\s+', '，', text) # 合并空白 return text.strip() df = pd.read_csv('raw_session.csv') df['text'] = df['user_utterance'].apply(clean) train, test = train_test_split(df, test_size=0.1, random_state=42, stratify=df['intent']) train.to_csv('train.csv', index=False) test.to_csv('test.csv', index=False)

3.2 模型训练（PyTorch+Transformers）

# train_intent.py from transformers import BertTokenizer, BertForSequenceClassification from torch.utils.data import Dataset, DataLoader import torch, tqdm, os MAX_LEN = 64 BATCH = 32 LR = 2e-5 EPOCHS = 4 class IntentDataset(Dataset): def __init__(self, df): self.texts = df['text'].values self.labels = df['intent_id'].values self.enc = BertTokenizer.from_pretrained('bert-base-chinese') def __len__(self): return len(self.texts) def __getitem__(self, idx): encoded = self.enc(self.texts[idx], padding='max_length', truncation=True, max_length=MAX_LEN, return_tensors='pt') item = {k:v.squeeze(0) for k,v in encoded.items()} item['labels'] = torch.tensor(self.labels[idx], dtype=torch.long) return item train_ds = IntentDataset(pd.read_csv('train.csv')) train_loader = DataLoader(train_ds, batch_size=BATCH, shuffle=True) model = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=21).cuda() optimizer = torch.optim.AdamW(model.parameters(), lr=LR) for epoch in range(EPOCHS): model.train() for batch in tqdm.tqdm(train_loader): batch = {k:v.cuda() for k,v in batch.items()} outputs = model(**batch) loss = outputs.loss loss.backward() optimizer.step(); optimizer.zero_grad() torch.save(model.state_dict(), f'intent_epoch{epoch}.pth')

训练 4 轮，验证集准确率 89.4%，F1 0.88，达标。

3.3 接口封装（FastAPI）

# service.py from fastapi import FastAPI from pydantic import BaseModel import torch, json, os from transformers import BertTokenizer, BertForSequenceClassification app = FastAPI() model = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=21) model.load_state_dict(torch.load('intent_epoch3.pth', map_location='cpu')) model.eval() tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') id2label = json.load(open('id2label.json')) class Query(BaseModel): text: str @app.post("/predict") def predict(q: Query): encoded = tokenizer(q.text, return_tensors='pt', max_length=64, truncation=True, padding='max_length') with torch.no_grad(): logits = model(**encoded).logits prob = torch.softmax(logits, dim=-1)[0] top = int(prob.argmax()) return {"intent": id2label[str(top)], "confidence": float(prob[top])}

Dockerfile 两行，镜像 380 MB，GPU 版延迟 p99 62 ms，CPU 版 180 ms，满足<200 ms 的 SLA。

4. 对话策略：状态机 + 强化学习

4.1 状态机骨架

┌---------┐ 用户提问 ┌----------┐ 置信<阈值 ┌----------┐ │ Welcome │--------->│ 意图识别 │--------->│ 澄清追问 │ └---------┘ └----------┘ └----------┘ │ 置信>阈值 ▼ ┌----------┐ │ 业务执行 │ └----------┘

澄清追问模板由运营配置，动态渲染“请问您遇到的是 a) 物流延迟 b) 商品破损 …”。

4.2 强化学习优化（DQN 伪代码）

把“追问-用户反馈-坐席解决时长”当成环境奖励，状态=用户当前向量+历史动作，动作=追问模板 ID。

# dqn_agent.py 伪代码 state_size = 768 # bert cls action_size = 10 # 10 个追问模板 dqn = DQN(state_size, action_size) for episode in range(2000): s = env.reset() # 初始句子向量 while not done: a = dqn.choose_action(s, epsilon) template = templates[a] next_s, reward, done = env.step(template) # reward = -解决时长 dqn.store(s,a,reward,next_s,done) dqn.learn()

离线训练 2 万段会话，平均解决时长由 7.1 min 降到 5.4 min，提升 24%。