BERT-base-chinese多任务学习：损失函数设计-程序员充电站

BERT-base-chinese多任务学习：损失函数设计

1. 技术背景与问题提出

随着自然语言处理技术的不断演进，BERT-base-chinese已成为中文场景下最广泛使用的预训练语言模型之一。该模型基于Transformer架构，在大规模中文语料上进行掩码语言建模（Masked Language Model, MLM）和下一句预测（Next Sentence Prediction, NSP）任务训练，具备强大的上下文理解能力。

在实际工业应用中，如智能客服、舆情监测、文本分类等场景，往往需要模型同时支持多种下游任务。然而，标准的 BERT 模型仅提供单任务微调机制，难以满足复杂业务需求。因此，如何基于bert-base-chinese实现多任务学习（Multi-Task Learning, MTL），成为一个关键工程挑战。

多任务学习的核心在于：共享主干网络参数的同时，为不同任务设计独立的输出头，并通过合理的损失函数组合策略进行联合优化。本文将聚焦于这一核心环节——损失函数的设计，深入探讨其原理、实现方式及工程实践中的关键考量。

2. 核心概念解析：什么是多任务学习中的损失函数设计？

2.1 多任务学习的基本结构

在一个典型的多任务 BERT 架构中：

共享编码层：使用bert-base-chinese的所有 Transformer 层作为共享特征提取器。
任务特定头（Task-Specific Heads）：
- 分类头（Classification Head）用于文本分类或语义相似度判断
- 序列标注头（Sequence Labeling Head）用于命名实体识别（NER）
- 掩码语言模型头（MLM Head）可用于完型填空或持续预训练

每个任务都有自己的前向传播路径和对应的损失函数 $ L_i $。

2.2 联合损失函数的形式化表达

最终的总损失函数通常表示为各子任务损失的加权和：

$$ L_{\text{total}} = \sum_{i=1}^{n} \alpha_i \cdot L_i $$

其中：

$ n $ 是任务数量
$ L_i $ 是第 $ i $ 个任务的损失（如交叉熵、均方误差等）
$ \alpha_i $ 是该任务的权重系数，控制其在联合训练中的影响程度

核心挑战：若直接等权相加，某些梯度较大的任务可能主导训练过程，导致其他任务性能下降。因此，损失函数设计的本质是平衡不同任务之间的学习动态。

3. 损失函数设计的关键策略

3.1 固定权重法：简单可控但需人工调参

最直观的方式是为每个任务分配一个固定的权重系数。

import torch.nn as nn import torch.optim as optim # 定义模型组件 class MultiTaskBert(nn.Module): def __init__(self, bert_model, num_labels_task1=2, num_labels_task2=5): super().__init__() self.bert = bert_model self.classifier_task1 = nn.Linear(768, num_labels_task1) # 如语义相似度 self.classifier_task2 = nn.Linear(768, num_labels_task2) # 如情感分类 def forward(self, input_ids, attention_mask, task_id): outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask) pooled_output = outputs.pooler_output if task_id == 1: logits = self.classifier_task1(pooled_output) return logits elif task_id == 2: logits = self.classifier_task2(pooled_output) return logits # 训练时计算联合损失 def compute_loss(model, batch_data, alpha1=1.0, alpha2=1.0): loss_fn = nn.CrossEntropyLoss() # Task 1 Loss logits1 = model(batch_data['input_ids_1'], batch_data['mask_1'], task_id=1) loss1 = loss_fn(logits1, batch_data['labels_1']) # Task 2 Loss logits2 = model(batch_data['input_ids_2'], batch_data['mask_2'], task_id=2) loss2 = loss_fn(logits2, batch_data['labels_2']) total_loss = alpha1 * loss1 + alpha2 * loss2 return total_loss

优点：

实现简单，易于调试
权重可解释性强

缺点：

需大量实验确定最优权重组合
无法适应训练过程中任务难度的变化

3.2 动态权重调整：GradNorm 与 Uncertainty Weighting

为了自动调节任务权重，近年来提出了多种动态方法，其中两种主流方案如下：

（1）不确定性加权法（Uncertainty Weighting）

假设每个任务存在任务相关的“观测噪声”，引入可学习的尺度参数 $ \sigma_i $ 来估计其不确定性：

$$ L_{\text{total}} = \sum_{i=1}^{n} \frac{1}{2\sigma_i^2} L_i + \log \sigma_i $$

PyTorch 实现示例：

import torch import torch.nn as nn class UncertaintyWeightedLoss(nn.Module): def __init__(self, num_tasks): super().__init__() # 可学习的日志尺度参数（避免负值） self.log_vars = nn.Parameter(torch.zeros(num_tasks)) def forward(self, losses): # losses: list of scalar tensors [L1, L2] precision = torch.exp(-self.log_vars) weighted_losses = sum(precision[i] * losses[i] + self.log_vars[i] for i in range(len(losses))) return weighted_losses # 使用方式 criterion = UncertaintyWeightedLoss(num_tasks=2) loss_list = [loss1, loss2] total_loss = criterion(loss_list)

优势：模型会自动降低高损失任务的权重，防止某一任务过度主导。

（2）GradNorm：基于梯度幅度的平衡机制

GradNorm 通过监控各任务对共享层的梯度大小，动态调整权重以保持梯度均衡。其实现较为复杂，涉及梯度范数计算与反向传播干预，适合高级应用场景。

3.3 渐进式训练与课程学习（Curriculum Learning）

另一种思路不是同时优化所有任务，而是采用分阶段训练策略：

第一阶段：单独训练各个任务，获得稳定的初始权重
第二阶段：冻结部分底层参数，联合微调高层
第三阶段：全模型端到端微调

这种方式可以有效缓解任务间干扰，尤其适用于任务差异较大的情况。

4. 在 bert-base-chinese 上的实践建议

结合镜像中提供的功能模块（完型填空、语义相似度、特征提取），我们可以构建一个轻量级多任务系统。

4.1 任务定义与损失类型匹配

任务	输出形式	损失函数	是否参与联合训练
完型填空（MLM）	Token 级别预测	`CrossEntropyLoss(ignore_index=-100)`	✅
语义相似度	句子对分类（0/1）	`BCEWithLogitsLoss`或`CrossEntropyLoss`	✅
特征提取	向量输出	无监督损失（如对比学习）	❌（仅推理用）

注意：特征提取本身不产生监督信号，但在多任务框架中可用作中间表示供其他任务复用。

4.2 推荐的损失组合方案

对于包含 MLM 和句子分类的任务组合，推荐以下配置：

# 配置超参数 ALPHA_MLM = 0.7 ALPHA_SIM = 0.3 def multi_task_loss(mlm_logits, mlm_labels, sim_logits, sim_labels): loss_fn_mlm = nn.CrossEntropyLoss(ignore_index=-100) loss_fn_sim = nn.BCEWithLogitsLoss() loss_mlm = loss_fn_mlm(mlm_logits.view(-1, mlm_logits.size(-1)), mlm_labels.view(-1)) loss_sim = loss_fn_sim(sim_logits.squeeze(), sim_labels.float()) return ALPHA_MLM * loss_mlm + ALPHA_SIM * loss_sim

理由：

MLM 任务数据丰富、信号强，赋予较高权重有助于稳定表征学习
相似度任务样本较少，适当降低权重防止过拟合

4.3 工程落地注意事项

Batch 构造策略：
- 使用task-aware sampling，确保每个 batch 包含多个任务的数据
- 或采用round-robin轮询方式交替训练任务
学习率设置：
- 共享层使用较小学习率（如 2e-5）
- 任务头可使用较大学习率（如 5e-4）
评估指标分离：
- 各任务独立记录准确率、F1、Perplexity 等指标
- 总 loss 仅用于训练监控，不作为性能评价依据