HST-Bench：人类解题耗时评估数据集构建与应用-程序员充电站

1. 项目背景与核心价值

去年参与某智能体评估项目时，我们团队曾陷入一个尴尬境地——现有基准测试集无法真实反映人类解决问题的实际耗时。当算法在标准数据集上跑出"5秒完成"的漂亮成绩时，实际业务场景中用户可能需要花费3分钟才能解决相同问题。这种评估偏差促使我们启动了HST-Bench（Human Solution Time Benchmark）项目，一个专门标注人类真实解题耗时的创新型数据集。

这个数据集的核心创新点在于：它不仅记录问题答案，还精确捕捉不同人群解决每个问题所需的时间分布。比如在代码调试类题目中，我们发现初级开发者平均耗时是高级工程师的4.7倍，这个时间差比单纯的正确率更能反映实际能力差距。目前该数据集已应用于：

教育领域的自适应学习系统
招聘场景的技能评估工具
智能助手的响应时间优化

2. 数据集构建方法论

2.1 题目筛选与分层设计

我们从Stack Overflow、LeetCode等平台采集原始问题后，建立了三级筛选机制：

领域平衡：技术类（编程/数学）与非技术类（生活/逻辑）题目按4:6配比
难度分级：采用IRT（项目反应理论）模型预估题目难度
歧义消除：通过3人交叉验证确保题目表述无二义性

最终确定的题目库包含872个问题，覆盖以下维度：

维度	分类	占比
领域	技术问题	40%
非技术问题	60%
难度	简单（P>0.7）	30%
中等（0.3≤P≤0.7）	50%
困难（P<0.3）	20%

注：P表示预估通过率，基于100人预测试结果计算

2.2 标注者招募与质量控制

我们采用分层抽样策略招募标注者：

技术组：200名开发者（按GitHub stars分层）
非技术组：300名普通用户（按年龄/职业平衡）
控制组：50名领域专家（用于基准校验）

标注过程中实施三重质量控制：

注意力检测：随机插入10%的验证题
时间异常检测：剔除<5秒或>30分钟的极端记录
一致性检查：20%题目由不同组别重复标注

3. 时间标注系统实现

3.1 数据采集平台搭建

基于React+Flask构建的标注系统包含以下关键模块：

# 计时器实现核心逻辑 class SolutionTimer: def __init__(self): self.start_time = None self.end_time = None def start(self): self.start_time = time.perf_counter() def end(self): self.end_time = time.perf_counter() return self.end_time - self.start_time def validate(self): # 检测异常操作间隔 return 0.5 < (self.end_time - self.start_time) < 1800

系统特别设计了防作弊机制：

页面失去焦点超过3秒暂停计时
复制粘贴操作自动记录事件
答案提交强制经过最小思考时间

3.2 时间数据标准化处理

原始时间数据需经过三步标准化：

对数转换：解决正偏态分布问题
```
t_{norm} = log(t_{raw} + 1)
```

组别校正：消除个体差异影响

t_{adj} = \frac{t_{norm} - \mu_{group}}{\sigma_{group}}

题目难度加权：

t_{final} = t_{adj} × (1 + \frac{1 - P}{2})

4. 数据分析与应用案例

4.1 典型时间分布模式

我们发现解题时间呈现三种典型分布：

指数衰减型（简单问题）：
- 80%用户在平均时间内完成
- 长尾用户耗时急剧上升
正态分布型（中等难度）：
- 68%用户落在μ±σ区间
- 呈现对称分布特征
双峰分布型（高难度）：
- 峰值1：快速放弃的用户群
- 峰值2：坚持解题的用户群

4.2 在智能辅导系统中的应用

某在线编程平台接入HST-Bench后，实现了：

超时预警：当用户解题时间超过同水平用户P90时触发提示
难度适配：根据时间分布动态调整后续题目难度
教学干预：识别"快速失败"模式（短时间多次错误）

实测数据显示，使用时间标注数据的实验组比对照组：

学习效率提升23%
中途放弃率降低41%
平均解题时间缩短17%

5. 实施经验与避坑指南

5.1 数据采集阶段陷阱

我们踩过的三个典型坑：

初始计时误差：早期版本使用客户端时间，被用户修改系统时间作弊
- 解决方案：改用服务端校验时间戳
疲劳效应：标注者后期速度明显下降
- 改进措施：每20题强制休息5分钟
设备差异：移动端用户平均耗时比桌面端长18%
- 处理方法：按设备类型分组统计

5.2 标注质量提升技巧

三个验证有效的优化方法：

进度可视化：显示已完成题数/剩余题数进度条
即时反馈：提交后显示同类用户耗时百分位
激励机制：每完成10题展示知识图谱成长进度

6. 扩展应用方向

当前正在探索的创新应用：

代码审查：结合PR修改时间评估代码复杂度
会议效率：基于议程项实际耗时优化会议设计
医疗诊断：分析医生阅片时间与准确率关系

这个项目给我的最大启示是：时间维度往往比单纯的结果更能揭示真实的能力水平和认知过程。在开发过程中，我们意外发现解题时间的波动模式甚至可以预测学习者的长期留存率——那些解题时间呈现"短周期波动"的用户，坚持学习的可能性比"平稳耗时"用户高出2.3倍。

HST-Bench：人类解题耗时评估数据集构建与应用