news 2026/6/10 15:08:12

数据科学家关于个性化项目长期实验的指南

张小明

前端开发工程师

1.2k 24

文章封面图 — 数据科学家关于个性化项目长期实验的指南

原文：towardsdatascience.com/how-to-set-up-longitudinal-experiments-a-data-scientists-guide-59b7aa729d20?source=collection_archive---------5-----------------------#2024-03-10

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e89dde468b0c6cd9fdf12056ec15d0bf.png

图片来源：Claudio Schwarz

解锁快速的“测试与学习”，并通过长期实验捕获全尺度个性化价值

https://medium.com/@charlesbi?source=post_page---byline--59b7aa729d20--------------------------------https://towardsdatascience.com/?source=post_page---byline--59b7aa729d20-------------------------------- Haocheng Bi

·发布于 Towards Data Science ·阅读时长：4 分钟 ·2024 年 3 月 10 日

A/B 测试 vs. 长期实验

实验不一定总是复杂的；在市场杠杆可控的情况下，简单的 A/B 测试框架就可以非常有效。实验的设计与实施应该始终与市场学习议程、市场技术（MarTech）成熟度和创意设计能力紧密结合。

让我们以购物为例。为了理解一次性促销和优惠对在线购物者的影响，简单的 A/B 测试框架（控制组和测试组）就足够了。如果这些购物者在整个客户生命周期内被分配到一致的控制组和测试组，或者有一些人中途退出，影响不大。

长期实验，也称为面板研究，提供了一种研究因果关系随时间变化的框架。与一次性实验不同，长期实验可以研究群体或样本组内发展中的模式和趋势。长期实验传统上在医学科学和经济学等领域占有重要地位，近年来在科技、零售、银行和保险等行业的应用案例也越来越多。

长期实验在复杂的个性化场景中提供了独特的优势。它们使我们能够更深入地理解个性化营销策略的累积影响，并帮助判断何时扩大这些努力。

案例研究 —— 自行车配件供应商的纵向实验

假设一个假想情境，AvidBikers 是一家领先的山地自行车配件供应商，专为骑行者定制和升级自行车提供零部件。他们最近推出了一个个性化项目，向忠实的骑行客户群体发送每周最佳优惠和促销。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/90a0faa0b6f42d8bddc702c64b06cf4e.png

图片来自 Solé Bicycles 于 Unsplash

与一次性的购物之旅不同，AvidBikers 的典型购物旅程是由一系列在线购物过程组成，客户购买所需的所有配件，以自行组装和升级自行车装备。

随着个性化项目的推出，AvidBikers 的市场数据科学团队希望了解每个单独活动的效果，以及通过联合个性化营销策略带来的整体项目层面的增量。

项目与活动实验

AvidBikers 实施了一个双层纵向实验框架，以追踪整体个性化项目的广泛影响以及单个活动的影响。这里，项目层面的效果是指运行个性化项目的影响，项目可能包含多达数千个单独的活动，而活动级别的影响则指向最相关客户发送个性化的每周最佳优惠与促销的影响。

为了实现该框架，分别在全球层面和活动层面创建了测试组和控制组。全球测试组是指在符合条件时，能够接收个性化优惠和促销的客户群体，而全球控制组则被划分为“保留”组。在全球测试组内，我们进一步划分出活动级别的测试组和控制组，以衡量不同个性化策略的影响。

应对动态客户进出

然而，挑战来自于新客户和流失客户，因为他们可能会破坏测试-控制组的平衡。首先，客户流失可能对测试组和控制组产生不均衡的影响，造成无法归因于个性化处理/干预的无法控制的差异。

为了应对这种偏差，新客户被分配到项目层级和活动层级的测试组和控制组，并进行统计检验以验证组之间的平衡性。此外，还会进行纵向质量检查，以确保受众分配在每周之间保持一致。

衡量、迭代与重复

衡量通常被（错误地）与实验互换使用。简单来说，两者的区别在于，实验是一种测试假设并识别因果关系的框架，而衡量则是收集和量化观察到的数据点。

测量是捕捉学习成果和公司努力的财务影响的关键。与实验类似，AvidBikers 准备了程序和活动级别的测量文件，进行统计测试，以了解程序和活动级别的表现及影响。程序级别的测量结果表明 AvidBikers 个性化程序的整体成功。另一方面，活动级别的测量告诉我们哪种特定的个性化策略（个性化产品或促销活动）在客户群的哪个子集上是成功的策略。

有了测量结果，AvidBiker 的数据科学家可以与他们的营销和定价团队紧密合作，通过多个快速的“试验与学习”循环找到最佳的个性化策略。

大规模实施纵向实验

在大规模实施纵向实验时，需要平衡技术基础设施和方法学的严谨性。像 Airflow 和 Databricks 这样的工具简化了工作流管理和数据处理，促进了复杂实验的协调。然而，成功的基石依然是精心设计和执行的实验框架，该框架需根据具体的业务背景量身定制。

根据我的个人经验，复杂问题如冷启动、客户流失和策略重叠可能会出现，这需要在实验设计和实施过程中根据具体情况进行评估和定制。然而，随着客户需求的不断变化，纵向实验的战略实施已成为以客户为中心的个性化演变的关键基础。

感谢阅读，敬请期待未来更多数据科学和 AI 话题😃

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/9 23:39:15

NVIDIA官方出品！TensorRT镜像让GPU算力释放全部潜能

NVIDIA官方出品！TensorRT镜像让GPU算力释放全部潜能在AI模型越来越大、部署场景越来越实时的今天，一个训练好的模型从实验室走向生产环境，往往面临“跑不快”“吞不动”“延时高”的尴尬。明明用的是A100这样的顶级GPU，推理速度却…

作者头像

李华

网站建设 2026/6/10 11:27:06

使用TensorRT镜像加速大模型推理：低延迟高吞吐的终极方案

使用TensorRT镜像加速大模型推理：低延迟高吞吐的终极方案在当前AI应用全面落地的浪潮中，一个现实问题正不断挑战着工程团队的极限：如何让越来越庞大的深度学习模型，在真实业务场景下依然保持毫秒级响应？ 想象一下&…

作者头像

李华

网站建设 2026/6/10 13:48:05

详解TensorRT核心优化技术：层融合+内核调优极致性能

详解TensorRT核心优化技术：层融合与内核调优的极致性能实现在现代AI系统中，模型训练完成只是第一步。真正决定用户体验和部署成本的，是推理阶段的表现——尤其是延迟、吞吐量和资源利用率。当一个ResNet-50模型在PyTorch上跑出150 FPS&#…

作者头像

李华

网站建设 2026/6/10 19:19:23

从Vue到Spring Boot：一位Java全栈开发的面试实录

从Vue到Spring Boot：一位Java全栈开发的面试实录在一家互联网大厂的面试中，一位28岁的Java全栈开发者李明正在接受一场紧张而富有挑战性的技术面试。他的学历是硕士，拥有5年的工作经验，曾参与多个大型项目的开发与部署。他主要负…

作者头像

李华

网站建设 2026/6/10 13:20:18

适用于开发板的USB Serial驱动Windows下载教程

一文搞定开发板串口通信：Windows下USB转串驱动安装全解析你有没有过这样的经历？手里的开发板插上电脑，设备管理器里却只显示“未知设备”或一个带黄色感叹号的COM端口。明明线是好的，板子也通电了，但就是连不上串口助…

作者头像

李华

网站建设 2026/6/9 22:23:03

CCS20环境下函数内联优化手把手教程

CCS20环境下函数内联优化实战全解：从原理到工程落地在嵌入式开发的世界里，“快”从来不只是一个目标，而是一种生存法则。特别是在基于TI C2000系列DSP的实时控制系统中，哪怕是一个微秒级的延迟，也可能导致控制环路失稳…

作者头像

李华