news 2026/4/18 0:55:43

大多数数据质量项目在启动之前就已经失败。原因如下。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大多数数据质量项目在启动之前就已经失败。原因如下。

原文:towardsdatascience.com/most-data-quality-initiatives-fail-before-they-start-heres-why-e66123b7bb3b?source=collection_archive---------6-----------------------#2024-07-23

展示你的数据质量评分卡,我可以告诉你一年前是否能成功。

https://barrmoses.medium.com/?source=post_page---byline--e66123b7bb3b--------------------------------https://towardsdatascience.com/?source=post_page---byline--e66123b7bb3b-------------------------------- Barr Moses

·发布于 Towards Data Science ·阅读时间 7 分钟·2024 年 7 月 23 日

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/fac1a14f378fe70f85ffa69e64cb0a93.png

图片由 Braden Collum 提供,来源于 Unsplash

每天我都在与那些准备投入大量时间和资源,但注定失败的数据质量项目的组织进行对话。

提供激励措施和关键绩效指标(KPIs)能够驱动良好的行为这一点并不新鲜。销售补偿计划的审查如此严格,以至于它们经常成为董事会会议的议题。如果我们也能对数据质量评分卡给予同样的关注,结果会怎样呢?

即使是在全盛时期,传统的数据质量评分卡——比如 Hadoop 时代的评分卡——也很少获得完全成功。我知道这一点,因为在创办 Monte Carlo 之前,我曾在运营副总裁的岗位上工作多年,致力于创建能推动信任和采纳的数据质量标准。

在过去的几年里,云计算和元数据管理的进展使得组织海量数据变得可能。

数据工程过程正开始向更加成熟、严格的工程学科标准发展。当然,人工智能有潜力简化这一切。

尽管这个问题可能永远无法完全解决,但我看到一些组织采取了最佳实践,这些实践成为了推动项目成功与另一轮启动会议之间的分水岭。

这是构建数据质量评分卡的 4 个关键教训:

知道哪些数据是重要的

任何与数据相关的计划最容易失败的方式就是假设所有数据的价值是相等的。而确定哪些数据重要的最佳方法就是与业务方沟通。

Red Ventures 的 Brendon Beidel 阐明了一个好的起点:

“我会问:

如果你在一个庞大的组织中工作,且员工遍布全球,可能这比说起来容易做起来难。

在这些情况下,我的建议是从你最关键的业务数据单元开始(如果你不知道这些,我帮不上忙!)。开始讨论需求和优先事项。

记住:先验证概念,再扩展。你会惊讶于有多少人反其道而行。

衡量机器

这种努力的一大挑战,简而言之,就是数据质量抵制标准化。质量是,并且应该是,依赖于使用场景的。

数据质量的六个维度是任何数据质量评分卡中的关键部分,也是一个重要的起点,但对许多团队而言,这只是开始——每个数据产品都是不同的。

例如,财务报告可能需要非常准确,并在时效性上有一定的宽容度,而机器学习模型则可能完全相反。

从实施角度来看,这意味着衡量数据质量通常是极度分散的。数据质量是按表格逐一衡量的,不同的分析师或数据管理员使用完全不同的数据质量规则,并赋予不同的权重。

这在某种程度上是有道理的,但很多东西在翻译过程中丢失了。

数据是多用途的,并在不同的使用场景中共享。不仅一个人的“黄色”质量评分是另一个人的“绿色”,而且数据消费者通常也很难理解“黄色”评分意味着什么,或者它是如何被评定的。他们也经常忽略由红色数据表提供数据给绿色数据表的影响(你懂的,垃圾进,垃圾出……)。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7d957c3159e4a5ced40d4953fdf140f0.png

“黄色”评分卡的意义是什么?照片由 Keiron Crasktellanos 提供,来自 Unsplash

显示违反规则的数量当然很重要,但你还需要:

那么,你还需要什么?你需要衡量机器。

换句话说,数据生产和交付中通常导致高质量的组成部分。这些部分更容易标准化,也更容易跨业务单元和团队理解。

Airbnb Midas是一个知名的内部数据质量评分和认证项目,这也理所当然。他们在这个概念上投入了大量精力。他们衡量数据准确性,但可靠性、管理和可用性实际上占总评分的 60%。

许多数据团队仍在制定自己标准的过程中,但我们发现与数据健康高度相关的组成部分包括:

可用性与管理

系统可靠性

操作响应:

把你的胡萝卜和棒子调整好

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7dfb99e634365a2601ca0dd9c77aa74e.png

激励生产者和消费者提供高质量数据。照片由Jonathan Pielmayer拍摄,图片来源于Unsplash

“耶,又一套我们必须遵守的流程!”… 这句话从来没有人说过。

记住,衡量数据健康的目的是为了衡量数据健康,而不是单纯地为了数据健康本身。如Clark 在 Airbnb 所说,目的是“推动对生产和使用高质量数据的偏好”。

我看到的最佳实践是在数据入驻平台时,设置一套最低要求(棒)和在每个级别认证时设置更严格的要求(胡萝卜)。

认证起到激励作用,因为生产者确实希望消费者使用他们的数据,而消费者会迅速识别并对高可靠性的数据产生偏好。

自动化评估与发现

数据管理中几乎没有什么能在没有一定程度的自动化和自助服务能力的情况下成功。Airbnb 丢弃了任何 1) 无法立即理解的评分标准,和 2) 无法自动衡量的评分标准。

你的组织也必须做到这一点。即使这是史上最好的评分标准,如果你没有一套能够自动收集和展示数据的解决方案,那它就必须被丢进垃圾桶。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/31528d08e2f71cbeffbe29fa4642d848.png

图片由作者提供。

我看到的最常见方式是通过data observability and quality solutions,和数据目录。例如,罗氏就是这样做的,并且在创建、发布和治理可信数据产品时,增加了访问管理。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e275902f9bce7f2f7b6c906762f24b90.png

来源。

当然,也可以通过手动将多个数据系统中的元数据拼接成一个自制的发现门户来完成这项工作,但一定要注意维护开销。

量化的事物得以管理

数据团队已在现代数据和人工智能平台上进行了大量投资。但为了最大化这一投资,组织——无论是数据生产者还是消费者——必须完全采纳并信任所提供的数据。

归根结底,什么被衡量,什么就能被管理。这不正是最重要的吗?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 4:00:06

智慧安防新选择:基于OOD质量评估的人脸识别模型部署

智慧安防新选择:基于OOD质量评估的人脸识别模型部署 在实际安防场景中,你是否遇到过这样的问题:门禁系统偶尔误放陌生人,考勤打卡时因光线不佳反复失败,或者监控画面里模糊人脸被强行匹配?这些不是模型“认…

作者头像 李华
网站建设 2026/4/12 9:19:17

RMBG-2.0背景扣除神器:5分钟快速上手教程

RMBG-2.0背景扣除神器:5分钟快速上手教程 1. 你真的需要一个“能抠发丝”的背景去除工具吗? 你有没有遇到过这些情况: 电商上新要换几十张商品图的背景,一张张用PS手动抠图,一上午就没了;设计海报时想把…

作者头像 李华
网站建设 2026/4/14 12:21:28

QwQ-32B开源镜像一文详解:ollama适配+GPU算力高效利用

QwQ-32B开源镜像一文详解:ollama适配GPU算力高效利用 1. 为什么QwQ-32B值得你花时间部署 你有没有试过让AI真正“想一想”再回答?不是简单地接续文字,而是像人一样拆解问题、分步推理、验证逻辑——QwQ-32B就是为这种体验而生的模型。 它不…

作者头像 李华
网站建设 2026/4/16 12:34:33

3步解锁加密音乐:如何突破格式限制实现全设备播放?

3步解锁加密音乐:如何突破格式限制实现全设备播放? 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾遇到这样的困扰&#xff1a…

作者头像 李华
网站建设 2026/4/16 17:31:59

ROS2 Jazzy与Gazebo Harmonic联合作战:现代机器人开发的最佳拍档

ROS2 Jazzy与Gazebo Harmonic深度整合实战指南 机器人仿真技术正在经历一场前所未有的变革。当ROS2 Jazzy遇上Gazebo Harmonic,这对黄金组合为开发者带来了更流畅的协同开发体验和更强大的仿真能力。本文将带您深入探索如何充分发挥这对组合的技术优势,…

作者头像 李华