news 2026/4/18 11:13:01

Apriori,ECLAT,FP-Growth(手写推导)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Apriori,ECLAT,FP-Growth(手写推导)

挖掘频繁项集的三种算法:Apriori,ECLAT,FP-Growth

Apriori

缺陷:需要多次扫描数据库(I/O开销大),且生成的候选项集数量可能极其庞大 。

为了解决 Apriori 的 IO 和候选集问题,PPT 提到了几种优化:

Partitioning (分区):只需要扫描两次数据库。原理是“局部频繁才可能全局频繁” 。

DHP (Direct Hashing and Pruning):利用哈希桶计数来预先过滤无效的 k-itemsets

如果一个 k-项集对应的哈希桶(Bucket)里的总计数小于 minsup,那么该 k-项集一定不频繁

课件例题

挖掘频繁项集(字有点丑哈,凑合看)

ECLAT

这个方法有点类似信息检索中的倒排表

课件例题

FP-Growth

采用分治的思想

深度优先搜索 (Depth-first search)通过递归挖掘 FP-tree,避免了重复扫描数据库(通常只需扫描两次)

优势:只需要扫描两次数据库;无需生成海量候选集;利用前缀共享压缩存储

例题1

例题2

模式评估

高支持度和高置信度的规则可能是有误导性的

“打篮球->吃麦片”的置信度是 66%,看起来很高。但如果全校学生吃麦片的比例本来就是 75%,那么打篮球实际上降低了吃麦片的概率(负相关)。

提升度lift,衡量X,Y是否独立

=1独立(无关),>1正相关(有用),<1 负相关

(这里有个符号很坑的点,∪这个符号表示的是XY同时出现,可能是表示包含在一次事务中,不要看成集合里的交集了)

课件例题

lift的问题

Null Transactions (空事务):既不包含 X 也不包含 Y 的事务(例如超市里既没买牛奶也没买咖啡的海量交易)

Kulc

Imbalance Ratio (IR)

空值不变性是指:如果我们在数据集中增加或减少这些“无关的空交易”,某个度量指标的数值保持不变,那么该指标就具有空值不变性。

  • 不具备空值不变性的指标:Lift,。在处理稀疏大数据(如文本挖掘、推荐系统)时要慎用,因为绝大多数数据都是“空”的(比如两个词在绝大多数文档中都不出现)。

  • 具备空值不变性的指标:Kulczynski, Cosine, Jaccard。它们只关注“有非零值”的部分,因此更适合大规模数据挖掘。

其他简单例题

置信度与支持度

置信度注意哪个是分母!

模式压缩

1.频繁项集支持度为1,也就是这100个都出现,他们组成的子集都符合条件,根据集合非空子集的个数:2^100-1(很有意思,这个情况就像是在求集合的非空子集,也就是把不同事务看作集合,求它的所有非空子集,然后取并集)

2.思路,根据已有的集合,从大集合中删除它的支持度不同的子集

目前最大的集合是{a1,....,a100},它的子集有{a1}{a1,a2}..{a1,.....a50},{a1,...a50,a51}...

对于a1}{a1,a2}..{a1,.....a50}....即不包含a51-a100的集合,他们出现了两次,支持度为2

因为支持度不同,所以{a1,....,a100}不会删去他们,包含a51-a100的集合,count被删去了

再看进一步的特殊情况{a1,.....a50},它的子集都包含了两次,都删除

所以只剩下{a1,....,a100}:1,{a1,.....a50}:2

3.思路,根据已有的集合,从大集合中删除它的子集,无论支持度是什么情况

目前最大的集合是{a1,....,a100}囊括了所有的子集,所以都删掉了只剩它子集

例题

分别找出所有的:

  1. 频繁项集 (Frequent Itemsets)

  2. 闭频繁项集 (Closed Patterns)

  3. 极大频繁项集 (Max-Patterns)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:38:43

OptiScaler终极指南:解锁多平台AI上采样的完整潜力

在当今游戏图形技术飞速发展的时代&#xff0c;AI上采样技术正成为平衡性能与画质的关键武器。作为一款革命性的多平台优化工具&#xff0c;OptiScaler通过其强大的DLSS替代方案&#xff0c;让AMD、Intel和NVIDIA显卡用户都能享受到高质量的超分辨率体验。本文将带您深入探索Op…

作者头像 李华
网站建设 2026/4/17 13:25:21

FreeCAD参数化设计实战:从零构建自动化机械零件库

FreeCAD参数化设计实战&#xff1a;从零构建自动化机械零件库 【免费下载链接】FreeCAD This is the official source code of FreeCAD, a free and opensource multiplatform 3D parametric modeler. 项目地址: https://gitcode.com/GitHub_Trending/fr/freecad 在机械…

作者头像 李华
网站建设 2026/4/18 5:23:26

TensorFlow分布式训练实战:提升GPU算力利用率

TensorFlow分布式训练实战&#xff1a;提升GPU算力利用率 在现代AI工程实践中&#xff0c;一个再熟悉不过的场景是&#xff1a;昂贵的GPU集群长时间处于低负载状态&#xff0c;训练任务动辄耗时数十小时&#xff0c;团队被“模型跑得慢、资源用不满、问题难定位”所困扰。这背后…

作者头像 李华
网站建设 2026/4/18 8:03:54

终极3D抽奖系统:企业活动的完美互动解决方案

终极3D抽奖系统&#xff1a;企业活动的完美互动解决方案 【免费下载链接】log-lottery &#x1f388;&#x1f388;&#x1f388;&#x1f388;年会抽奖程序&#xff0c;threejsvue3 3D球体动态抽奖应用。 项目地址: https://gitcode.com/gh_mirrors/lo/log-lottery log…

作者头像 李华
网站建设 2026/4/17 22:57:01

紧急通知:Open-AutoGLM镜像源即将变更,速看最新下载方案

第一章&#xff1a;Open-AutoGLM镜像源变更背景与影响近期&#xff0c;Open-AutoGLM 项目的官方镜像源由原先的 registry.example-ai.org/open-autoglm 迁移至新的域名地址 hub.openglm.ai/auto-glm。此次变更是由于原托管平台停止对开源大模型镜像的免费存储支持&#xff0c;项…

作者头像 李华
网站建设 2026/4/18 7:35:59

深度学习框架基于YOLOv8➕pyqt5的钢材表面缺陷检测系统,YOLOV8模型如何训练钢材表面缺陷数据集 识别检测开裂“, ‘内含杂质‘, ‘斑块斑点‘,“点蚀表面“, ‘轧制氧化皮‘, ‘划痕

基于YOLOv8➕pyqt5的钢材表面缺陷检测系统&#xff0c;系统实现了对于6类钢材表面缺陷识别检测功能&#xff0c;内含2700张钢材表面缺陷数据集 包括[“开裂”, ‘内含杂质’, ‘斑块斑点’,“点蚀表面”, ‘轧制氧化皮’, ‘划痕’]&#xff0c;6类 通过选择图片、视频进行实时…

作者头像 李华