news 2026/4/17 20:46:29

基于移动网络通讯行为的风险用户识别

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于移动网络通讯行为的风险用户识别

基于移动网络通讯行为的风险用户识别

大赛地址:基于移动网络通讯行为的风险用户识别,该比赛是联通大数据公司发起的,同时作为我们的实训的比赛。下面是自己参加比赛过程的报告:

第一次参加这种比赛,发现自己经验明显不足。初赛0.787(52/624),复赛0.784(71/624),虽然成绩很差,但是感觉对新手来说是一次很好的锻炼机会。简单的介绍一下自己的一些思路。

这次比赛分为初赛和复赛两部分,自己的比赛代码也有好几个版本,这里选取得成绩最好的一次讲讲思路。

1 特征工程

训练数据集一共包括四个文件,用户风险标签,用户通话记录数据,用户短信记录数据,用户网站/App访问记录数据。

测试数据集一共包括三个,用户通话记录数据,用户短信记录数据,用户网站/App访问记录数据。

初赛与复赛分别使用不同的测试数据集,分为test_A,test_B,将这些训练集与测试集当正负样本平衡处理。

下面介绍的是自己能想到的一些特征。

1.1 用户通话记录数据表

通话表如下图 11用户通话记录表所示(下面3张图片来自比赛主页)

图 1‑1用户通话记录表

对通话数据的考虑主要就是判断用户通话是否规律等,还有挖掘出用户接收的通话的特征。

对用户通话数据处理方法:

1.1.1 预处理

对start_time的时变量做除以2变换,对opp_len进行分组,避免one-hot变换后分布太稀疏(对线性模型有影响),同理对天变量除以5(或者对用户的生活作息时间进行分组).

1.1.2 特征提取
统计特征
  • 统计每个用户的号码通话的所有与不同的号码数量,以及与均值的差
  • 统计用户通话in、out的不同号码数量,in、out的差值,以及所占比例。
  • 统计一些特殊号码,如opp_head为100的,像运营商的号码;170、171虚拟号码段
  • 统计不同opp_head的unique_count
  • 通话时长的相关统计量,如均值, 最大值,中位数,标准差,最小值等
  • 统计不同call_type下的opp_num
  • 统计不同opp_len下的opp_num

一些特征的可视化:

通话类型统计数均值:

通话出入度

One-hot编码特征
  • 通话类型做one-hot编码,同时与in、out做特征交叉,统计数量
  • 对start_time的天变量和时变量做one-hot,统计数量
  • 对天变量,统计不同日期的通话数量的相关统计量,如均值, 最大值,中位数,标准差,最小值等

1.2 用户短信记录数据表

用户短信数据表如下图 12用户短信记录数据表

图 1‑2用户短信记录数据表

个人觉得短信记录表比voice表重要一些,主要是被动接收的短信的特征,如opp_head、opp_len,接收的不同号码的数量,主要是一些统计特征,还有对可以分类的做one-hot变换。除此之外,找出它们之间的一些相关性特征进行组合。

对用户短信数据处理方法:

1.2.1 预处理

先统计所有opp_num,再清洗掉opp_head为000的系统短信;对opp_len进行分组,对start_time的时变量和天变量做类似通话数据的处理。

1.2.2 特征提取
统计特征
  • 统计每个opp_num所有与不同的号码数量,与均值的差
  • 统计用户接收短信in、out的不同号码数量,in、out的差值,以及所占比例。
  • 分组统计一些特殊号码的所有与不同的数量以及与均值的差,如opp_head为100的,像运营商的号码;170、171虚拟号码段,106的通知类短信
  • 统计不同opp_len下的opp_num数量以及与均值的差
  • 统计不同opp_head的数量

一些特征可视化

短信接收出入度:

日期分组的短信变化均值:

One-hot编码特征
  • 对start_time的天变量和时变量做one-hot,与in、out做交叉,分别求count和unique_count

1.3 用户网站/App访问记录数据表

用户网站/App访问记录数据表如下图 13用户网站/App访问记录数据表

图 1‑3用户网站/App访问记录数据表

对用户网站/App访问记录数据主要是考虑访问的app/网站的不同的数量,以及访问时间的特征,上传流量等。

对用户网站/App访问记录数据处理方法:

1.3.1 预处理

wa数据有很多缺失值,对wa_date缺失值填充-1做其他类别处理,将天数做除以5变换。求名字长度wa_len,对wa_len分组处理。

1.3.2 特征提取
统计特征
  • 统计用户访问的wa_name所有与不同的名字的数量,与均值的差统计用户访问的名字的长度分组的数量。
  • 统计用户访问的次数的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
  • 统计用户访问时长的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
  • 统计用户上传流量的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
  • 统计用户下载流量的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
  • 统计不同opp_head的数量

一些特征可视化

App/网站访问数量均值:

One-hot编码特征
  • 对访问的日期进行one-hot编码,与up_flow、visit_cnt,down_flow、做交叉特征,求相关统计量,如均值, 最大值,中位数,标准差,最小值等。
  • 对访问的类型进行one-hot编码,与up_flow、visit_cnt,down_flow、做交叉特征,求相关统计量,如均值, 最大值,中位数,标准差,最小值等。

多项式特征:

最后根据feature_importance来选择一些特征进行做多项式组合

  • 将访问类型为网站的unique_count与sms的in类型的opp_head为106的做二次多项式组合
  • 将访问类型为网站的up_flow与sms的in类型的unique_count做二次多项式组合
  • 将访问类型为网站的unique_count与sms的in类型的unique_count为与voice的unique_count做二次多项式组合

1.4 总结

赛后发现自己提取的特征明显不够,还有一些重要的特征没有考虑到,如没有对voice,sms,wa出现频次最多的top-k以及对voice和sms的opp_head进行one-hot变换;还有它们两次的最近的一些时间间隔等等。虽然自己也做了很多尝试,如分别对voice,sms,wa每天的一些特征统计量进行处理,但是因为特征方面没有大的提升。到后面复赛赛心态有点崩了,最高的一次分数还是第一次提交时候。赛后才发现对分数提升最大的就是对opp_head进行one-hot之后,提高了大概0.07的分数,这才是拉开差距的主要特征。

2 LGB单模型

1.树模型

使用lgb单模型,选择gdbt,使用GridSearchCV挑选最佳参数。主要调'min_data_in_leaf'和'num_leaves'这两个参数尝试使用stacking将多个模型融合,尝试发现效果并不明显,故最后没有采用。

参考文献

(https://zhuanlan.zhihu.com/p/26820998)(Kaggle 数据挖掘比赛经验分享)

(https://www.zhihu.com/question/29316149)(特征工程到底是什么?)

(http://lightgbm.apachecn.org/cn/latest/index.html)(LightGBM 的中文文档)

♻️ 资源

大小:464KB

➡️资源下载:https://download.csdn.net/download/s1t16/87404312

注:更多内容可关注微信公众号【神仙别闹】,如当前文章或代码侵犯了您的权益,请私信作者删除!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 6:31:08

UDS物联网网关是什么?有什么功能?

一、UDS车载物联网网关概述UDS(Unified Diagnostic Services,统一诊断服务)车载物联网网关是一种基于汽车行业标准协议UDS的车载智能通信设备。它作为车辆内部网络与外部物联网平台之间的“智能翻译官”,专门用于连接、管理和监控…

作者头像 李华
网站建设 2026/4/18 6:31:10

摆脱论文困扰! 降AI率平台 千笔 VS 知文AI 面向自考学生

在AI技术迅猛发展的今天,越来越多的学生开始借助AI工具辅助论文写作,以提高效率、优化内容。然而,随着学术审查标准的不断提升,AI生成内容的痕迹越来越容易被查重系统识别,导致论文面临“AI率超标”的风险。许多学生在…

作者头像 李华
网站建设 2026/4/17 13:43:14

服务监控与告警体系搭建

服务监控与告警体系搭建一、简述1. prometheus2. grafana3. Alertmanager4. Exporters二、快速部署三、常用Exporters1. node-exporter2. MySQL Exporter3. Elasticsearch Exporter4. MongoDB Exporter5. RocketMQ Exporter6. Redis Exporter7. MinIO8. Milvus四、自定义Export…

作者头像 李华
网站建设 2026/4/18 8:09:56

SeqGPT-560M企业级运维:Prometheus指标采集、Grafana看板、告警阈值设置

SeqGPT-560M企业级运维:Prometheus指标采集、Grafana看板、告警阈值设置 1. 引言:从模型到服务,运维监控的必然之路 你刚刚部署了SeqGPT-560M,这个阿里达摩院推出的零样本文本理解模型确实好用——无需训练就能完成文本分类和信…

作者头像 李华
网站建设 2026/4/18 9:41:29

Eclipse配置Heritrix教程:环境搭建与爬虫调试指南

在使用Heritrix结合Eclipse进行网络爬虫开发时,可以显著提升代码编写和调试的效率。Eclipse作为功能强大的集成开发环境,为Heritrix这一开源爬虫框架的定制化开发提供了便利。本文将围绕几个开发者最关心的实操问题展开,帮助你在实际项目中快…

作者头像 李华