news 2026/4/18 0:41:13

100万行文本数据(Python生成数据)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
100万行文本数据(Python生成数据)

1. 生成数据代码

#!/usr/bin/env python3# -*- coding: utf-8 -*-""" Generate large comma-separated TXT data for single-node text processing. Each line = one record, fields separated by ',' (no quotes). """importargparseimportdatetimeasdtimportgzipimportosimportrandomfromtypingimportIO METHODS=["GET","POST","PUT","DELETE"]PATHS=["/api/login","/api/logout","/api/orders","/api/orders/{id}","/api/users/{id}","/api/products","/api/products/{id}","/api/search","/api/metrics","/health"]STATUS_POOL=([200]*70+[201]*5+[204]*5+[400]*5+[401]*2+[403]*2+[404]*6+[429]*1+[500]*3+[502]*1)UA_IDS=list(range(1,51))# 1..50defopen_text(path:str,gzip_on:bool)->IO[str]:os.makedirs(os.path.dirname(os.path.abspath(path)),exist_ok=True)ifgzip_onorpath.endswith(".gz"):returngzip.open(path,"wt",encoding="utf-8",newline="\n")returnopen(path,"w",encoding="utf-8",newline="\n")defrand_ip(rng:random.Random)->str:r=rng.random()ifr<0.15:returnf"10.{rng.randrange(256)}.{rng.randrange(256)}.{rng.randrange(1,255)}"ifr<0.25:returnf"192.168.{rng.randrange(256)}.{rng.randrange(1,255)}"returnf"{rng.randrange(1,224)}.{rng.randrange(256)}.{rng.randrange(256)}.{rng.randrange(1,255)}"defrand_path(rng:random.Random)->str:p=rng.choice(PATHS)if"{id}"inp:returnp.replace("{id}",str(rng.randrange(1,200_000)))returnpdefrand_trace_id(rng:random.Random,n:int=16)->str:return"".join(rng.choice("0123456789abcdef")for_inrange(n))deflatency_ms(rng:random.Random,status:int)->int:base=int(rng.lognormvariate(3.6,0.55))# 常见 20~200msifstatus>=500:base+=rng.randrange(200,900)elifstatus>=400:base+=rng.randrange(50,300)returnmin(base,5000)defbytes_sent(rng:random.Random,path:str,status:int)->int:ifstatus==204:return0if"/metrics"inpath:returnrng.randrange(5_000,30_000)if"/products"inpathor"/search"inpath:returnrng.randrange(800,12_000)if"/orders"inpath:returnrng.randrange(600,9_000)ifstatus>=400:returnrng.randrange(200,2_000)returnrng.randrange(300,6_000)defgenerate(out:str,lines:int,users:int,start_time:dt.datetime,span_seconds:int,seed:int,gzip_on:bool)->None:rng=random.Random(seed)withopen_text(out,gzip_on)asf:for_inrange(lines):ts=start_time+dt.timedelta(seconds=rng.randrange(span_seconds))ts_str=ts.strftime("%Y-%m-%dT%H:%M:%S")ip=rand_ip(rng)user_id=rng.randrange(1,users+1)method=rng.choice(METHODS)path=rand_path(rng)status=rng.choice(STATUS_POOL)latency=latency_ms(rng,status)size=bytes_sent(rng,path,status)ua_id=rng.choice(UA_IDS)trace_id=rand_trace_id(rng)f.write(f"{ts_str},{ip},{user_id},{method},{path},"f"{status},{latency},{size},{ua_id},{trace_id}\n")defmain():ap=argparse.ArgumentParser()ap.add_argument("--lines",type=int,default=1_000_000)ap.add_argument("--users",type=int,default=200_000)ap.add_argument("--start",type=str,default="2025-12-01T00:00:00")ap.add_argument("--span-seconds",type=int,default=86400)ap.add_argument("--seed",type=int,default=42)ap.add_argument("--out",type=str,default="data/log_1m.txt")ap.add_argument("--gzip",action="store_true")args=ap.parse_args()generate(out=args.out,lines=args.lines,users=args.users,start_time=dt.datetime.fromisoformat(args.start),span_seconds=args.span_seconds,seed=args.seed,gzip_on=args.gzip)if__name__=="__main__":main()

2. 数据说明

2.1. 数据字段快速对齐

每一行字段含义(固定顺序):

ts, ip, user_id, method, path, status, latency_ms, bytes, ua_id, trace_id

例如:

2025-12-01T23:16:50,10.140.125.58,36580,GET,/api/metrics,200,39,8070,14,706d7e805da846a3

3. 基础统计场景(必做|热身级)

这些是任何实现都应该先完成的


场景 1:总请求数 & 错误请求数

统计内容

  • 总行数(Total Requests)
  • status >= 400的请求数
  • 错误率(Error Rate)

工程价值

  • 验证流式读取是否正确
  • 验证条件判断是否高效

场景 2:按状态码分布统计

输出示例

200 -> 734,921 204 -> 48,203 401 -> 12,881 404 -> 65,102 500 -> 9,871

工程考点

  • HashMap / Dictionary 的使用

  • key 数量小,适合优化


场景 3:HTTP 方法分布

GET -> xxx POST -> xxx PUT -> xxx DELETE -> xxx

用于验证你是否避免无意义对象创建


4. Top N 场景(核心|性能分水岭)

这些是面试/博客最爱问的


场景 4:Top 10 IP(访问量最高)

统计规则

  • ip计数
  • 输出 Top 10

❌ 错误做法

  • 全量排序

✅ 正确做法

  • HashMap + 小顶堆(Top N)

场景 5:Top 10 用户(user_id)

user_id -> count

隐含考点

  • user_id 数量巨大(几十万)
  • 内存控制
  • key 的类型选择(int vs string)

场景 6:Top 10 接口(path)

/api/metrics /api/orders /api/users/{id}

进阶版本

  • /api/users/104594归一化成/api/users/{id}
    (这一步非常工程)

5. 时间窗口聚合(工程必备)


场景 7:按分钟 QPS(Requests Per Minute)

处理方式

  • 2025-12-01T23:16:502025-12-01T23:16

输出示例

2025-12-01T23:16 -> 834 2025-12-01T23:17 -> 921

工程考点

  • 字符串截断 vs 时间解析
  • 是否避免LocalDateTime.parse

场景 8:按小时错误请求趋势

hour -> error_count

例如:

03 -> 412 08 -> 1291 17 -> 2387

6. 性能相关统计(非常加分)


场景 9:接口平均耗时(Mean Latency)

path -> avg(latency_ms)

注意

  • sum / count
  • 避免浮点精度陷阱

场景 10:最慢的 Top 10 请求

规则

  • latency_ms排序
  • 输出 trace_id + path + latency

工程考点

  • Top N(不是全排序)
  • 保留最小必要字段

7. 组合条件统计(高级工程题)


场景 11:错误请求中,Top 5 接口

status >= 400 AND GROUP BY path

非常贴近真实SRE / APM 分析


场景 12:大流量但失败率高的 IP

规则

  • IP 请求数 > X
  • 错误率 > Y%

这是真实生产排障模型


8. 资源/流量分析(现实业务向)


场景 13:总流量 & 平均流量

sum(bytes) avg(bytes)

场景 14:Top 10 流量消耗 IP

ip -> sum(bytes)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 6:56:04

Lottie-web API文档自动化:告别手动维护,拥抱高效开发

Lottie-web API文档自动化&#xff1a;告别手动维护&#xff0c;拥抱高效开发 【免费下载链接】lottie-web 项目地址: https://gitcode.com/gh_mirrors/lot/lottie-web 还在为繁琐的API文档编写而头疼吗&#xff1f;面对Lottie-web这个功能丰富的动画库&#xff0c;手动…

作者头像 李华
网站建设 2026/4/18 3:36:17

写论文查重技巧排名:6大AI+方法合集推荐

写论文查重技巧排名&#xff1a;6大AI方法合集推荐 排名 工具/方法 核心优势 适用场景 1 aibiye 智能降重学术语言优化 初稿完成后深度润色 2 aicheck 多维度查重选题辅助 全程论文质量监控 3 秒篇 一键生成逻辑结构优化 紧急补论文初稿 4 AskPaper 文献解析…

作者头像 李华
网站建设 2026/4/18 3:07:29

Apache Kvrocks完整安装指南:快速部署Redis兼容的分布式数据库

Apache Kvrocks完整安装指南&#xff1a;快速部署Redis兼容的分布式数据库 【免费下载链接】kvrocks Apache Kvrocks is a distributed key value NoSQL database that uses RocksDB as storage engine and is compatible with Redis protocol. 项目地址: https://gitcode.co…

作者头像 李华
网站建设 2026/4/18 8:40:33

写论文网站推荐:6大平台+权威免费合集

写论文网站推荐&#xff1a;6大平台权威免费合集 核心AI论文工具对比速览 工具名称 核心优势 适用场景 生成速度 特色功能 aibiye 全学科覆盖&#xff0c;支持自定义大纲 论文初稿生成 20-30分钟 自动插入图表/公式/代码 aicheck 低重复率&低AI率 论文降重优化…

作者头像 李华
网站建设 2026/4/18 8:33:54

Web动画革命:告别卡顿,拥抱丝滑动效新时代 [特殊字符]

还在为网页动画加载缓慢、效果卡顿而烦恼吗&#xff1f;设计师精心制作的动效在Web端总是表现不佳&#xff1f;本文将带你探索一种全新的Web动画解决方案&#xff0c;让动效呈现如丝般顺滑。 【免费下载链接】lottie-web 项目地址: https://gitcode.com/gh_mirrors/lot/lott…

作者头像 李华
网站建设 2026/4/18 8:40:52

倒计时 3 天!重磅嘉宾已就位,Force 原动力大会开发者日见!

火山引擎 Force 原动力大会开发者日主论坛重磅演讲嘉宾已就位&#xff01; 火山方舟、扣子、TRAE、AgentKit…… 从大模型服务平台到 Agent 开发平台和 Agent 开发工具&#xff0c; 为开发者带来 Agent 开发落地的高效指引&#xff01;技术分享、案例解析、动手实操、展区互动 …

作者头像 李华