工具简介
【URL批量筛选处理工具】是一款面向Windows桌面的批量URL处理工具,主要解决从大量文本中提取、筛选、去重URL域名数据的需求。适用于网站分析、SEO优化、数据整理、市场调研等场景。
核心功能一览
| 功能模块 | 具体说明 |
|---|---|
| 批量处理 | 支持批量读取多个TXT文件中的URL |
| 文件来源 | 支持文件夹扫描,支持拖拽添加 |
| 子目录扫描 | 支持遍历子目录,处理所有层级TXT文件 |
| 域名提取 | 支持提取根域名、二级域名、完整HTTP域名 |
| 后缀筛选 | 支持预设后缀筛选(.com/.cn/.net等)和自定义后缀 |
| 去重功能 | 支持去除重复的域名记录 |
| 路径保持 | 支持保持原目录结构输出 |
| 进度显示 | 实时显示处理进度和统计信息 |
域名提取模式
工具支持三种域名提取方式,可根据需求组合使用:
根域名
提取最基础的域名部分,例如:
https://www.example.com/page→example.comhttp://blog.site.cn/post→site.cn
适合需要统一域名进行分析的场景。
二级域名
保留完整的二级域名信息,例如:
https://www.example.com/page→www.example.comhttp://blog.site.cn/post→blog.site.cn
适合需要区分不同子站点的场景。
HTTP(S)域名
保留完整的HTTP/HTTPS协议和域名,例如:
https://www.example.com/page→https://www.example.comhttp://blog.site.cn/post→http://blog.site.cn
适合需要保留完整链接格式的场景。
后缀筛选
预设后缀
支持以下预设域名后缀的快速筛选:
.com- 商业网站常用.net- 网络服务常用.cn/.com.cn/.net.cn- 中国域名.edu/.gov/.org- 教育、政府、组织.cc/.xyz/.top- 新顶级域名
自定义后缀
支持输入自定义后缀进行筛选,多个后缀用逗号分隔。
例如:输入io,me,co,app,dev可以筛选这些新锐后缀的域名。
使用流程
第一步:添加源文件
支持三种方式添加文件:
- 拖拽添加:直接将TXT文件或文件夹拖入输入框
- 浏览目录:点击"浏览目录"按钮选择文件夹
- 导入文件:点击"导入文件"按钮选择TXT文件
多个路径用英文分号(;)分隔。
如果文件夹内有子目录,且子目录中也有需要处理的TXT文件,可以勾选"遍历子目录"选项。
第二步:设置保存目录
点击"浏览"按钮或拖入文件夹,设置结果文件的保存位置。
如需保持原文件的目录结构,可以勾选"保持原路径结构"选项(此选项仅在勾选"遍历子目录"时可用)。
第三步:配置参数
根据需求配置处理参数:
域名保留方式:
- 保留根域名:提取最基础域名
- 保留二级域名:保留完整子域名
- 保留http(s)域名:保留完整链接格式
后缀筛选:
- 选择预设后缀进行筛选
- 或在自定义后缀框中输入后缀(逗号分隔)
去重:
- 勾选"去重"则最终结果中不出现重复记录
第四步:开始处理
确认设置无误后,点击"开始处理"按钮。
工具将:
- 自动扫描统计TXT文件数量
- 从文本中提取URL并解析域名
- 根据设置进行后缀筛选
- 根据需要去重
- 输出结果文件
处理完成后会显示统计摘要,包括处理文件数、总行数、有效URL数、匹配后缀的URL数等。
目录结构保持说明
勾选"保持原路径结构"后,处理结果会按照原TXT文件的目录结构保存。
假设源文件夹结构为:
数据/ ├── 网站A/ │ └── urls.txt └── 网站B/ └── links.txt转换后输出目录结构为:
输出/ ├── 网站A/ │ └── 根域名结果.txt └── 网站B/ └── 根域名结果.txt输出文件说明
处理完成后会根据选择的域名保留方式生成相应文件:
根域名结果.txt- 提取的根域名列表二级域名结果.txt- 提取的二级域名列表保留http(s)域名结果.txt- 保留完整HTTP/HTTPS链接的域名列表
常见问题
Q:提示"未找到任何TXT文件"怎么办?A:请确认输入路径中确实包含.txt文件,且文件扩展名为小写.txt。
Q:处理结果为空怎么办?A:可能原因包括:文件内容中不包含有效URL、未选择任何域名保留方式、后缀筛选条件过于严格等。
Q:如何处理自定义后缀?A:在"自定义后缀"输入框中输入后缀名称,多个后缀用英文逗号分隔,如:io,me,co,app。
Q:去重是按什么维度进行的?A:去重是基于选择的域名提取维度进行的。例如选择"保留根域名"时,相同根域名只保留一条。
性能参考
根据实际测试(测试环境:普通办公电脑):
| 文件数量 | 总URL数量 | 预计耗时 |
|---|---|---|
| 10个文件 | 5000条 | 10-20秒 |
| 50个文件 | 20000条 | 30-60秒 |
| 100个大文件 | 100000条 | 2-5分钟 |
实际耗时受文件数量、URL密度、电脑配置等因素影响,仅供参考。