Python 爬虫项目：正则分组与复杂内容匹配-程序员充电站

前言

基础正则表达式可完成简单字符、连续片段、固定字段的提取工作，但在实际爬虫场景中，网页源码、接口返回文本往往存在多层嵌套、多字段混杂、格式交错等复杂情况。单一匹配规则仅能获取整段文本，无法实现局部字段拆分、多目标同步提取、层级内容筛选，正则分组技术便成为解决这类复杂需求的核心手段。

正则分组通过括号划分匹配单元，可在一次匹配动作中分离多个目标数据，同时结合反向引用、分组命名、非捕获分组、嵌套分组等进阶语法，能够应对标签嵌套、重复文本、混合字段、不规则段落等各类爬虫复杂解析场景。相较于基础正则，分组语法进一步拓展了字符串处理能力，也是从入门正则走向高阶正则爬虫的关键节点。

本文所使用的核心工具与第三方库官方链接如下：

Python 官方下载地址：https://www.python.org/downloads/
re 模块官方文档（Python 内置正则库）：https://docs.python.org/3/library/re.html
requests 网络请求库（爬虫核心请求工具）：https://pypi.org/project/requests/
正则表达式在线测试工具（语法校验）：https://regex101.com/

全文从基础分组原理切入，依次讲解普通捕获分组、命名分组、非捕获分组、嵌套分组、反向引用等核心语法，搭配大量爬虫真实场景代码案例，拆解每一段语法的运行逻辑、适用场景与优劣，同时结合多字段提取、嵌套标签解析、重复内容清理、混合文本拆分等综合实战，帮助开发者熟练运用分组语法处理高复杂度的网页文本数据。

一、正则分组核心概念与分类

1.1 分组的定义与爬虫价值

正则分组依托英文圆括号()实现，它并非单纯的字符包裹符号，而是对正则匹配规则进行逻辑划分。括号内的内容会被正则引擎单独捕获、存储，在单次匹配中区分出不同的数据片段。

在爬虫数据解析中，分组的核心价值体现在三个维度：其一，实现一规则多提取，单次匹配同时截取多个不同字段，减少正则规则编写数量，简化代码结构；其二，划分匹配层级，针对 HTML 嵌套标签、分段文本等层级化内容做定向提取；其三，依托反向引用复用已匹配内容，快速清理重复标签、重复字符、冗余文本，提升数据清洗效率。

结合爬虫业务场景，正则分组可划分为四大主流类型，也是本章核心讲解内容，分类及基础说明如下表所示：

表格

分组类型	语法格式	核心作用	爬虫典型使用场景
普通捕获分组	`(表达式)`	捕获括号内匹配内容，按序号存储	多字段同步提取、标签内多内容截取
命名分组	`(?P<名称>表达式)`	自定义分组名称，通过名称取值，可读性更强	字段较多的结构化数据、长规则正则取值
非捕获分组	`(?:表达式)`	仅参与匹配，不单独捕获存储内容	辅助匹配、限定匹配范围，无需单独提取的片段
嵌套分组	`(外层(内层表达式))`	分组内部再次嵌套分组，划分多层级数据	多层嵌套 HTML 标签、层级化文本提取

1.2 分组基础匹配规则补充

分组语法需要结合前文所学的元字符、数量限定符、贪婪 / 非贪婪匹配共同使用，分组本身同样遵循正则全局匹配逻辑。需要明确两个基础规则：第一，分组不改变原有匹配范围，仅对匹配结果做拆分；第二，默认情况下，分组会按照左括号出现顺序依次编号，编号从 1 开始，整个完整匹配结果默认编号为 0。

在爬虫开发中，编写分组规则时，仍需坚持原始字符串r""写法、非贪婪匹配优先、复杂规则搭配匹配模式常量等基础规范，保证规则稳定性。

二、普通捕获分组详解与实战应用

普通捕获分组是使用频率最高的分组形式，语法为(匹配规则)，每一组括号对应一个独立捕获项，引擎会按照括号顺序为分组分配数字编号，后续可通过编号单独调取对应数据。re模块中findall、search、match等核心函数对分组的返回结果存在差异化表现，这也是初学者极易混淆的知识点。

2.1 分组在 re.findall () 中的表现

findall作为爬虫批量提取数据的核心函数，其返回规则为：当正则表达式包含分组时，函数不再返回完整匹配字符串，而是以元组形式返回每一组分组捕获的内容；若存在多个分组，元组内元素顺序与分组编号顺序保持一致。

2.1.1 单分组提取案例

该场景适用于从完整文本中截取单一核心字段，也是基础分组最常用的场景，模拟从商品行文本中单独提取商品名称。

python

运行

import re # 模拟爬虫获取的商品行文本 goods_text = "编号:SP001 商品:Python正则实战 价格:109元" # 正则规则：括号划分分组，单独捕获商品名称 pattern = r"商品:(.+?) " # 全局匹配 result = re.findall(pattern, goods_text) print("单分组提取结果：", result)

代码原理解析：

规则r"商品:(.+?) "中，(.+?)为普通捕获分组，采用非贪婪匹配，精准截取 “商品:” 之后、空格之前的文本内容。
由于表达式内仅有一个分组，findall最终返回一维列表，列表内元素即为分组捕获到的内容。
该写法区别于无分组正则，直接过滤掉前缀标识字符，仅保留目标数据，省去后续字符串切片处理步骤。

2.1.2 多分组同步提取案例

多分组是普通捕获分组的核心应用场景，可在一条规则内定义多个括号，单次匹配同时提取多个不同字段，广泛用于提取网页中编号、名称、价格、时间、链接等混合数据。

python

运行

import re # 模拟多条商品数据 goods_list = """ 编号:SP001 商品:Python正则实战 价格:109元 编号:SP002 商品:爬虫框架精讲 价格:129元 编号:SP003 商品:数据清洗技巧 价格:79元 """ # 三个分组，分别捕获编号、商品名称、价格 pattern = r"编号:(.+?) 商品:(.+?) 价格:(\d+)元" result = re.findall(pattern, goods_list) # 遍历输出多字段数据 print("多分组批量提取结果：") for item in result: goods_id, goods_name, price = item print(f"商品编号：{goods_id}，商品名称：{goods_name}，售价：{price}元")

代码原理解析：

正则表达式中依次设置三组(+?)、(+?)、(\d+)三个捕获分组，分别对应编号、名称、价格三个字段，分组顺序决定元组内数据顺序。
findall匹配到每一行符合规则的内容后，将三个分组的结果封装为元组，所有元组统一存入列表返回。
代码中通过序列解包将元组元素赋值给对应变量，实现字段拆分展示，该写法是爬虫多字段采集的标准范式。
价格字段使用\d+匹配纯数字，过滤文字单位，进一步精简数据，减少后续数据处理工作量。

2.2 分组在 re.search () 中的表现

search函数用于查找首个匹配结果，返回 Match 匹配对象。分组内容需要通过group(编号)进行调取，group(0)代表完整匹配的整段字符串，group(1)、group(2)依次调取对应编号分组的内容；同时支持groups()方法一次性获取所有分组，返回元组数据。

2.2.1 基础取值用法

python

运行

import re text = "订单号:DD20260611 收件人:张三 联系电话:13800138000" # 定义三个捕获分组 pattern = r"订单号:(.+?) 收件人:(.+?) 联系电话:(\d{11})" match_obj = re.search(pattern, text) if match_obj: # group(0) 获取完整匹配内容 print("完整匹配内容：", match_obj.group(0)) # 按编号获取单个分组 print("订单号：", match_obj.group(1)) print("收件人：", match_obj.group(2)) print("手机号：", match_obj.group(3)) # groups() 获取所有分组，返回元组 all_group = match_obj.groups() print("所有分组集合：", all_group)

代码原理解析：

search匹配成功后生成 Match 对象，该对象存储了完整匹配结果与所有分组捕获内容。
编号规则固定：group(0)为全局匹配文本，分组从左至右依次编号为 1、2、3，编号与括号顺序严格对应。
groups()方法会忽略group(0)，仅返回所有自定义捕获分组的内容，适用于一次性读取全部字段。
代码增加if判断，规避无匹配结果时调用分组方法引发的程序异常，符合工程开发规范。

2.3 普通分组的局限性总结

普通捕获分组依靠数字编号取值，语法简洁、执行效率高，适合分组数量较少（3 组以内）的场景。但存在明显短板：当正则规则较长、分组数量达到 5 组及以上时，纯数字编号难以区分每个分组对应的业务字段，代码可读性大幅下降，后期规则修改、字段调整时极易出现取值错位问题。针对该问题，正则提供命名分组语法进行优化。

三、命名分组详解与实战应用

命名分组在普通分组的基础上，为每一个分组自定义专属名称，取值时不再依赖数字编号，而是通过预设名称调取数据，从根源解决多分组场景下可读性差、取值易错位的问题。命名分组是复杂正则、长规则正则的首选方案，在爬虫结构化数据提取中应用广泛。

3.1 命名分组标准语法

Pythonre模块专属命名分组语法：(?P<分组名称>匹配规则)

?P<>：命名分组标识，为 Python 正则固定格式，不可省略或修改；
分组名称：自定义字符串，由字母、数字、下划线组成，不能以数字开头，建议结合业务语义命名；
匹配规则：与普通分组一致，填写对应元字符、限定符组合。

3.2 命名分组取值方式

命名分组同时支持名称取值与数字编号取值两种模式，兼容原有语法逻辑：

名称取值：match_obj.group("分组名称")，语义清晰，推荐使用；
编号取值：仍可使用group(1)、group(2)等数字编号，兼容旧代码。

3.3 命名分组实战案例

3.3.1 单条数据命名分组提取

模拟提取用户个人信息，使用语义化名称定义分组，直观区分每一个字段。

python

运行

import re user_text = "用户名:crawler01 性别:男 注册时间:2026-06-11 积分:2680" # 定义命名分组：username、gender、reg_time、score pattern = r"用户名:(?P<username>.+?) 性别:(?P<gender>.+?) 注册时间:(?P<reg_time>.+?) 积分:(?P<score>\d+)" match_obj = re.search(pattern, user_text) if match_obj: # 通过分组名称取值 print("用户名：", match_obj.group("username")) print("性别：", match_obj.group("gender")) print("注册时间：", match_obj.group("reg_time")) print("积分：", match_obj.group("score"))

代码原理解析：

每一个字段都使用(?P<字段名>规则)格式定义命名分组，分组名称直接对应业务含义，阅读代码即可知晓分组用途。
取值时直接传入分组名称，无需记忆分组顺序，即使后期调整正则规则顺序，只要分组名称不变，取值代码无需修改。
该写法大幅降低长正则、多分组代码的维护成本，适合字段数量多、规则频繁迭代的爬虫项目。

3.3.2 批量数据命名分组结合 findall 使用

findall函数搭配命名分组时，返回结果仍为元组列表，元组内元素顺序与分组定义顺序一致。若需要批量取值并区分字段，可结合序列解包或字典转换实现数据结构化。

python

运行

import re # 多条用户数据 user_data = """ 账号:user001 昵称:爬虫新手 等级:Lv3 账号:user002 昵称:数据采集师 等级:Lv6 账号:user003 昵称:正则达人 等级:Lv9 """ # 命名分组定义 pattern = r"账号:(?P<account>.+?) 昵称:(?P<nickname>.+?) 等级:(?P<level>.+)" result = re.findall(pattern, user_data) # 遍历并结构化输出 for account, nickname, level in result: print(f"账号：{account}，昵称：{nickname}，等级：{level}")

代码原理解析：

findall对命名分组的底层存储逻辑与普通分组一致，依旧按照分组先后顺序封装为元组。
批量数据场景下，命名分组主要作用是优化正则规则的可读性，让开发者编写规则时清晰区分各个捕获单元。
若需要将批量数据转为字典格式，可结合循环手动构建字典，实现字段名与数据一一映射，适配后续数据入库需求。

3.4 命名分组适用场景与选型建议

命名分组执行效率与普通分组基本一致，无性能损耗。在实际爬虫开发中可遵循以下选型原则：

分组数量≤3 组：优先使用普通捕获分组，语法简洁，代码简短；
分组数量≥4 组、正则规则较长、项目需要长期维护：强制使用命名分组，提升可读性与可维护性；
对外提供接口、团队协作开发的爬虫项目，统一使用命名分组，降低团队沟通与理解成本。

四、非捕获分组详解与实战应用

在部分匹配场景中，部分括号仅用于限定匹配范围、组合元字符、辅助整体匹配，并不需要单独提取内部内容，若使用普通捕获分组，会造成多余数据被存储、返回，浪费内存且干扰字段取值。正则提供非捕获分组专门解决该问题，只参与匹配逻辑，不执行捕获存储动作。

4.1 非捕获分组语法

语法格式：(?:匹配规则)核心特征：括号内增加?:标识，引擎识别后仅将该括号作为逻辑分组，不生成独立分组编号、不单独存储内容。

4.2 非捕获分组典型应用场景与案例

4.2.1 限定多选匹配范围

爬虫中常需要匹配多种前缀、多种格式的文本，使用|或运算符实现多选，结合非捕获分组限定多选范围，避免多余捕获。

python

运行

import re # 模拟网页链接文本，包含http与https两种协议 url_text = "官网地址：https://www.python.org 备用地址：http://www.csdn.net" # 非捕获分组限定协议范围，仅捕获域名部分 pattern = r"(?:http|https)://(.+)" result = re.findall(pattern, url_text) print("提取域名：", result)

代码原理解析：

(?:http|https)为非捕获分组，作用是限定匹配http或https两种协议，仅作为匹配条件，不会被单独提取。
表达式中仅有(.+)一个普通捕获分组，因此findall仅返回域名内容，协议部分被过滤，实现精准提取目标字段。
若此处使用普通分组(http|https)，则结果会同时返回协议与域名两组数据，造成数据冗余。

4.2.2 结合数量限定符组合规则

当一段组合规则需要重复匹配多次时，使用非捕获分组将多个元字符封装为整体，再搭配+、*、{n}等限定符，实现整体重复匹配。

python

运行

import re # 模拟连续编号文本 code_text = "编码序列：(A01)(A02)(A03)(A04)" # 非捕获分组封装单条编码规则，整体重复匹配 pattern = r"\((?:A\d{2})\)" result = re.findall(pattern, code_text) print("完整编码片段：", result)

代码原理解析：

(?:A\d{2})将A加两位数字封装为整体规则，非捕获分组保证该部分仅参与匹配，不单独拆分。
正则整体匹配括号包裹的编码片段，一次性提取所有完整编码，无需拆分内部字符，符合业务提取需求。

4.3 非捕获分组使用总结

非捕获分组的核心定位是辅助匹配，核心使用原则：凡是仅用于划分匹配范围、组合规则、实现多选，不需要单独提取内容的括号，全部使用非捕获分组。该语法可以精简返回结果、减少无效数据存储，是优化正则代码的重要手段，在复杂组合规则中建议常态化使用。

五、嵌套分组详解与复杂标签提取实战

当网页存在多层嵌套 HTML 标签、多级分段文本、层级化字段时，单层分组无法区分内外层数据，此时需要使用嵌套分组，即在一个分组内部再次定义新的分组，按照层级划分捕获单元。嵌套分组是正则处理复杂嵌套内容的核心语法，也是爬虫解析多层标签页面的必备技能。

5.1 嵌套分组编号规则

嵌套分组依旧遵循左括号优先编号原则，正则引擎从左至右扫描字符，每遇到一个左括号就分配一个新编号，无论括号是否处于其他分组内部。简单总结：编号顺序 = 左括号出现的先后顺序。

5.2 单层嵌套分组实战（HTML 双层标签提取）

模拟爬虫高频场景：<div><span>目标内容</span></div>双层嵌套标签，使用嵌套分组分别提取外层整体内容与内层核心文本。

python

运行

import re # 双层嵌套HTML源码 html_nest = '<div class="info"><span class="title">Python爬虫正则进阶教程</span></div>' # 外层分组包裹整体标签，内层分组捕获span中的文本 pattern = r'(<div.*?>(<span.*?>(.+?)</span>)</div>)' match_obj = re.search(pattern, html_nest) if match_obj: print("编号1（外层完整div标签）：", match_obj.group(1)) print("编号2（内层完整span标签）：", match_obj.group(2)) print("编号3（span内部文本）：", match_obj.group(3))

代码原理解析：

从左至右扫描左括号：第一个左括号为分组 1，第二个左括号为分组 2，第三个左括号为分组 3，编号依次生成。
分组 1 捕获完整的 div 嵌套结构，分组 2 捕获内部 span 完整标签，分组 3 最终提取页面展示的文本内容，三层分组实现层级拆分。
所有子分组均使用非贪婪匹配.*?，防止跨标签贪婪匹配导致内容错乱，嵌套场景下非贪婪匹配为强制规范。

5.3 多层嵌套分组综合案例

模拟三层嵌套标签，结合非捕获分组、普通嵌套分组，实现不同层级数据分离，还原真实复杂网页结构。

python

运行

import re # 三层嵌套HTML结构 html_more_nest = """ <div data-id="001"> <ul class="list"> <li>课程名称：正则分组实战</li> </ul> </div> """ # 正则规则：非捕获分组辅助匹配属性，嵌套分组分层捕获内容 pattern = r'(<div(?:\s+.*?)>(<ul(?:\s+.*?)>(<li>(.+?)</li>)</ul>)</div>)' result = re.search(pattern, html_more_nest, re.S) if result: print("div完整标签：", result.group(1)) print("ul完整标签：", result.group(2)) print("li完整标签：", result.group(3)) print("最终文本内容：", result.group(4))

代码原理解析：

规则中(?:\s+.*?)为非捕获分组，用于匹配标签内的属性、空白字符，仅辅助匹配，不单独捕获，精简分组数量。
四层普通嵌套分组按照左括号顺序依次编号，分别对应不同层级标签与文本。
匹配跨多行内容，因此添加re.S模式，让.元字符匹配换行符，保证嵌套标签完整匹配。
多层嵌套场景下，建议搭配在线正则测试工具先校验规则，确认分组编号与捕获内容无误后再写入爬虫代码。

5.4 嵌套分组优缺点与使用建议

5.4.1 优势

可以精准划分多层级文本、嵌套标签，实现分层提取，弥补单层分组无法处理嵌套结构的短板，适配复杂网页解析需求。

5.4.2 短板

分组层级越多，正则规则复杂度越高，编号记忆难度增大，代码可读性急剧下降；同时多层嵌套正则调试难度高，微小字符错误就会导致整体匹配失效。

5.4.3 选型建议

两层以内简单嵌套：可直接使用嵌套分组，灵活高效；
三层及以上深度嵌套标签、复杂层级结构：不建议过度使用嵌套正则，优先切换至 BeautifulSoup、lxml 等专业 DOM 解析库；
若业务强制使用正则处理多层嵌套，必须搭配非捕获分组精简无效分组，同时添加注释标注每一组分组用途。

六、反向引用语法与爬虫数据清洗实战

反向引用依托分组实现，核心作用是复用前面分组已经匹配到的内容，使用\分组编号引用对应分组的捕获结果。该语法在爬虫中主要用于清理重复字符、重复标签、对称符号、冗余重复文本，是数据清洗的高阶工具。

6.1 反向引用基础语法

语法格式：\数字，数字为已定义的捕获分组编号；
运行逻辑：正则引擎先执行前面的分组匹配，记录捕获内容，后续通过\数字引用该内容，要求对应位置字符与分组内容完全一致。

6.2 反向引用典型实战案例

6.2.1 清理重复字符

网页源码中常出现重复标点、重复空格、重复文字，使用反向引用快速匹配并删除重复内容。

python

运行

import re # 存在重复标点的文本 repeat_text = "教程内容丰富！！！！ 适合爬虫新手入门,,,,, 知识点全面" # 匹配连续重复的标点，分组捕获单个标点，反向引用匹配重复内容 pattern = r"([!，,])\1+" # 替换重复标点为单个字符 clean_text = re.sub(pattern, r"\1", repeat_text) print("清洗前：", repeat_text) print("清洗后：", clean_text)

代码原理解析：

([!，,])为捕获分组，匹配感叹号、逗号任意一种标点，并将字符存入分组 1。
\1+为反向引用，代表匹配和分组 1 内容相同的字符，且至少重复一次，整体匹配连续重复标点。
re.sub执行替换操作，替换内容填写r"\1"，即保留分组 1 的单个字符，实现重复标点去重。
该方案可批量清理全文档内的各类重复符号，效率远高于 Python 原生字符串循环处理。

6.2.2 匹配对称标签 / 对称符号

部分网页存在自定义对称标签、首尾一致的包裹符号，使用分组 + 反向引用可精准匹配成对内容。

python

运行

import re # 被【】符号包裹的文本 symbol_text = "【爬虫基础】【正则分组】【数据清洗】无用文本" # 分组匹配左符号，反向引用匹配右符号 pattern = r"【(.+?)】" result = re.findall(pattern, symbol_text) print("提取符号内文本：", result)

代码原理解析：该案例为基础对称匹配，拓展至动态对称符号场景：若文本为"#爬虫教程# & ￥正则实战￥"，可编写规则r"(.)(.+?)\1"，分组 1 匹配首位符号，\1反向引用匹配末尾相同符号，实现动态对称符号内容提取。

6.3 反向引用使用注意事项

反向引用只能引用捕获分组，无法引用非捕获分组，编写规则时注意区分分组类型；
引用编号必须小于当前位置分组编号，即只能引用前方已定义的分组，不能引用后方未匹配的分组；
反向引用区分字符大小写、全角半角，网页中英文、符号格式不统一时，需搭配re.I等模式常量辅助匹配。

七、综合实战：复杂网页多字段 + 嵌套内容完整爬虫案例

结合本章所学的普通分组、命名分组、非捕获分组、嵌套分组、反向引用，整合网络请求、规则编写、数据提取、数据清洗全流程，完成一套面向复杂静态网页的爬虫实战案例，模拟电商栏目页多层标签、多字段、冗余重复内容的解析场景。

7.1 案例需求

模拟爬取电商栏目页 HTML 源码，页面包含多层 div 嵌套、多商品混合字段；
利用分组语法一次性提取每个商品的标题、编号、原价、活动价、简介；
使用非捕获分组优化规则结构，使用反向引用清理源码中的重复空格与标点；
对提取的数据进行结构化整理，格式化输出结果。

7.2 完整实战代码

python

运行

import re import requests # 模拟网页源码，包含嵌套标签、多字段、重复符号与空白 html_source = """ <div class="goods-box"> <div class="item"> <h3>【Python爬虫入门教程】</h3> <p>商品编号：GD20260601</p> <p>原价：199元 活动价：99元</p> <span>简介：零基础快速掌握爬虫基础,,,,,</span> </div> <div class="item"> <h3>【正则分组进阶实战】</h3> <p>商品编号：GD20260602</p> <p>原价：169元 活动价：89元</p> <span>简介：攻克复杂文本提取难点！！！！</span> </div> </div> """ # 第一步：预编译清洗规则，反向引用清理重复标点与空格 clean_pattern = re.compile(r"([，。！, ])\1+") html_clean = clean_pattern.sub(r"\1", html_source) # 第二步：预编译数据提取规则，结合嵌套分组、非捕获分组 # 非捕获分组匹配标签属性，嵌套分组提取多字段 extract_pattern = re.compile( r'<div(?:\s+class="item".*?)' r'<h3>【(?P<title>.+?)】</h3>' r'<p>商品编号：(?P<goods_id>.+?)</p>' r'<p>原价：(?P<old_price>\d+)元 活动价：(?P<new_price>\d+)元</p>' r'<span>简介：(?P<desc>.+?)</span>', re.S ) # 全局匹配所有商品数据 data_list = extract_pattern.findall(html_clean) # 第三步：结构化输出数据 print("========== 复杂网页爬虫提取结果 ==========") index = 1 for item in data_list: title, goods_id, old_price, new_price, desc = item print(f"第{index}件商品") print(f"商品标题：{title}") print(f"商品编号：{goods_id}") print(f"原价：{old_price} 元，活动价：{new_price} 元") print(f"商品简介：{desc}\n") index += 1

7.3 代码分层原理详解

数据清洗模块使用re.compile预编译清洗规则，([，。！, ])\1+通过分组 + 反向引用匹配连续重复的标点与空格，sub方法将重复内容替换为单个字符，完成源码预处理，避免冗余符号干扰数据提取。
提取规则模块整体规则拆分编写，提升可读性；(?:\s+class="item".*?)为非捕获分组，仅匹配 div 标签属性，不参与数据捕获；核心字段全部采用命名分组语义化定义，区分标题、编号、价格、简介五大字段。开启re.S模式，适配跨多行的嵌套标签。
数据提取与输出模块findall全局匹配所有商品模块，返回元组列表；通过循环解包字段，格式化输出结构化数据。整套流程遵循「先清洗、再提取、后整理」的爬虫标准处理流程。

7.4 案例拓展至线上真实网页

将模拟源码替换为requests网络请求代码，添加请求头、超时、编码设置，即可直接应用于线上静态网页爬取，拓展代码如下：

python

运行

import re import requests headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36" } url = "https://target-static-page.com" response = requests.get(url, headers=headers, timeout=10) response.encoding = "utf-8" html_source = response.text # 后续清洗、提取、输出代码与上述案例完全一致

八、正则分组常见错误、排错方案与综合选型规范

8.1 分组高频错误及解决办法

8.1.1 分组编号错乱

现象：group(编号)取值内容与预期不符。原因：嵌套分组、多分组场景下，未遵循「左括号优先编号」规则，编号记忆错误。解决方案：将正则规则放入在线测试工具，查看分组编号对应内容，再调整代码取值逻辑；多分组场景优先改用命名分组。

8.1.2 非捕获分组误用

现象：不需要的内容被大量提取，结果冗余。原因：辅助匹配的括号使用了普通捕获分组。解决方案：仅做范围限定、多选匹配的括号统一改为(?:)非捕获分组。

8.1.3 反向引用匹配失效

现象：无法匹配重复字符、对称内容。原因：引用了非捕获分组，或引用编号大于当前已定义分组编号。解决方案：检查分组类型，确保反向引用指向普通捕获分组，引用编号小于当前位置。

8.1.4 嵌套分组跨换行匹配失败

现象：多层嵌套标签无匹配结果。原因：未开启re.S模式，.无法匹配换行符。解决方案：匹配函数或编译规则时添加re.S参数。

8.2 分组综合选型规范（爬虫工程化标准）

结合全部分组语法特性，针对不同爬虫场景制定统一选型标准，降低决策成本：

简单单字段提取：无分组 / 单层普通捕获分组；
2~3 个字段同步提取：普通捕获分组，语法简洁高效；
4 个及以上字段、长期维护项目、团队协作：命名分组，保障代码可读性；
仅用于范围限定、多选、规则组合：强制使用非捕获分组，精简结果；
两层以内标签 / 文本嵌套：嵌套分组；三层及以上深度嵌套：放弃正则分组，改用 DOM 解析库；
重复字符、对称内容清洗：分组 + 反向引用组合使用。

8.3 正则分组开发通用规范

所有分组正则统一使用原始字符串r""，规避转义问题；
解析标签类内容，分组内部一律使用非贪婪匹配.*?；
同一规则重复调用（循环爬取页面），必须使用re.compile()预编译；
复杂分组规则编写完成后，优先在在线正则测试工具完成校验，再接入爬虫代码；
长规则正则按逻辑分段编写，添加代码注释标注每个分组的作用。

九、本章总结

正则分组是基础正则的核心进阶能力，也是处理爬虫复杂文本、多字段、嵌套内容的关键技术。本章系统讲解了普通捕获分组、命名分组、非捕获分组、嵌套分组、反向引用五大分组体系，结合大量贴近真实业务的爬虫案例，拆解语法逻辑、运行原理与落地用法。

通过本章学习，可实现以下能力提升：一是区分不同分组类型的适用场景，根据业务需求合理选型；二是掌握多字段同步提取、嵌套标签解析、重复内容清洗等复杂数据处理能力；三是规避分组使用过程中的高频错误，建立规范的正则编码习惯。

正则分组与基础元字符、限定符结合后，正则表达式的解析能力已覆盖绝大多数轻量化爬虫场景。下一章节将基于现有正则知识，讲解入门级爬虫代码的优化思路、性能调优、结构重构与代码精简方案，进一步提升爬虫代码的工程质量与运行效率。

前言

一、正则分组核心概念与分类

1.1 分组的定义与爬虫价值

1.2 分组基础匹配规则补充

二、普通捕获分组详解与实战应用

2.1 分组在 re.findall () 中的表现

2.1.1 单分组提取案例

2.1.2 多分组同步提取案例

2.2 分组在 re.search () 中的表现

2.2.1 基础取值用法

2.3 普通分组的局限性总结

三、命名分组详解与实战应用

3.1 命名分组标准语法

3.2 命名分组取值方式

3.3 命名分组实战案例

3.3.1 单条数据命名分组提取

3.3.2 批量数据命名分组结合 findall 使用

3.4 命名分组适用场景与选型建议

四、非捕获分组详解与实战应用

4.1 非捕获分组语法

4.2 非捕获分组典型应用场景与案例

4.2.1 限定多选匹配范围

4.2.2 结合数量限定符组合规则

4.3 非捕获分组使用总结

五、嵌套分组详解与复杂标签提取实战

5.1 嵌套分组编号规则

5.2 单层嵌套分组实战（HTML 双层标签提取）

5.3 多层嵌套分组综合案例

5.4 嵌套分组优缺点与使用建议

5.4.1 优势

5.4.2 短板

5.4.3 选型建议

六、反向引用语法与爬虫数据清洗实战

6.1 反向引用基础语法

6.2 反向引用典型实战案例

6.2.1 清理重复字符

6.2.2 匹配对称标签 / 对称符号

6.3 反向引用使用注意事项

七、综合实战：复杂网页多字段 + 嵌套内容完整爬虫案例

7.1 案例需求

7.2 完整实战代码

7.3 代码分层原理详解

7.4 案例拓展至线上真实网页

八、正则分组常见错误、排错方案与综合选型规范

8.1 分组高频错误及解决办法

8.1.1 分组编号错乱

8.1.2 非捕获分组误用

8.1.3 反向引用匹配失效

8.1.4 嵌套分组跨换行匹配失败

8.2 分组综合选型规范（爬虫工程化标准）

8.3 正则分组开发通用规范

九、本章总结

深入SkyEye：拆解FT-M6678 DSP仿真模型如何‘欺骗’ReWorks国产操作系统

Windows下可直接运行的C++加壳工具集：含加壳主程序、Shell动态库与完整VS2013源码

从手机快充到5G基站：深入浅出聊聊GaN HEMT里那个神奇的2DEG层

别再凭感觉了！手把手教你计算电容串并联的等效耐压（附Excel计算器）

告别理想模型：用CGH40010F在ADS里手把手搭建一个更真实的Doherty功放（附工程文件）

VMware(Omnissa) Horizon8部署流程及最佳实践-基础篇