news 2026/4/20 16:05:39

31、Unicode 正则表达式与编码全解析

张小明

前端开发工程师

1.2k 24

文章封面图 — 31、Unicode 正则表达式与编码全解析

Unicode 正则表达式与编码全解析

1. Unicode 字符属性

1.1 预定义字符属性

\p{Unicode}：匹配 1,114,112 个 Unicode 码点中的任意一个，等同于 \p{Any}。
\p{VertSpace}：与 \v 相同，代表垂直间距变化的字符。
\p{Word}：和 \w 一样，包含超过 100,000 个 ASCII 之外的字符。
\p{XPosix…}：有多个此类属性，是标准 Posix 类扩展到完整 Unicode 范围的结果，具体在相关文档中描述。

1.2 用户自定义字符属性

用户可以通过定义以 In 或 Is 开头的子例程来定义自己的二进制字符属性。子例程可以在任何包中定义，并且可以在正则表达式的 \p{} 和 \P{} 结构中使用。

# 假设在 Lang 包中定义了 Is_Foreign 属性 package main; if ($txt =~ /\p{Lang::IsForeign}+/) { ... } package Lang; if ($txt =~ /\p{IsForeign}+/) { ... }

子例程接收一个参数，0 表示区分大小写匹配，非零表示不区分大小写匹配。子例程应返回一个特殊格式的字符串，每行可以

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！