news 2026/4/18 4:00:13

Bash 中如何使用正则表达式进行文本处理?(中等)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Bash 中如何使用正则表达式进行文本处理?(中等)

👨‍⚕️主页: gis分享者
👨‍⚕️感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅!
👨‍⚕️收录于专栏:Shell 面试

文章目录

  • 一、🍀前言
    • 1.1 ☘️示例
    • 1.2 ☘️知识扩展
    • 1.3 ☘️实践指南

一、🍀前言

在 Bash 脚本中,可以使用正则表达式来进行文本处理,最常用的工具是 grep、sed 和 awk。

1.1 ☘️示例

举个简单的例子,假设你有一个文本文件 example.txt,你想查找包含特定模式的行。
你可以使用 grep:

grep'pattern'example.txt

如果你想对文本进行替换,可以用 sed:

sed's/old_pattern/new_pattern/g'example.txt

对于更复杂的文本处理,例如统计、格式化,你可以用 awk:

awk'/pattern/ {print $0}'example.txt

1.2 ☘️知识扩展

1)grep:

grep 是最基础的文本搜索工具,它支持基本和扩展的正则表达式。
例子:
查找包含数字的行: grep ‘[0-9]’ example.txt
忽略大小写查找:grep -i ‘pattern’ example.txt
查找并显示行号:grep -n ‘pattern’ example.txt
递归查找:grep -r ‘pattern’ /path/to/directory

2)sed:

sed 是一个流编辑器,用于对文本进行筛选和替换。
例子:
替换文件中第一次出现的匹配:sed ‘s/pattern/replacement/’ example.txt
替换整个文件中的所有匹配:sed ‘s/pattern/replacement/g’ example.txt
删除包含特定模式的行:sed ‘/pattern/d’ example.txt
在特定模式后添加文本:sed ‘/pattern/a\new text’ example.txt

3)awk:

awk 是一个强大的文本处理工具,适用于格式化报告和统计分析。
例子:
查找并打印匹配的行:awk ‘/pattern/ {print $0}’ example.txt
分隔特定字段并打印:awk -F: ‘{print $1}’ example.txt(假设文件以冒号分隔)
统计出现次数:awk ‘/pattern/ {count++} END {print count}’ example.txt

进阶内容

1)复杂模式匹配

使用扩展正则表达式:通过添加 -E 参数,你可以让 grep 使用扩展正则:grep -E ‘pattern1|pattern2’ example.txt。
同理,你也可以在 sed 中使用扩展正则:sed -E ‘s/old_pattern(new_pattern)/replacement/g’ example.txt

2)结合工具使用

你可以将这几个工具组合使用,以实现更复杂的文本处理任务。例如,先用 grep 筛选,再用 awk 处理:

grep'pattern'example.txt|awk'{print $1}'

1.3 ☘️实践指南

一、核心处理方式

  1. 原生Bash正则匹配
if[["string"=~ ^regex_pattern$]];thenecho"匹配成功"echo"捕获组:${BASH_REMATCH[1]}"fi
  1. 高级参数扩展
var="2024-07-25_log.txt"echo${var//[^0-9]/}# 删除非数字字符 → 20240725echo${var/#*_/} # 去除前缀保留文件名 → log.txt

二、常用工具链

工具能力范围典型用例
grep模式搜索过滤`grep -E 'error
sed流式编辑替换sed -E ‘s/(\d{4})-(\d{2})/\2/\1/g’
awk结构化字段处理awk ‘/GET/ && $9==200 {print $7}’ log
perlPCRE高级正则perl -pe ‘s/\b\d+\b/NUM/g’

三、正则表达式类型

# 基础正则(BRE)grep'^From: .*@ctc.com$'emails.txt# 扩展正则(ERE)grep-E'[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z]{2,4}'contacts.txt# Perl兼容正则(PCRE)grep-P'\d{4}-\d{2}-\d{2}T\d{2}:\d{2}Z'timestamps.log

四、实战案例

  1. 日志分析
# 提取HTTP状态码非200的请求tail-f access.log|awk'match($0, /HTTP\/1\.1" ([0-9]{3})/, arr) && arr[1] != 200'
  1. 数据清洗
# 标准化电话号码格式sed-E's/(\+86)?[ ]*([0-9]{3})-?([0-9]{4})-?([0-9]{4})/\1 \2-\3-\4/'contacts.csv
  1. 安全检测
# 检测SQL注入特征grep-P'(union\s+select|sleep\(\d+\)|benchmark\(|\b(and|or)\b.+=[^'"'"']*["'"'"]\s*["'"'"])'web_logs

五、性能优化建议

  1. 优先使用原生Bash操作避免子进程开销
  2. 复杂匹配使用预编译正则(如awk/perl)
  3. 大文件处理时结合LC_ALL=C提升ASCII处理速度
  4. 避免贪婪匹配.*改用精准限定符

六、调试技巧

# 可视化匹配过程grep--color=auto-nE'pattern'file# 测试正则表达式pcre2test# 专用测试工具
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 17:07:27

模拟I2C多设备通信调试技巧系统学习

模拟I2C多设备通信调试实战:从原理到稳定运行的全链路避坑指南在嵌入式开发中,你有没有遇到过这样的场景?项目进入联调阶段,板子上挂了五六个IC传感器——温湿度、加速度计、光照、RTC、EEPROM……结果一通电,部分设备…

作者头像 李华
网站建设 2026/4/18 3:58:41

GPT-SoVITS支持哪些音频格式?输入输出规范详解

GPT-SoVITS 支持哪些音频格式?输入输出规范详解 在语音合成技术飞速发展的今天,个性化音色克隆已不再是科幻电影中的桥段。无论是虚拟主播的实时互动、有声读物的定制化朗读,还是企业客服的声音品牌统一,用户对“像人一样说话”的…

作者头像 李华
网站建设 2026/4/18 3:59:19

出道即巅峰,这5个免费软件,错过任何一个都是遗憾!

存在即合理,但对软件来说,并不总成立。很多免费软件,要么难用,要么用着用着就开始收费。但也确实有一类工具,一出现就站在“完成度很高”的位置上,用过之后很难再换,可以算得上典型的“出道即巅…

作者头像 李华
网站建设 2026/4/16 17:57:04

STM32多串口不同波特率同步配置操作指南

STM32多串口不同波特率配置实战:从原理到工业级应用在嵌入式开发的日常中,你是否遇到过这样的场景?系统需要同时连接GPS模块、Wi-Fi通信模组和调试终端,而它们各自坚持使用不同的“语言节奏”——9600、115200甚至460800 bps。如果…

作者头像 李华