python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Python数据分析正则表达式匹配

Python数据分析中正则表达式匹配字符串与常用函数示例详解

作者:流㶡

正则表达式是处理文本数据的强大工具,Python通过re模块提供了完整的正则表达式功能,这篇文章主要介绍了Python数据分析中正则表达式匹配字符串与常用函数的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下

前言

在真实的数据分析项目中,原始数据往往“脏乱差”——包含大量非结构化文本,如用户评论、日志、网页抓取内容等。如何从中精准提取电话号码、邮箱、日期、金额等关键信息?答案就是:正则表达式(Regular Expression)

Python 通过标准库 re 提供了强大而灵活的正则支持。本文将系统讲解正则在数据分析中的核心用法,涵盖:

一、匹配字符串:三大核心函数

1.re.match():从字符串开头匹配

使用形式:

re.match(参数1,参数2)

功能:表示从参数2(字符串类型数据)中查找满足参数1(正则表达式)的内容。

实例代码:

import re

messaga = '张三、李四、王五、赵六、张三'
result = re.match('张三', messaga)
print(result)

result1 = re.match('李四', messaga)
print(result1)

代码执行结果:

2.re.search():全文搜索首次匹配

使用形式:

re.search(参数1,参数2)

功能:表示从参数2(字符串类型数据)中查找满足参数1(正则表达式)的内容,如果匹配了多个参数1,则只返回第一个匹配成功的信息。

示例代码:

messaga1 = '张三、李四、王五、赵六、王五'
result2 = re.search('王五', messaga1)
print(result2)

代码执行结果:

只返回第一个匹配成功的信息。

3.re.findall():查找所有匹配项

使用形式:

re.findall(参数1,参数2)

功能:表示从参数2(字符串类型数据)中查找满足参数1(正则表达式)的内容,如果匹配了多个参数1,则返回匹配成功的全部信息。

import re

messaga1 = '张三、李四、王五、赵六、王五'
result3 = re.findall('王五', messaga1)
print(result3)

运行结果:
['王五','王五']

findall()并不返回匹配的位置,只返回匹配的全部内容。

二、正则表达式基础语法

表示字符范围:[...]

用方括号定义可接受的字符集合

表达式含义
[abc]匹配 a、b 或 c
[a-z]匹配任意小写字母
[0-9]等价于 \d,匹配数字
[^0-9]取反,匹配非数字字符

示例:

import re

message = 'Pythonnnnncc93,c87,Javac63,C++88'
result_1 = re.search('[cn]', message)  # 只返回第一个匹配成功的信息
result_2 = re.findall('[0-9]', message)
result_3 = re.findall('[cn]*[0-9]', message)
print(result_1)
print(result_2)
print(result_3)

运行结果:

表示字符出现的次数(量词)

符号含义示例
*0 次或多次ab* → "a", "ab", "abb"
+1 次或多次\d+ → 至少一个数字
?0 次或 1 次colou?r → "color" / "colour"
{n}恰好 n 次\d{4} → 四位年份
{n,}至少 n 次\d{3,} → 三位及以上数字
{n,m}n 到 m 次\d{2,4} → 2~4 位数字

示例:

import re

message1 = 'da2a7ddbre77yifed777t3fefd777b'
result = re.findall('[a-z]*[0-9][a-z]', message1)
print(result)

运行结果:

表示同一类字符(预定义字符类)

符号等价写法含义
\d[0-9]数字
\D[^0-9]非数字
\w[a-zA-Z0-9_]单词字符(字母、数字、下划线)
\W[^a-zA-Z0-9_]非单词字符
\s[ \t\n\r\f\v]空白字符
\S[^\t\n\r\f\v]非空白字符
\b单词边界,即单词中与空格邻接的字符
\B非单词边界
\f分页符
\n换行符
\r回车符
\t制表符
\v垂直制表符
.:匹配除"\n"和"\r"之外的任何单个字符

示例:清洗文本中的非字母数字字符

import re

text = "Hello, World! 123 @#$"
clean = re.sub(r"\W", " ", text)  # \W = 非单词字符
print(clean)  # "Hello  World  123   "

三、贪婪模式 vs 非贪婪模式

贪婪和非贪婪模式指是否匹配更多内容,具体使用如下:

text = "<div>Hello</div><div>World</div>"

# 贪婪:匹配整个字符串
print(re.search(r"<div>.*</div>", text).group())
# 输出:<div>Hello</div><div>World</div>

# 非贪婪:只匹配第一个标签
print(re.search(r"<div>.*?</div>", text).group())
# 输出:<div>Hello</div>

数据分析提示:提取 HTML/XML 标签、JSON 片段时,务必使用非贪婪模式

四、 “或” 和 分组(Grouping)

逻辑“或”:|

re.findall(r"jpg|png|gif", "image1.jpg, image2.png, icon.gif")
# 输出:['jpg', 'png', 'gif']

分组:(...)与捕获

用括号将模式分组,便于提取子内容:

date_str = "2025-04-05"
match = re.search(r"(\d{4})-(\d{2})-(\d{2})", date_str)
print(match.groups())      # ('2025', '04', '05')
print(match.group(1))      # '2025'(年)

五、sub()和compile()方法

re.sub():替换匹配内容

import re

text = "Call me at 138****5678"
cleaned = re.sub(r"\d{3}\*\*\*\d{4}", "[PHONE_HIDDEN]", text)
print(cleaned)  # Call me at [PHONE_HIDDEN]

支持使用分组引用(\1\2):

import re

text = "John Doe"
swapped = re.sub(r"(\w+) (\w+)", r"\2, \1", text)
print(swapped)  # Doe, John

re.compile():预编译正则(提升性能)

同一正则需多次使用(如处理百万行数据),应先编译:

phone_pattern = re.compile(r"1[3-9]\d{9}")

# 后续可直接调用
if phone_pattern.search(text1):
    ...
if phone_pattern.findall(text2):
    ...

综合案例:

给定字符串 log_info = "用户ID:10086,订单号:ORD20260122001,支付金额:99.9元;用户ID:10087,订单号:ORD20260122002,支付金额:199.5元;用户ID:10088,订单号:ORD20260122003,支付金额:0.88元"

1、基础匹配:提取所有的用户 ID 数字(如 10086、10087、10088),并以列表形式输出。

2、捕获组 + 贪婪 / 非贪婪:提取所有的订单号(如 ORD20260122001),要求分别用贪婪匹配和非贪婪匹配实现,并对比两种方式的结果(思考为什么结果一致 / 不一致)。

3、数值提取:提取所有的支付金额数字(仅保留数字部分,如 99.9、199.5、0.88),忽略 “元” 字,最终输出浮点数列表。

实现代码:

import re

log_info = "用户ID:10086,订单号:ORD20260122001,支付金额:99.9元;用户ID:10087,订单号:ORD20260122002,支付金额:199.5元;用户ID:10088,订单号:ORD20260122003,支付金额:0.88元"

pattern1 = re.compile(':(\d+),')
print(pattern1.findall(log_info))

pattern2 = re.compile('ORD\d+')  # 贪婪模式
print(pattern2.findall(log_info))

pattern3 = re.compile('ORD2026012200\d+?')  # 非贪婪模式
print(pattern3.findall(log_info))

pattern4 = re.compile(':(\d+.\d+)元')
print(pattern4.findall(log_info))

结语

记住口诀

  • 提取一个用 search
  • 提取多个用 findall
  • 替换内容用 sub
  • 高频使用要 compile

总结 

到此这篇关于Python数据分析中正则表达式匹配字符串与常用函数的文章就介绍到这了,更多相关Python数据分析正则表达式匹配内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
阅读全文