当前位置：首页 > 互联网 > 正文内容

Python re模块用法详解

小楼听雨8个月前 (05-20)互联网84

在 Python 爬虫过程中，实现网页元素解析的方法有很多，正则解析只是其中之一，常见的还有 BeautifulSoup 和 lxml，它们都支持网页 HTML 元素的解析操作。本节重点讲解如何使用 re 正则解析模块实现网页信息的提取。

注意：在学习本节知识之前，您应该基本掌握了 Python re 模块的常用方法。

re模块常用方法

1) re.compile()

该方法用来生成正则表达式对象，其语法格式如下：

regex=re.compile(pattern,flags=0)

参数说明：

pattern：正则表达式对象。
flags：代表功能标志位，扩展正则表达式的匹配。

2) re.findall()

根据正则表达式匹配目标字符串内容。

re.findall(pattern,string,flags=0)

该函数的返回值是匹配到的内容列表，如果正则表达式有子组，则只能获取到子组对应的内容。参数说明如下：

pattern：正则表达式对象。
string：目标字符串
flags：代表功能标志位，扩展正则表达式的匹配。

3) regex.findall()

该函数根据正则表达式对象匹配目标字符串内容。其语法格式如下：

regex.findall(string,pos,endpos)

参数说明：

string 目标字符串。
pos 截取目标字符串的开始匹配位置。
endpos 截取目标字符串的结束匹配位置。

4) re.split()

该函数使用正则表达式匹配内容，切割目标字符串。返回值是切割后的内容列表。参数说明：

re.split(pattern,string,flags = 0)

参数说明：

pattern：正则表达式。
string：目标字符串。
flags：功能标志位,扩展正则表达式的匹配。

5) re.sub
该函数使用一个字符串替换正则表达式匹配到的内容。返回值是替换后的字符串。其语法格式如下：

re.sub(pattern,replace,string,max,flags = 0)

其参数说明：

pattern：正则表达式。
replace：替换的字符串。
string：目标字符串。
max：最多替换几处，默认替换全部，
flags：功能标志位,扩展正则表达式的匹配。

5) re.search()

匹配目标字符串第一个符合的内容，返回值为匹配的对象。语法格式如下：

re.search(pattern,string,flags=0)

参数说明：

pattern：正则表达式
string：目标字符串

flags功能标志位

功能标志位的作用是扩展正则表达的匹配功能。常用的 flag 如下所示：

缩写元字符	说明
A	元字符只能匹配 ASCII码。
I	匹配忽略字母大小写。
S	使得`.`元字符可以匹配换行符。
M	使 ^ $ 可以匹配每一行的开头和结尾位置。

注意：可以同时使用福多个功能标志位，比如 flags=re.I|re.S。

下面使用贪婪和非贪婪两种模式来匹配 HTML 元素，分别，如下所示：

import rehtml="""<div><p>www.biancheng.net</p></div><div><p>编程帮</p></div>"""#贪婪匹配，re.S可以匹配换行符#创建正则表达式对象pattern=re.compile('<div><p>.*</p></div>',re.S)#匹配HTMLX元素，提取信息re_list=pattern.findall(html)print(re_list)#非贪婪模式匹配，re.S可以匹配换行符pattern=re.compile('<div><p>.*?</p></div>',re.S)re_list=pattern.findall(html)print(re_list)

输出结果：

['<div><p>www.biancheng.net</p></div>\n<div><p>编程帮</p></div>']
['<div><p>www.biancheng.net</p></div>', '<div><p>编程帮</p></div>']

从上述输出结果可以得出非贪婪模式比适合提取 HTML 信息。

正则表达式分组

通过正则表达式分组可以从匹配的信息中提取出想要的信息。示例演示：

#正则表达式分组website="编程帮 www.biancheng.net"#提取所有信息#注意此时正则表达式的 "." 需要转义因此使用 \.pattern_1=re.compile('\w+\s+\w+\.\w+\.\w+')print(pattern_1.findall(website))#提取匹配信息的第一项pattern_2=re.compile('(\w+)\s+\w+\.\w+\.\w+')print(pattern_2.findall(website))#有两个及以上的()则以元组形式显示pattern_3=re.compile('(\w+)\s+(\w+\.\w+\.\w+)')print(pattern_3.findall(website))

输出结果：

['编程帮 www.biancheng.net']
['编程帮']
[('编程帮', 'www.biancheng.net')]

正则表达式分组是提取信息的常用方式。当需要哪个特定信息的时候，就可以通过分组(也就是加括号)的方式获得。

网页信息提取

实战演练：从下面的 HTML 代码中使用 re 模块提取出两部影片的名称和主演信息。

html="""<div class="movie-item-info"><p class="name"><a title="你好，李焕英">你好，李焕英</a></p><p class="star">主演：贾玲,张小斐,沈腾</p>    </div><div class="movie-item-info"><p class="name"><a title="刺杀，小说家">刺杀，小说家</a></p><p class="star">主演：雷佳音,杨幂,董子健,于和伟</p>    </div> """# 寻找HTML规律，书写正则表达式，使用正则表达式分组提取信息pattern=re.compile(r'<div.*?<a title="(.*?)".*?star">(.*?)</p.*?div>',re.S)r_list=pattern.findall(html)print(r_list)# 整理数据格式并输出if  r_list:    for r_info in  r_list:        print("影片名称：",r_info[0])        print("影片主演：",r_info[1].strip())        print(20*"*")

输出结果如下：

[('你好，李焕英', '\n主演：贾玲,张小斐,沈腾\n'), ('刺杀，小说家', '\n主演：雷佳音,杨幂,董子健,于和伟\n')]

影片名称： 你好，李焕英
影片主演： 主演：贾玲,张小斐,沈腾
********************
影片名称： 刺杀，小说家
影片主演： 主演：雷佳音,杨幂,董子健,于和伟
********************

扫描二维码推送至手机访问。

本文链接：https://www.xyz5668.top/?id=9

分享给朋友：

返回列表

上一篇：Python类对象的创建和使用

下一篇：Python Scrapy爬虫框架详解

“Python re模块用法详解” 的相关文章

Python Selenium基本用法

Selenium 作为一款 Web 自动化测试框架，提供了诸多操作浏览器的方法，本节对其中的常用方法做详细介绍。定位节点Selenium 提供了 8 种定位单个节点的方法，如下所示：方法说明find_element_by_id()通过 id 属性值定位find_element_by_name()通过...

Python爬虫实现Cookie模拟登录

在使用爬虫采集数据的规程中，我们会遇到许多不同类型的网站，比如一些网站需要用户登录后才允许查看相关内容，如果遇到这种类型的网站，又应该如何编写爬虫程序呢？Cookie 模拟登录技术成功地解决了此类问题。Cookie 是一个记录了用户登录状态以及用户属性的加密字符串。当你第一次登陆网站时，服务端会在返...

Python多线程爬虫详解

网络爬虫程序是一种 IO 密集型程序，程序中涉及了很多网络 IO 以及本地磁盘 IO 操作，这些都会消耗大量的时间，从而降低程序的执行效率，而 Python 提供的多线程能够在一定程度上提升 IO 密集型程序的执行效率。如果想学习 Python 多进程、多线程以及 Python GIL 全局解释器锁...

Python re模块用法详解

re模块常用方法

1) re.compile()

2) re.findall()

3) regex.findall()

4) re.split()

5) re.search()

flags功能标志位

正则表达式分组

网页信息提取

“Python re模块用法详解” 的相关文章

Python Selenium基本用法

Python爬虫实现Cookie模拟登录

Python多线程爬虫详解

发表评论

Copyright © 2026 小楼听雨 All Rights Reserved

Python re模块用法详解

re模块常用方法

1) re.compile()

2) re.findall()

3) regex.findall()

4) re.split()

5) re.search()

flags功能标志位

正则表达式分组

网页信息提取

“Python re模块用法详解” 的相关文章

Python Selenium基本用法

Python爬虫实现Cookie模拟登录

Python多线程爬虫详解

发表评论取消回复

Copyright © 2026 小楼听雨 All Rights Reserved

发表评论