【Python技能树共建】Beautiful Soup
持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第16天,点击查看活动详情
Beautiful Soup模块是什么
初学 Python 爬虫,十之八九你采集的目标是网页,因此快速定位到网页内容,就成为你面临的第一道障碍, 本篇博客就为你详细说明最易上手的网页元素定位术,学完就会系列。
本文核心使用到的是 Beautiful Soup 模块,因此我们用来做测试采集的站点,也是其官网(现阶段爬虫采集越来越严格,很多站点不能在采集了,很容易被封杀,只能学谁就采集谁了)
官方站点
txt
www.crummy.com/software/BeautifulSoup/
Beautiful Soup 在 Python 爬虫圈知名度极高,而且非常好用,它是一款 Python 解析库,主要用于将 HTML 标签转换为 Python 对象树,然后让我们从对象树中提取数据。
模块的安装及其简单:
shell
pip install bs4 -i 国内任意源即可
未来安装任何模块,都尽量使用国内源,速度快稳定。
该模块包名称为 bs4,安装的时候需要特别注意下。
基础用法如下所示
```python import requests from bs4 import BeautifulSoup
def ret_html(): """获取HTML元素""" res = requests.get('http://www.crummy.com/software/BeautifulSoup/', timeout=3) return res.text
if name == 'main': html_str = ret_html() soup = BeautifulSoup(html_str, 'lxml') print(soup) ```
其中需要注意的就是模块导入代码,以及实例化 soup
对象时,在 BeautifulSoup
类的构造函数中传递的两个参数,一个是待解析的字符串,另一个是解析器,官方建议的是 lxml
,因其解析速度快。
上述代码输出的内容如下所示,看上去就是普通的 HTML 代码文件。
而且我们可以调用 soup
对象的 soup.prettify()
方法,可以将 HTML 标签进行格式化操作,这样你就可以在存储到外部文件的时候,让其 HTML 代码进行美观。
BeautifulSoup 模块的对象说明
BeautifulSoup 类可以将 HTML 文本解析成 Python 对象树,而这里面又包括最重要的四种对象,分别是 Tag
,NavigableString
,BeautifulSoup
,Comment
对象,接下来我们一一介绍。
BeautifulSoup 对象
该对象本身就代表整个 HTML 页面,而且实例化该对象的时候,还会自动补齐 HTML 代码。
python
html_str = ret_html()
soup = BeautifulSoup(html_str, 'lxml')
print(type(soup))
Tag 对象
Tag 是标签的意思,Tag 对象就是网页标签,或者叫做网页元素对象,例如获取 bs4 官网的 h1 标签对象,代码如下所示:
```python if name == 'main': html_str = ret_html() soup = BeautifulSoup(html_str, 'lxml') # print(soup.prettify()) # 格式化 HTML
print(soup.h1)
```
得到的也是网页中的 h1 标签:
```html
Beautiful Soup
```
用 Python 中的 type 函数,可以查看其类型,代码如下:
python
print(soup.h1)
print(type(soup.h1))
此时得到的可不是一个字符串,而是一个 Tag 对象。
```shell
Beautiful Soup
既然是 Tag 对象,那就会具备一些特定的属性值
获取标签名称
python
print(soup.h1)
print(type(soup.h1))
print(soup.h1.name) # 获取标签名称
通过 Tag 对象获取标签的属性值
python
print(soup.img) # 获取网页第一个 img 标签
print(soup.img['src']) # 获取网页元素DOM的属性值
通过 attrs 属性获取标签的所有属性
```python print(soup.img) # 获取网页第一个 img 标签
print(soup.img.attrs) # 获取网页元素的所有属性值,以字典形式返回
```
以上代码的所有输出如下所示,可以任意选择标签进行练习。
```shell
Beautiful Soup
NavigableString 对象
NavigableString 对象获取的是标签内部的文字内容,例如 p
标签,在下述代码中提取的是 我是橡皮擦
```html
我是橡皮擦
```
获取该对象也非常容易,使用 Tag 对象的 string 属性即可。
python
nav_obj = soup.h1.string
print(type(nav_obj))
输出结果如下所示
shell
<class 'bs4.element.NavigableString'>
如果目标标签是一个单标签,会获取到 None 数据
除了使用对象的 string
方法外,还可以使用 text
属性和 get_text()
方法来获取标签内容
python
print(soup.h1.text)
print(soup.p.get_text())
print(soup.p.get_text('&'))
其中 text
是获取所有子标签内容的合并字符串,而 get_text()
也是相同的效果,不过使用 get_text()
可以增加一个分隔符,例如上述代码的 &
符号,还可以使用,strip=True 参数去除空格。
Comment 对象
获取网页注释内容,用处不大,忽略即可。
BeautifulSoup 对象和 Tag 对象支持标签查找方法,具体内容如下所示。
find() 方法和 find_all() 方法
调用 BeautifulSoup 对象和 Tag 对象的 find()
方法,可以在网页中找到指定对象,该方法的语法格式如下:
python
obj.find(name,attrs,recursive,text,**kws)
方法的返回结果是查找到的第一个元素,如果没查询到,返回 None。 参数说明如下:
name
:标签名称;attrs
:标签属性;recursive
:默认搜索所有后代元素;text
:标签内容。
例如我们继续在上文请求的网页中,查找 a
标签,代码如下:
python
html_str = ret_html()
soup = BeautifulSoup(html_str, 'lxml')
print(soup.find('a'))
也可以使用 attrs
参数进行查找,代码如下:
```python html_str = ret_html() soup = BeautifulSoup(html_str, 'lxml')
print(soup.find('a'))
print(soup.find(attrs={'class': 'cta'})) ```
find()
方法还提供了一些特殊的参数,便于直接查找,例如可以使用 id=xxx
,查找属性中包含 id
的标签,可以使用 class_=xxx
,查找属性中包含 class
的标签。
python
print(soup.find(class_='cta'))
与 find()
方法成对出现的是 find_all()
方法,看名称就能知道其返回结果收是全部匹配标签,语法格式如下:
python
obj.find_all(name,attrs,recursive,text,limit)
其中重点说明一下 limit
参数,它表示最多返回的匹配数量,find()
方法可以看作 limit=1
,这样就变得容易理解了。
- 嗨,各位Python程序员,放弃selenium,试试年轻的Playwright如何?
- 09年的老电脑说想看一下CPU温度,作为Python工程师,怎能安装X大师?
- 如果你需要用Python搞个二维码,那应该收藏这篇博客
- 写给Python社群的第2课:Python逻辑语句,天天要写的 if 和 while
- 嗨,程序员,你知道高级工程师用的搜索引擎吗?
- 都2022年了,Python Web框架你不会只知道Django和Flask吧?
- 在座的Python爬虫工程师,你敢爬律师事务所站点吗?
- Python爬虫反爬,你应该从这篇博客开启,UA反爬,Cookie 特定参数反爬
- OpenGauss数据库在 CentOS 上的实践,配置篇
- 【Python技能树共建】动态渲染页面爬取
- 【Python技能树共建】Beautiful Soup
- 【首发字体反爬】猫X眼YingShi,我们又来欺负你了,用到了 OCR 识别技术
- 【首发】某易跟帖篇频道,接口溯源分析,反爬新技巧,必掌握一下
- 【首发】Python反爬,JS反爬串讲,从MAOX眼X开始,本文优先解决反爬参数 signKey
- 【首发】写Python爬虫,服务器返回数据加密了,套路解决法~,出版社,出版社
- 虎牙直播数据采集,为数据分析做储备,Python爬虫120例之第24例
- 我们的骄傲!非遗数据采集,来自官方的数据,Python爬虫无所不爬
- 3天掌握Flask开发项目系列博客之二,操作数据库
- 写给Python社群的第1课:初识Python,开篇知识点就选字符串吧~
- 升级【爸爸程序员】了?用Python给自己的宝贝下载200 绘本动画吧!