Search

Search IconIcon to open search

python bs4库

Last updated Jul 19, 2023

# 介绍

一个处理 html 的库, 可以方便地获取 tag 的相关信息, 如 content,

Beautiful Soup 中文文档

# 读取文件

1
2
3
file = open(FILE_PATH, "rb")
html_doc = file.read()
soup = BeautifulSoup(html_doc, "html.parser")

是 BeautifulSoup 各种方法通常的返回对象, 比如说下面的 find(), find_all()

  • .name 最外的tag名, 如 span
  • .string 这个tag 包含的内容, 一般是确定在嵌套最里才用
# 转 str
1
str(NavigableString)

# 基础功能

# find()

1
2
3
4
5
# 找到第一个 class包含noselect 的 <a> 标签
a = soup.find("a", "noselect") 

# 找到第一个 class包含noselect 的 <a> 标签
a = soup.find("a", "noselect") 

# find_all()

与 find() 相比, 返回一个 list, 里面是所有符合的匹配项