解析器之间的区别¶

Beautiful Soup 为不同的解析器提供了相同的接口,但解析器本身时有区别的。同一篇文档被不同的解析器解析后

可能会生成不同结构的文档。区别最大的是 HTML 解析器和 XML 解析器,看下面片段被解析成 HTML 结构:

BeautifulSoup("", "html.parser")

#

因为空标签 不符合 HTML 标准,html.parser 解析器把它解析成一对儿

同样的文档使用 XML 解析结果如下(解析 XML 需要安装 lxml 库)。注意,空标签 依然被保留,

并且文档前添加了 XML 头,而不是被包含在 标签内:

print(BeautifulSoup("", "xml"))

#

#

HTML 解析器之间也有区别,如果被解析的HTML文档是标准格式,那么解析器之间没有任何差别。

只是解析速度不同,结果都会返回正确的文档树。

但是如果被解析文档不是标准格式,那么不同的解析器返回结果可能不同。下面例子中,使用 lxml

解析错误格式的文档,结果

标签被直接忽略掉了:

BeautifulSoup("

", "lxml")

#

使用 html5lib 库解析相同文档会得到不同的结果:

BeautifulSoup("

", "html5lib")

#

html5lib 库没有忽略掉

标签,而是自动补全了标签,还给文档树添加了 标签。

使用 pyhton 内置库解析结果如下:

BeautifulSoup("

", "html.parser")

#

与 lxml [7] 库类似的,Python 内置库忽略掉了

标签,与 html5lib 库不同的是标准库没有

尝试创建符合标准的文档格式或将文档片段包含在 标签内,与lxml不同的是标准库甚至连

标签都没有尝试去添加。

因为文档片段 “

” 是错误格式,所以以上解析方式都能算作 “正确”,html5lib 库使用的是 HTML5

的部分标准,所以最接近”正确”。不过所有解析器的结构都能够被认为是”正常”的。

不同的解析器可能影响代码执行结果,如果在分发给别人的代码中使用了 BeautifulSoup ,

那么最好注明使用了哪种解析器,以减少不必要的麻烦。