解析器之间的区别¶
Beautiful Soup 为不同的解析器提供了相同的接口,但解析器本身时有区别的。同一篇文档被不同的解析器解析后
可能会生成不同结构的文档。区别最大的是 HTML 解析器和 XML 解析器,看下面片段被解析成 HTML 结构:
BeautifulSoup("", "html.parser")
因为空标签 不符合 HTML 标准,html.parser 解析器把它解析成一对儿 。
同样的文档使用 XML 解析结果如下(解析 XML 需要安装 lxml 库)。注意,空标签 依然被保留,
并且文档前添加了 XML 头,而不是被包含在 标签内:
print(BeautifulSoup("", "xml"))
#
HTML 解析器之间也有区别,如果被解析的HTML文档是标准格式,那么解析器之间没有任何差别。
只是解析速度不同,结果都会返回正确的文档树。
但是如果被解析文档不是标准格式,那么不同的解析器返回结果可能不同。下面例子中,使用 lxml
解析错误格式的文档,结果
标签被直接忽略掉了: ", "lxml")#
使用 html5lib 库解析相同文档会得到不同的结果:
", "html5lib")#
html5lib 库没有忽略掉
标签,而是自动补全了标签,还给文档树添加了 标签。使用 pyhton 内置库解析结果如下:
", "html.parser")与 lxml [7] 库类似的,Python 内置库忽略掉了
标签,与 html5lib 库不同的是标准库没有尝试创建符合标准的文档格式或将文档片段包含在
标签内,与lxml不同的是标准库甚至连标签都没有尝试去添加。
” 是错误格式,所以以上解析方式都能算作 “正确”,html5lib 库使用的是 HTML5的部分标准,所以最接近”正确”。不过所有解析器的结构都能够被认为是”正常”的。
不同的解析器可能影响代码执行结果,如果在分发给别人的代码中使用了 BeautifulSoup ,
那么最好注明使用了哪种解析器,以减少不必要的麻烦。