Beautiful Soup 4.12.0 文档¶-365平台客服电话-365bet提款要求-365平台客服电话-365bet游戏下载

Beautiful Soup 4.12.0 文档¶

解析器之间的区别¶ Beautiful Soup 为不同的解析器提供了相同的接口，但解析器本身时有区别的。同一篇文档被不同的解析器解析后可能会生成不

分类: 365平台客服电话发布时间: 2025-10-11 16:06:37 作者: admin 阅读量: 3305

解析器之间的区别¶

Beautiful Soup 为不同的解析器提供了相同的接口，但解析器本身时有区别的。同一篇文档被不同的解析器解析后

可能会生成不同结构的文档。区别最大的是 HTML 解析器和 XML 解析器，看下面片段被解析成 HTML 结构:

BeautifulSoup("", "html.parser")

#

因为空标签 不符合 HTML 标准，html.parser 解析器把它解析成一对儿。

同样的文档使用 XML 解析结果如下(解析 XML 需要安装 lxml 库)。注意，空标签 依然被保留，

并且文档前添加了 XML 头，而不是被包含在标签内:

print(BeautifulSoup("", "xml"))

#

#

HTML 解析器之间也有区别，如果被解析的HTML文档是标准格式，那么解析器之间没有任何差别。

只是解析速度不同，结果都会返回正确的文档树。

但是如果被解析文档不是标准格式，那么不同的解析器返回结果可能不同。下面例子中，使用 lxml

解析错误格式的文档，结果
标签被直接忽略掉了:

BeautifulSoup("
", "lxml")

#

使用 html5lib 库解析相同文档会得到不同的结果:

BeautifulSoup("
", "html5lib")

#

html5lib 库没有忽略掉
标签，而是自动补全了标签，还给文档树添加了标签。

使用 pyhton 内置库解析结果如下:

BeautifulSoup("
", "html.parser")

#

与 lxml [7] 库类似的，Python 内置库忽略掉了
标签，与 html5lib 库不同的是标准库没有

尝试创建符合标准的文档格式或将文档片段包含在标签内，与lxml不同的是标准库甚至连

标签都没有尝试去添加。

因为文档片段 “
” 是错误格式，所以以上解析方式都能算作 “正确”，html5lib 库使用的是 HTML5

的部分标准，所以最接近”正确”。不过所有解析器的结构都能够被认为是”正常”的。

不同的解析器可能影响代码执行结果，如果在分发给别人的代码中使用了 BeautifulSoup ,

那么最好注明使用了哪种解析器，以减少不必要的麻烦。

365bet提款要求-365平台客服电话-365bet游戏下载

Beautiful Soup 4.12.0 文档¶

相关推荐

摄影最难过的一关——取景到底是怎么回事

命令方块教程——基础命令简单语法

如何在页面编辑html

蔬菜泥的做法

比亚迪汽车质量到底怎么样？比亚迪怎么样值得买吗

雷军电动v8价格

博卡软件多少钱一年

驱动学习经验+历程!献给初学者!!

物品耐久 (Item Durability) - [MC]我的世界原版 (Minecraft) - MC百科

装机必备的十大电脑软件，必须收藏

半开是何货币？揭开新龙半开银币的神秘面纱

图文-2002世界杯日本赛场之二仙台利府町体育场

合作伙伴