专业的编程技术博客社区

网站首页 > 博客文章 正文

Python编程之BeautifulSoup库(python beautifulsoup库安装)

baijin 2024-09-27 06:44:10 博客文章 5 ℃ 0 评论

#头条创作挑战赛#

BeautifulSoup 是一个可以从 HTML 或 XML 文件中快速提取数据的 Python 库。它能够通过转 从入门到精通 Python网络爬虫框架Scrapy 38 换器实现惯用的文档导航,查找、修改文档的方式。它是基于 HTML DOM 的,会载入整个 HTML 文档,将复杂的 HTML 文档转换成一个复杂的树形结构(DOM 树),最后解析整个 DOM 树。它 共有 4 种类型,对于爬虫解析来说,主要用其中的遍历文档树和搜索文档树。BeautifulSoup 用来 解析 HTML 比较简单,API 非常人性化,支持 CSS 选择器、Python 标准库中的 HTML 解析器,也 支持 lxml 的 XML 解析器。

BeautifulSoup 分三步进行安装、导入和创建对象:

(1)先安装 BeautifulSoup4,命令为“pip install beautifulsoup4”,再通过以下代码测试安装是 否成功。

(2)在 Python 中导入 from bs4 import BeautifulSoup 模块。

(3)创建 BeautifulSoup 对象。

输出结果如下:

. BeautifulSoup 的语法及应用举例:

下面根据下载的 HTML 网页,创建 BeautifulSoup 对象。在创建对象的同时,将整个文档字符 串下载成一个 DOM 树,然后根据这个 DOM 树,可以进行各种节点的搜索。搜索方法如下:find_ all(name, attrs, string),搜索出所有满足要求的节点;find(name, attrs, string),只搜索出第一个满足 要求的节点。其中,name 为节点名称,attrs 为节点属性,string 为节点文字。搜索网页,提取元素如下图所示。

遍历文档树(DOM 树),就是通过方法获取指定的节点和节点集,包括方法、子节点、父节点、 兄弟节点、前进后退等。下面通过示例代码来演示如何搜索网页,提取元素。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表