网站首页 > 博客文章 正文
BeautifulSoup 是一个可以从 HTML 或 XML 文件中快速提取数据的 Python 库。它能够通过转 从入门到精通 Python网络爬虫框架Scrapy 38 换器实现惯用的文档导航,查找、修改文档的方式。它是基于 HTML DOM 的,会载入整个 HTML 文档,将复杂的 HTML 文档转换成一个复杂的树形结构(DOM 树),最后解析整个 DOM 树。它 共有 4 种类型,对于爬虫解析来说,主要用其中的遍历文档树和搜索文档树。BeautifulSoup 用来 解析 HTML 比较简单,API 非常人性化,支持 CSS 选择器、Python 标准库中的 HTML 解析器,也 支持 lxml 的 XML 解析器。
BeautifulSoup 分三步进行安装、导入和创建对象:
(1)先安装 BeautifulSoup4,命令为“pip install beautifulsoup4”,再通过以下代码测试安装是 否成功。
(2)在 Python 中导入 from bs4 import BeautifulSoup 模块。
(3)创建 BeautifulSoup 对象。
输出结果如下:
. BeautifulSoup 的语法及应用举例:
下面根据下载的 HTML 网页,创建 BeautifulSoup 对象。在创建对象的同时,将整个文档字符 串下载成一个 DOM 树,然后根据这个 DOM 树,可以进行各种节点的搜索。搜索方法如下:find_ all(name, attrs, string),搜索出所有满足要求的节点;find(name, attrs, string),只搜索出第一个满足 要求的节点。其中,name 为节点名称,attrs 为节点属性,string 为节点文字。搜索网页,提取元素如下图所示。
遍历文档树(DOM 树),就是通过方法获取指定的节点和节点集,包括方法、子节点、父节点、 兄弟节点、前进后退等。下面通过示例代码来演示如何搜索网页,提取元素。
猜你喜欢
- 2024-09-27 蚂蚁SEO的网络蜘蛛如何应用(seo蜘蛛是什么意思)
- 2024-09-27 10《Python 原生爬虫教程》BeatifulSoup 的使用
- 2024-09-27 Python代码片段——第三方库自动安装
- 2024-09-27 「Github一周热点32期」本周最火的5个开源项目
- 2024-09-27 python爬虫CSS 选择器-BeautifulSoup4
- 2024-09-27 一篇文章搞定Python爬虫BeautifulSoup解析库
- 2024-09-27 Python学习——网络爬虫-下载小说
- 2024-09-27 python爬虫07 | 有了BeautifulSoup,妈妈不担心我的正则表达式
- 2024-09-27 使用 Python 的 Requests 和 BeautifulSoup 库爬取网站视频
- 2024-09-27 Python爬虫利器(1)Beautiful Soup
你 发表评论:
欢迎- 最近发表
-
- 给3D Slicer添加Python第三方插件库
- Python自动化——pytest常用插件详解
- Pycharm下安装MicroPython Tools插件(ESP32开发板)
- IntelliJ IDEA 2025.1.3 发布(idea 2020)
- IDEA+Continue插件+DeepSeek:开发者效率飙升的「三体组合」!
- Cursor:提升Python开发效率的必备IDE及插件安装指南
- 日本旅行时想借厕所、买香烟怎么办?便利商店里能解决大问题!
- 11天!日本史上最长黄金周来了!旅游万金句总结!
- 北川景子&DAIGO缘定1.11 召开记者会宣布结婚
- PIKO‘PPAP’ 洗脑歌登上美国告示牌
- 标签列表
-
- ifneq (61)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)