网站首页 > 博客文章 正文
1.bs4模块介绍
即:BeautifulSoup,就是一个python的第三方的库,使用之前需要安装。
用于爬虫。
使用:import bs4
2.bs4模块安装
方法一:
pip install bs4 #即可,我的有点慢,竟然掉线了
方法二:
换一种安装,也算学习到了。
2.1 去网站https://pypi.org/project/bs4/#files
2.2 下载bs4-0.0.1.tar.gz
图1
图2
2.2 放在/opt下
2.3 pip3.8 install /opt/bs4-0.0.1.tar.gz #第一次这样安装,还可以安装相关依赖,不错
图3
安装成功!记录一下下。
3.爬虫使用,相关语法:
3.1 bs4是什麽?
它的作用是能够快速方便简单的提取网页中指定的内容,给我一个网页字符串,
然后使用它的接口将网页字符串生成一个对象,然后通过这个对象的方法来提取数据。
3.2 lxml是什麽?
lxml是一个解析器,也是下面的xpath要用到的库,
bs4将网页字符串生成对象的时候需要用到解析器,就用lxml,或者使用官方自带的解析器 html.parser。
3.3 pip3.8 install lxml
图4
爬虫学得好,监狱进得早。
学习到此,请勿用于非法目的,纯技术。哈哈哈。
猜你喜欢
- 2024-12-18 轻松解析数据!你不可不知的Python宝藏库——parser模块
- 2024-12-18 基于Google Gemini的网页抓取 谷歌怎么抓取网页里的图片
- 2024-12-18 使用Python抓取欧洲足球联赛数据 python 竞彩
- 2024-12-18 网络爬虫——从网站中提取有用的数据
- 2024-12-18 网上售卖几百一月的微信机器,Python几十行代码就能搞定
- 2024-12-18 一个Python编写的小说下载器 用python写小说
- 2024-12-18 LangChainV0.2-进阶教程:构建一个RAG应用
- 2024-12-18 Python应用短文,如何自制一个简易的网络爬虫
- 2024-12-18 机器学习第五发:BS教你如何解析网页,规整数据?
- 2024-12-18 Crawl4AI:让AI轻松读懂网页的神器
你 发表评论:
欢迎- 367℃用AI Agent治理微服务的复杂性问题|QCon
- 358℃初次使用IntelliJ IDEA新建Maven项目
- 357℃手把手教程「JavaWeb」优雅的SpringMvc+Mybatis整合之路
- 351℃Maven技术方案最全手册(mavena)
- 348℃安利Touch Bar 专属应用,让闲置的Touch Bar活跃起来!
- 346℃InfoQ 2024 年趋势报告:架构篇(infoq+2024+年趋势报告:架构篇分析)
- 345℃IntelliJ IDEA 2018版本和2022版本创建 Maven 项目对比
- 342℃从头搭建 IntelliJ IDEA 环境(intellij idea建包)
- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)