网站首页 > 博客文章 正文
爬虫最常用就是要在response回的html文件中获取我们想要的资源,而常用方法除了正则就是BeautifulSoup库了。其实,媛媛本人呢,是习惯使用正则的,不过经常听到很多同学表示正则太复杂,想要使用BeautifulSoup库,今天呢,就满足大家,带着大家超级简单案例,快速入门。
1.首先,使用一个库,先安装。参考媛媛之前的帖子,有详细的教大家第三方库安装。
2.再,导入我们要用的各种库。媛媛使用python环境为3.6。想要问问什么不用2.7的同学,请看媛媛之前的帖子。或者加下我的学习交流群,零基础入门,(145 010 486)。
# 导入需要的库
import requests
from bs4 import BeautifulSoup
3.上过老师课的同学应该知道,爬虫就是模拟浏览器访问资源去爬取我们需要的东东的,所以,浏览器去访问资源时,第一步呢就是输入url,同样的,我们的爬虫,第一步也是拿到这个url。简单以百度为例。
url = ‘www.baidu.com'
4.通过requests去模拟登录网站(开发者工具,在requests请求头可以看到发送http请求的方式为get)并获取html代码,存入变量”html”中
html = requests.get(url)
5.我们把网页解析为 BeautifulSoup格式,以便我们用BeautifulSoup 库来分析网页。
soup = BeautifulSoup(html, ‘html.parser’)
6.现在我们有了包含整个网页的HTML代码的变量soup。我们就从soup开始着手提取信息。BeautifulSoup库中的find()函数可以帮助我们进入不同的层次提取内容。我们需要的HTML类“名称”在整个网页中是独一无二的,因此我们可以简单的查找<div class="s-news-list-wrapper">.如下图。
# 获取“名称”类的<div>代码段落并提取相应值
name_box = soup.find(‘h2’, attrs={‘class’: ‘s-news-list-wrapper’})
在我们得到标签之后,我们可以用name_box的text属性获取相应值
name = name_box.text.strip() # strip() 函数用于去除前后空格
print name
猜你喜欢
- 2024-09-27 蚂蚁SEO的网络蜘蛛如何应用(seo蜘蛛是什么意思)
- 2024-09-27 10《Python 原生爬虫教程》BeatifulSoup 的使用
- 2024-09-27 Python代码片段——第三方库自动安装
- 2024-09-27 「Github一周热点32期」本周最火的5个开源项目
- 2024-09-27 python爬虫CSS 选择器-BeautifulSoup4
- 2024-09-27 一篇文章搞定Python爬虫BeautifulSoup解析库
- 2024-09-27 Python学习——网络爬虫-下载小说
- 2024-09-27 python爬虫07 | 有了BeautifulSoup,妈妈不担心我的正则表达式
- 2024-09-27 使用 Python 的 Requests 和 BeautifulSoup 库爬取网站视频
- 2024-09-27 Python爬虫利器(1)Beautiful Soup
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- ifneq (61)
- 字符串长度在线 (61)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)