网站首页 > 博客文章正文

python程序媛BeautifulSoup快速入门

baijin 2024-09-27 06:44:21 博客文章 5 ℃ 0 评论

爬虫最常用就是要在response回的html文件中获取我们想要的资源，而常用方法除了正则就是BeautifulSoup库了。其实，媛媛本人呢，是习惯使用正则的，不过经常听到很多同学表示正则太复杂，想要使用BeautifulSoup库，今天呢，就满足大家，带着大家超级简单案例，快速入门。

1.首先，使用一个库，先安装。参考媛媛之前的帖子，有详细的教大家第三方库安装。

2.再，导入我们要用的各种库。媛媛使用python环境为3.6。想要问问什么不用2.7的同学，请看媛媛之前的帖子。或者加下我的学习交流群，零基础入门，（145 010 486）。

# 导入需要的库

import requests

from bs4 import BeautifulSoup

3.上过老师课的同学应该知道，爬虫就是模拟浏览器访问资源去爬取我们需要的东东的，所以，浏览器去访问资源时，第一步呢就是输入url，同样的，我们的爬虫，第一步也是拿到这个url。简单以百度为例。

url = ‘www.baidu.com'

4.通过requests去模拟登录网站(开发者工具，在requests请求头可以看到发送http请求的方式为get）并获取html代码，存入变量”html”中

html = requests.get(url)

5.我们把网页解析为 BeautifulSoup格式，以便我们用BeautifulSoup 库来分析网页。

soup = BeautifulSoup(html, ‘html.parser’)

6.现在我们有了包含整个网页的HTML代码的变量soup。我们就从soup开始着手提取信息。BeautifulSoup库中的find()函数可以帮助我们进入不同的层次提取内容。我们需要的HTML类“名称”在整个网页中是独一无二的，因此我们可以简单的查找<div class="s-news-list-wrapper">.如下图。

# 获取“名称”类的<div>代码段落并提取相应值

name_box = soup.find(‘h2’, attrs={‘class’: ‘s-news-list-wrapper’})

在我们得到标签之后，我们可以用name_box的text属性获取相应值

name = name_box.text.strip() # strip() 函数用于去除前后空格

print name

上一篇： Beautiful Soup模块使用（beautiful soup中文文档）
下一篇：巨细!小姐姐告诉你关于 BeautifulSoup 的一切(上)

网站首页 > 博客文章正文

python程序媛BeautifulSoup快速入门

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 博客文章 正文

python程序媛BeautifulSoup快速入门

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 博客文章正文

取消回复欢迎你发表评论: