专业的编程技术博客社区

网站首页 > 博客文章 正文

Python 之 Beautiful Soup(一)(pycharm中beautifulsoup)

baijin 2024-09-27 06:43:56 博客文章 5 ℃ 0 评论

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,Beautiful Soup会帮你节省数小时甚至数天的工作时间。

一、安装BeautifulSoup

cmd> pip install bs4

二、将html源码以lxml方式解析,得到一个"bs4.BeautifulSoup"对象

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup

def get_html():
    url = r'https://www.baidu.com/'
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0'}
    res = requests.get(url=url, headers=headers, timeout=10).text
    return res

html = get_html()
soup = BeautifulSoup(html, 'lxml')
print(type(soup))

运行结果:

<class 'bs4.BeautifulSoup'>

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表