网站首页 > 博客文章 正文
Python 作为一种功能强大的编程语言,提供了许多用于爬取网页内容的库。
其中,Requests 用于发送 HTTP 请求,而 BeautifulSoup 则用于解析 HTML 页面。
如何使用 Python 的 Requests 和 BeautifulSoup 库来爬取网站视频链接,让你能够获取你感兴趣的搜索信息。
首先,需要安装 Python 以及以下两个库:
pip install requests beautifulsoup4
示例代码:
1.先定义一个函数来从视频页面中提取视频链接,这个函数将使用正则表达式来匹配视频链接,并返回匹配的结果。
2.接下来,定义一个函数来获取指定关键词的视频信息,这个函数将发送一个HTTP请求到指定的网站,然后解析返回的HTML内容以获取视频链接。
import requests # 导入用于发送HTTP请求的库
from bs4 import BeautifulSoup # 导入用于解析HTML内容的库
import re # 导入正则表达式模块
def get_video_info(video_page):
"""
从视频页面中提取视频链接的函数
"""
# 定义正则表达式模式,用于匹配视频链接
pattern = r'"url":"(.*?)"'
# 使用正则表达式模式在页面内容中寻找匹配项
matches = re.findall(pattern, str(video_page))
# 如果匹配项数量大于1,获取第二个匹配项(通常是高清视频链接)
if len(matches) > 1:
# 将匹配到的链接中的转义字符替换为正常字符
video_url = matches[1].replace('\\/', '/')
# 打印视频链接
print(video_url)
def get_video(word):
"""
获取指定关键词的视频信息的函数
"""
# 发送HTTP请求到指定网站,搜索指定关键词的视频
response = requests.get(f"https://yoyys1.com/vodsearch/-------------.html?wd={word}")
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
# 查找所有视频项
module_card_items = soup.find_all('div', class_='module-card-item')
# 遍历每个视频项
for item in module_card_items:
# 获取视频链接
link = item.find('a')['href']
# 获取视频标题
text = item.find('strong').get_text()
# 从视频链接中提取视频ID
video_id = re.search(r'\d+', link).group()
# 构造视频播放页面的URL
video_url = f"https://yoyys1.com/vodplay/{video_id}-1-1.html"
# 发送HTTP请求到视频播放页面
response = requests.get(video_url)
# 使用BeautifulSoup解析视频播放页面的HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
# 查找所有视频播放链接
Jis = soup.find_all('a', class_='module-play-list-link')
# 打印视频标题
print(text)
# 遍历每个播放链接
for Ji in Jis:
# 获取播放链接
H = Ji['href']
# 如果播放链接不为空
if H is not None:
# 构造完整的视频播放链接
video_url = f"https://yoyys1.com{H}"
# 发送HTTP请求到视频播放链接
response = requests.get(video_url)
# 使用BeautifulSoup解析视频播放页面的HTML内容
video_page = BeautifulSoup(response.content, 'html.parser')
# 调用函数提取视频链接信息
get_video_info(video_page)
# 打印分隔线
print("******")
if __name__ == "__main__":
# 在主函数中调用get_video函数,并传入想要搜索的关键词
# 以“我亲爱的祖国”为例
get_video("我亲爱的祖国")
通过这个简单的Python程序,我们可以轻松地从指定网站中获取视频信息,并进一步处理或使用这些信息,您可以根据自己的需求扩展和修改代码,以实现更复杂的功能。
猜你喜欢
- 2024-09-27 蚂蚁SEO的网络蜘蛛如何应用(seo蜘蛛是什么意思)
- 2024-09-27 10《Python 原生爬虫教程》BeatifulSoup 的使用
- 2024-09-27 Python代码片段——第三方库自动安装
- 2024-09-27 「Github一周热点32期」本周最火的5个开源项目
- 2024-09-27 python爬虫CSS 选择器-BeautifulSoup4
- 2024-09-27 一篇文章搞定Python爬虫BeautifulSoup解析库
- 2024-09-27 Python学习——网络爬虫-下载小说
- 2024-09-27 python爬虫07 | 有了BeautifulSoup,妈妈不担心我的正则表达式
- 2024-09-27 Python爬虫利器(1)Beautiful Soup
- 2024-09-27 企业外部数据治理:利用Beautiful Soup高效提取数据
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- ifneq (61)
- 字符串长度在线 (61)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)