网站首页 > 博客文章 正文
大家好,我是公众号3分钟学堂的郭立员,今天给大家带来的是数据采集源码的分享。
本期以采集豆瓣排名数据为例:
分析
一、采集内容:https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=
随便选一个类型影片的排行榜。
二、尝试获取网页源码。
TracePrint url.get("https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=")
三、分析返回值
发现返回值并没有排行榜的内容,这说明这个排行榜内容是动态加载的,不能通过直接读取这个网址的网页源码获取到。
四、抓包分析,打开浏览器以后按一下f12键,刷新网页,用浏览器自带的抓包功能分析一下网页。
按照上图点选network,headers,之后因为数据很多,我们用ctrl+f搜索一下,搜索内容是排行榜第一的影片名称“美丽人生”,有两个搜索结果:
我们随便选其中一个分析一下,先把网址复制出来。
https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&start=0&limit=20
我们直接分析问号后面参数的部分:
type=24 => 影片类型:24
interval_id=100%3A90 => 影片被喜爱程度:100%-90% (%3A是冒号)
action= => 没有值暂时无法判断,字面翻译动作,可省略
start=0 => 起始位置,第一位开始
limit=20 => 显示多少条 ,限制最多20条
这些参数中,影片类型需要在原网址中提取:(下面红色部分)
https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=
每一个类型对应一个数字,比如喜剧是24,动作是5,其他的可以点开更多类型去一一点开看网址。
五、获取网页源码
TracePrint url.get("https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&start=0&limit=20")
六、网页返回值:
返回值是一个json,这里提取是先转table,然后用键值对提取,如果不会在我公众号(3分钟学堂)中搜索json,有多篇关于json提取的文章教程。
脚本源码
dim json= url.get("https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90")
Dim table=encode.jsontotable(json)
For i = 1 To Len(table)
TracePrint table[i]["title"],table[i]["rating"][1]
Next
- 上一篇: 网络故障排除利器—Wireshark抓包简单使用方法
- 下一篇: 玩转这三款抓包工具,网友说:你是高手
猜你喜欢
- 2024-10-19 IP和TCP抓包分析实验(ipv4抓包实验)
- 2024-10-19 抓包分析之蠕虫网络行为特征(蠕虫抓取软件)
- 2024-10-19 wireshark抓包工具的使用详解(wireshark抓包工具的工作原理)
- 2024-10-19 西门子S7协议抓包分析并用代码实现(二)
- 2024-10-19 玩玩抓包(七)巧用“科来”,让分析更轻松
- 2024-10-19 WireShark抓包报文结构分析(wiresharkicmp抓包分析)
- 2024-10-19 wireshark及抓包分析助力网络工程师甩锅、TCP滑动窗口机制
- 2024-10-19 SSL/TLS握手详解抓包分析(ssl握手失败是什么意思)
- 2024-10-19 记一次抓包的最基本原理(抓包程序原理)
- 2024-10-19 如何使用Wireshark捕获和分析网络数据包?
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)