网站首页 > 博客文章 正文
相信各位可能都见过如下类似的网页提示,特别是在查看网上的各种参考范文,如工作计划、总结、汇报、观后感等等。
你会发现,这些网站好像后台用的模板都是一样的,弹框的样式都基本一样。不知道你是否也被唬住,只能乖乖付费下载,或者是不想付费只能望而却步,亦或者是截图去微信里OCR?
其实,DUCK不必。
这些网站上的内容只是时效性比较好,并非内容多么优质,所以很多时候可能只有个别的段落对我们有用,我们完全可以把相关页面内容下载下来,参考使用,大部分可能还得我们亲自操刀。
那怎么做呢?这里要用到一点点网页的小知识和爬虫的基础知识。
我们以下面网页为例,给大家演示一下,如果用几行代码,轻松下载此类付费范文文档:
1、首先确定中间的主内容框的html标签。
方法很简单,就是在网页上右键单击,选择检查元素。鼠标在下面的html上尝试性地划过,直到找到一个节点,鼠标停留,范文主体被选中。
2、安装好网页采集库requests、BeautifulSoup备用。
cmd下执行pip install request、pip install beautifulsoup4安装。
说一下核心的两句代码:
soup = BeautifulSoup(html)
html=soup.find("div", class_="articleGroup")
其实就是建立一个BeautifulSoup对象来访问网页中指定的位置块,第二句的效果是找到html中类名为articleGroup的div标签。(不同网站可能不同)
3、编码实现页面文字采集并下载保存。
这里的代码,是一个最简版本,没有写异常处理之类的,毕竟下下来参考一下是主要目的。因为用到了两个网页采集库,真正要写的代码就几句:
4、查看result.txt文件中的文字,参考备用。
怎么样,通过这个案例的演示,是不是觉得知识就是金钱呢?
其实可以思考一下这些网站主的商业思维:站点迎合了大多数心浮气躁可能又非常忙碌的人的痛点,收费也不高,对于茫茫互联网用户,即使付费用户比例再低,网站收入应该也是比较可观的。
进一步进行技术上的思考,有没有可能网页后台也看不到具体文字呢?当然可以,只要网站使用混淆JS动态生成就不好捕获了。那可能程序可能就需要稍微麻烦一些:滚动截屏+OCR。
各位可以收藏一下本文,下次遇到这种网站的复制难题时,帮你轻松搞定。
猜你喜欢
- 2024-09-27 蚂蚁SEO的网络蜘蛛如何应用(seo蜘蛛是什么意思)
- 2024-09-27 10《Python 原生爬虫教程》BeatifulSoup 的使用
- 2024-09-27 Python代码片段——第三方库自动安装
- 2024-09-27 「Github一周热点32期」本周最火的5个开源项目
- 2024-09-27 python爬虫CSS 选择器-BeautifulSoup4
- 2024-09-27 一篇文章搞定Python爬虫BeautifulSoup解析库
- 2024-09-27 Python学习——网络爬虫-下载小说
- 2024-09-27 python爬虫07 | 有了BeautifulSoup,妈妈不担心我的正则表达式
- 2024-09-27 使用 Python 的 Requests 和 BeautifulSoup 库爬取网站视频
- 2024-09-27 Python爬虫利器(1)Beautiful Soup
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- ifneq (61)
- 字符串长度在线 (61)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)