网站首页 > 博客文章 正文
爬虫刚入门的童鞋,往往搞不清楚,什么是多线程,什么是多进程。
进程(process)和线程(thread)是操作系统的基本概念,但是它们比较抽象,确实不容易掌握。
线程是程序中一个单一的顺序控制流程。进程内一个相对独立的、可调度的执行单元,是系统独立调度和分派CPU的基本单位指运行中的程序的调度单位。在单个程序中同时运行多个线程完成不同的工作,称为多线程。
一个进程中可以包含若干个线程,它们可以利用进程所拥有的资源,在引入线程的操作系统中,通常都是把进程作为分配资源的基本单位,而把线程作为独立运行和独立调度的基本单位。
由于线程比进程更小,基本上不拥有系统资源,故对它的调度所付出的开销就会小得多,能更高效地提高系统内多个程序间并发执行的程度,从而显著提高系统资源的利用率和吞吐量。
关于进程和线程,最经典的一句话是:
“进程是资源分配的最小单位,线程是CPU调度的最小单位”。
举个简单的例子:
在一台计算机中,我们可以同时打开许多软件,比如开一个浏览器,这就打开了一个浏览器进程;在浏览器中打开了网页,有的网页在播放电影、有的网页显示新闻、有的网页在聊天,它们可以同时运行,互不干扰,这就是浏览器的多个线程。
爬虫中线程与进程的关系如下图所示:
那什么场景下需要使用多进程、多线程呢?
1.采集的网站数据量很多
当要采集的网站数据量很大时,可使用多线程采集,成倍提高采集速度。
2.采集多个网站数据
想快速同时采集多个网站时,可使用多线程、多进程进行采集,既能降低服务器的压力,又能提高采集效率。
ForeSpider数据采集分析引擎,采用全C++编写的自研内核,可以实现高性能高效率快速采集。用户可自行设置采集线程数和进程数,既可开多个线程进行采集,也可同时打开多个进程进行采集,实现快速采集海量网站数据,大大提高采集速度。
在ForeSpider爬虫软件中,线程数目越大,采集速度越大。一个爬虫客户端运行的时候,占用的操作系统资源,线程设置的越高,采集越快,但CPU和内存占用率越高,使用者可根据自身机器配置适当设置。
ForeSpider爬虫服务器版本最多可开16个进程,多进程同时采集可智能并行分配采集任务。
ForeSpider采集速度如下所示:
①笔记本电脑400万条/天
注:此速度为理论情况下的客观数据,是指对方网站的带宽正常,下载爬虫的电脑带宽正常,采集的网站不防爬的情况下
②服务器4000万条/天
注:服务器分为单机多进程和多机多进程,次数据指的是单机多进程,2G内存对应一个进程,现规定每台服务器最多开16个进程。
③台式机单机采集能力可达4000-8000万,日采集能力超过500万。服务器集群环境的采集能力可达8亿-16亿,日采集能力超过4000万。并行情况下可支撑百亿以上规模数据链接,堪与百度等搜索引擎系统媲美。
l 前嗅简介
前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!
猜你喜欢
- 2024-10-07 JS和C#/JAVA的多线程,究竟有什么不一样?
- 2024-10-07 什么是多线程?看我多线程七十二变,你能记住吗?
- 2024-10-07 【多线程与高并发】- 浅谈volatile
- 2024-10-07 精通高并发与多线程,却不会用ThreadLocal?
- 2024-10-07 【程序员课堂】多线程、进程和线程的区别
- 2024-10-07 了解架构设计远远不够!一文拆解 Tomcat 高并发原理与性能调优
- 2024-10-07 【开发者成长】深入理解多线程编程
- 2024-10-07 python中多线程与多进程的区别(python多进程和多线程协程)
- 2024-10-07 搞懂分布式与高并发,看这篇就够了
- 2024-10-07 多线程与异步编程,谁才是并发处理的终极选择?
你 发表评论:
欢迎- 07-08Google Cloud Platform 加入支持 Docker 的容器引擎
- 07-08日本KDDI与Google Cloud 签署合作备忘录,共探AI未来
- 07-08美国Infoblox与Google Cloud合作推出云原生网络和安全解决方案
- 07-08GoogleCloud为Spanner数据库引入HDD层,将冷存储成本降低80%
- 07-08谷歌推出Cloud Dataproc,缩短集群启动时间
- 07-08Infovista与Google Cloud携手推进射频网络规划革新
- 07-08比利时Odoo与Google Cloud建立增强合作,扩大全球影响力
- 07-08BT 和 Google Cloud 通过 Global Fabric 加速 AI 网络
- 最近发表
-
- Google Cloud Platform 加入支持 Docker 的容器引擎
- 日本KDDI与Google Cloud 签署合作备忘录,共探AI未来
- 美国Infoblox与Google Cloud合作推出云原生网络和安全解决方案
- GoogleCloud为Spanner数据库引入HDD层,将冷存储成本降低80%
- 谷歌推出Cloud Dataproc,缩短集群启动时间
- Infovista与Google Cloud携手推进射频网络规划革新
- 比利时Odoo与Google Cloud建立增强合作,扩大全球影响力
- BT 和 Google Cloud 通过 Global Fabric 加速 AI 网络
- NCSA和Google Cloud合作开发AI驱动的网络防御系统,加强泰国网络空间的安全性
- SAP将在沙特阿拉伯 Google Cloud 上推出BTP服务
- 标签列表
-
- ifneq (61)
- 字符串长度在线 (61)
- googlecloud (64)
- messagesource (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)