网络爬虫的分类

网络爬虫应该选择 Nutch、Crawler4j、WebMagic、scrapy、WebCollector 还是选择其他?
 
网络爬虫我们可以分为三大类型:
 (1)分布式爬虫:Nutch
 
(2)JAVA爬虫:Crawler4j、WebMagic、WebCollector
 
(3)非JAVA爬虫:scrapy(基于Python语言开发)
 
网络爬虫采集数据过程中,经常会遇到被反爬虫机制限制,最常见的就是ip被限制,网站根据ip的访问频率来识别
 
判断爬虫,当相同的ip频繁的对目标服务器进行访问,那么就会触发服务器的反爬虫机制,这个时候ip就会被限制
 
或者无法进行访问,爬虫工作将无法继续进行,因此需要借用到万变ip代理来突破ip的限制。

 

0 个评论

要回复文章请先登录注册