JAVA和Nginx 教程大全

网站首页 > 精选教程 正文

网络爬虫开源框架(爬虫框架scrapy)

wys521 2025-03-28 22:39:24 精选教程 22 ℃ 0 评论

目前开源爬虫下载框架是百花齐放,各个编程语言都有,以下主要介绍其中重要的几个:

1)python:scrapy,pyspider,gcrawler

2)Java:webmagic,WebCollector,Crawler4j,heritrix,Nutch

3)Golang:Pholcus

4).net:abot

5)C++:larbin

其中部分开源框架的适用场景为:

a)scrapy(目前可以支持py3),heritrix比较适合整站直接爬取

b)WebCollector比较适合做有精准抽取抽取业务的爬虫

c)Nutch是针对搜索引擎优化

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表