awesome-crawler_爬虫技术资源汇总

Web前端开发网

fly63.com

首页资源工具文章教程栏目

awesome-crawler

分享

GitHub:https://github.com/BruceDone/awesome-crawler

描述信息:爬虫技术资源汇总

GitHub

互联网爬虫，蜘蛛，数据采集器，网页解析器的汇总，因新技术不断发展，新框架层出不穷

Python

Scrapy - 一种高效的屏幕,网页数据采集框架。
- django-dynamic-scraper - 基于Scrapy内核由django Web框架开发的爬虫。
- Scrapy-Redis - 基于Scrapy内核采用Redis组件的爬虫。
- scrapy-cluster - 基于Scrapy内核采用Redis 和 Kafka 开发的分布式爬虫框架。
- distribute_crawler - 基于Scrapy内核采用redis, mongodb开发的分布式爬虫框架。
pyspider - 一个强大纯python的数据采集系统.
cola - 一个分布式的爬虫框架.
Demiurge - 基于PyQuery的微型爬虫框架.
Scrapely - 一个纯python的HTML页面捕捉库.
feedparser - 一个通用的feed解析器.
you-get - 静默网站爬去下载器.
Grab - 网站采集框架.
MechanicalSoup - 一个自动化的互动网站Python库.
portia - 基于Scrapy的可视化数据采集框架.
crawley - 基于非阻塞通信(NIO)的python爬虫框架.
RoboBrowser - 一个简单的，不基于Web浏览器的基于Python的Web 浏览器.
MSpider - 一个基于gevent(协程网络库)的python爬虫.
brownant - 一个轻量级的网络数据抽取框架.

Java

Apache Nutch - 用于生产环境的高度可扩展的高度可扩展的网络爬虫.
- anthelion - 一个基于Apache Nutch抓取语义注释在HTML页面插件.
Crawler4j - 简单和轻量级的网络爬虫.
JSoup - 采集，分析，处理和清洗HTML页面.
websphinx - HTML网站特定的处理、信息提取.
Open Search Server - 全套搜索功能，建立你自己的索引策略。分析、提取全文数据，这个框架可以索引的一切.
Gecco - 一个易于使用的轻量级网络爬虫.
WebCollector -简单的抓取网页的界面，可以在不到5分钟内部署一个多线程的网络爬虫.
Webmagic -一个可扩展的爬虫框架.
Spiderman -一个可扩展的，多线程的网络爬虫.
- Spiderman2 - 分布式网络爬虫框架，支持javascript渲染.
Heritrix3 - 可扩展，大规模的网络爬虫项目.
SeimiCrawler - 一个敏捷的分布式爬虫框架.
StormCrawler - 基于开放源代码、构建低延迟的网络资源采集框架，基于Apache Storm.
Spark-Crawler - 基于Apache Nutch 的网络爬虫，可以运行于Spark.

C#

ccrawler - 一个简单的Web内容分类方案，它可以根据其内容分开网页,基于C#3.5.
SimpleCrawler - 简单的多线程网络爬虫，基于REG表达式.
DotnetSpider - 基于C#开发的一个轻量级，交叉平台的网络爬虫.
Abot - 具有很好效率和可扩展性的C#网络爬虫.
Hawk - 用 C#/WPF开发的网络爬虫，具有简单的ETL功能.
SkyScraper - 一个支持异步网络和有很好扩展性的网络爬虫.

JavaScript

scraperjs - 基于JS的一个功能齐全的网络爬虫.
scrape-it - 基于Node.js的网络爬虫.
simplecrawler - 基于事件驱动开发的网络爬虫.
node-crawler - 提供简单API，适于二次开发的网络爬虫.
js-crawler - 基于Node.JS,支持HTTP(S)的网络爬虫.
x-ray - 支持分页的网络爬虫.
node-osmosis - 基于Node.js适于解析HTML结构的网络爬虫.

PHP

Goutte - 基于PHP的网页截屏和爬取程序.
- laravel-goutte - 基于Laravel 5 的网络爬虫.
dom-crawler - 易于抽取DOM文件的网络爬虫.
pspider - 基于PHP的并发网络爬虫.
php-spider - 一个基于PHP的高可扩展的网络爬虫.

C++

open-source-search-engine - 基于C/C++开发的网络爬虫和搜索引擎.

C

httrack - 全部网站整体复制工具。 ## Ruby
upton - 一个易于上手的爬虫框架集合，支持CSS选择器.
wombat - 基于Ruby天然的支持DSL的网络爬虫，易于提取网页正文数据.
RubyRetriever - 基于Ruby的网站数据采集和全网数据收割机.
Spidr - 全站数据采集，支持无限的网站链接地址采集.
Cobweb - 非常灵活，易于扩展的网络爬虫，可以单点部署使用.
mechanize - 自动采集网站数据的框架.

R

rvest - 基于R开发的简单网络爬虫.

Erlang

ebot - 一个分布式，高可扩展的网络爬虫.

Perl

web-scraper - 方便使用HTML、CSS、XPath选择器的网络爬虫。

Go

pholcus - 一个分布式，支持高并发的网络爬虫.
gocrawl - 一个高并发的，轻量级，遵守道德的网络爬虫.
fetchbot -一个遵守robots.txt规则和延迟规则的轻量级网络爬虫.
go_spider - 一个非常好的高并发网络爬虫.
dht -支持DHT协议的网络爬虫.
ants-go - 基于Golang的高并行网络爬虫.
scrape - 一个简单的提供很好开发接口的网络爬虫.

Scala

crawler - 基于Scala DSL的网络爬虫.
scrala - 由Scala开发基于scrapy内核的网络爬虫.
ferrit - 基于Scala开发使用了Akka, Spray，Cassandra的网络爬虫.

仅供个人学习参考/导航指引使用，具体请以第三方网站说明为准，本站不提供任何专业建议。如果地址失效或描述有误，请联系站长反馈～感谢您的理解与支持！

链接: https://fly63.com/nav/2902

热门资源

我要自学网

免费视频教程,提供全方位软件学习

官网

全球最大的中文 Web 技术教程。

官网

学习Web开发的最佳实践

官网

开启你的软件工程师生涯,在线编码教学网站,在实践练习中掌握知识

官网

GitHub

在线编辑、展示、分享、交流你的 JavaScript 代码

官网

web前端开发参考手册系列

官网

一款在线的代码编辑器,通过流行的JS框架创建自定义的环境,以简化JS代码

官网

优秀前端demo的展示网站,可以从中获取很多前端交互的灵感

官网

Promise迷你书

讲述JS中Promise的知识，JS的异步编程以及回调

官网

GitHub

学的不仅是技术，更是梦想！

官网

开源大模型食用指南

GitHub

一个提供125节免费课程的外语学习平台

官网

类似于awesome-crawler的资源

专业的职业技能学习平台，免费课程很多

官网

type-challenges

TypeScript 类型挑战合集

官网

GitHub

所有小初高、大学PDF教材

GitHub

偏向理工类实用课程，包括数据挖掘/软件工程等

官网

编织爱好者学习网站，找图解、记录作品信息、看线材信息

官网

一款非常好用的漏洞演示平台，基于MySQL和PHP 应用web靶场环境

官网

免费掌握新编程语言

官网

GitHub

Mac 开发配置手册

GitHub