fly63前端网

www.fly63.com

首页文章资源工具教程 栏目
  • 关于我们
  • 网站投稿
  • 赞助一下
搜索

在线工具_工作生活好帮手

打造各种简单、易用、便捷的在线工具,网友无需注册和下载安装即可使用

点击查看

关闭

提交网站

awesome-crawler
分享
复制链接
新浪微博
QQ 好友

扫一扫分享

GitHub:https://github.com/BruceDone/awesome-crawler
网站描述:爬虫技术资源汇总

互联网爬虫,蜘蛛,数据采集器,网页解析器的汇总,因新技术不断发展,新框架层出不穷 


Python

  • Scrapy - 一种高效的屏幕,网页数据采集框架。
    • django-dynamic-scraper - 基于Scrapy内核由django Web框架开发的爬虫。
    • Scrapy-Redis - 基于Scrapy内核采用Redis组件的爬虫。
    • scrapy-cluster - 基于Scrapy内核采用Redis 和 Kafka 开发的分布式爬虫框架。
    • distribute_crawler - 基于Scrapy内核采用redis, mongodb开发的分布式爬虫框架。
  • pyspider - 一个强大纯python的数据采集系统.
  • cola - 一个分布式的爬虫框架.
  • Demiurge - 基于PyQuery的微型爬虫框架.
  • Scrapely - 一个纯python的html页面捕捉库.
  • feedparser - 一个通用的feed解析器.
  • you-get - 静默网站爬去下载器.
  • Grab - 网站采集框架.
  • MechanicalSoup - 一个自动化的互动网站Python库.
  • portia - 基于Scrapy的可视化数据采集框架.
  • crawley - 基于非阻塞通信(NIO)的python爬虫框架.
  • RoboBrowser - 一个简单的,不基于Web浏览器的基于Python的Web 浏览器.
  • MSpider - 一个基于gevent(协程网络库)的python爬虫.
  • brownant - 一个轻量级的网络数据抽取框架.

Java

  • Apache Nutch - 用于生产环境的高度可扩展的高度可扩展的网络爬虫.
    • anthelion - 一个基于Apache Nutch抓取语义注释在HTML页面插件.
  • Crawler4j - 简单和轻量级的网络爬虫.
  • JSoup - 采集,分析,处理和清洗HTML页面.
  • websphinx - HTML网站特定的处理、信息提取.
  • Open Search Server - 全套搜索功能,建立你自己的索引策略。分析、提取全文数据,这个框架可以索引的一切.
  • Gecco - 一个易于使用的轻量级网络爬虫.
  • WebCollector -简单的抓取网页的界面,可以在不到5分钟内部署一个多线程的网络爬虫.
  • Webmagic -一个可扩展的爬虫框架.
  • Spiderman -一个可扩展的,多线程的网络爬虫.
    • Spiderman2 - 分布式网络爬虫框架,支持javascript渲染.
  • Heritrix3 - 可扩展,大规模的网络爬虫项目.
  • SeimiCrawler - 一个敏捷的分布式爬虫框架.
  • StormCrawler - 基于开放源代码、构建低延迟的网络资源采集框架,基于Apache Storm.
  • Spark-Crawler - 基于Apache Nutch 的网络爬虫,可以运行于Spark.

C#

  • ccrawler - 一个简单的Web内容分类方案,它可以根据其内容分开网页,基于C#3.5.
  • SimpleCrawler - 简单的多线程网络爬虫,基于REG表达式.
  • DotnetSpider - 基于C#开发的一个轻量级,交叉平台的网络爬虫.
  • Abot - 具有很好效率和可扩展性的C#网络爬虫.
  • Hawk -  用 C#/WPF开发的网络爬虫,具有简单的ETL功能.
  • SkyScraper - 一个支持异步网络和有很好扩展性的网络爬虫.

JavaScript

  • scraperjs - 基于JS的一个功能齐全的网络爬虫.
  • scrape-it - 基于Node.js的网络爬虫.
  • simplecrawler - 基于事件驱动开发的网络爬虫.
  • node-crawler - 提供简单api,适于二次开发的网络爬虫.
  • js-crawler - 基于Node.JS,支持HTTP(S)的网络爬虫.
  • x-ray - 支持分页的网络爬虫.
  • node-osmosis - 基于Node.js适于解析HTML结构的网络爬虫.

php

  • Goutte - 基于PHP的网页截屏和爬取程序.
    • laravel-goutte - 基于Laravel 5 的网络爬虫.
  • dom-crawler - 易于抽取dom文件的网络爬虫.
  • pspider - 基于PHP的并发网络爬虫.
  • php-spider - 一个基于PHP的高可扩展的网络爬虫.

C++

  • open-source-search-engine - 基于C/C++开发的网络爬虫和搜索引擎.

C

  • httrack - 全部网站整体复制工具。 ## Ruby
  • upton - 一个易于上手的爬虫框架集合,支持css选择器.
  • wombat - 基于Ruby天然的支持DSL的网络爬虫,易于提取网页正文数据.
  • RubyRetriever - 基于Ruby的网站数据采集和全网数据收割机.
  • Spidr - 全站数据采集,支持无限的网站链接地址采集.
  • Cobweb - 非常灵活,易于扩展的网络爬虫,可以单点部署使用.
  • mechanize - 自动采集网站数据的框架.

R

  • rvest - 基于R开发的简单网络爬虫.

Erlang

  • ebot - 一个分布式,高可扩展的网络爬虫.

Perl

  • web-scraper - 方便使用HTML、CSS、XPath选择器的网络爬虫。

Go

  • pholcus - 一个分布式,支持高并发的网络爬虫.
  • gocrawl - 一个高并发的,轻量级,遵守道德的网络爬虫.
  • fetchbot -一个遵守robots.txt规则和延迟规则的轻量级网络爬虫.
  • go_spider - 一个非常好的高并发网络爬虫.
  • dht -支持DHT协议的网络爬虫.
  • ants-go - 基于Golang的高并行网络爬虫.
  • scrape - 一个简单的提供很好开发接口的网络爬虫.

Scala

  • crawler - 基于Scala DSL的网络爬虫.
  • scrala - 由Scala开发基于scrapy内核的网络爬虫.
  • ferrit - 基于Scala开发使用了Akka, Spray,Cassandra的网络爬虫.

链接: https://fly63.com/nav/2902

more>>
相关栏目
w3school
全球最大的中文 Web 技术教程。
官网
MDN Web 文档
学习Web开发的最佳实践
官网
FreeCodeCamp
开启你的软件工程师生涯,在线编码教学网站,在实践练习中掌握知识
官网GitHub
RunJS
在线编辑、展示、分享、交流你的 JavaScript 代码
官网
CSS参考
web前端开发参考手册系列
官网
JSFiddle
一款在线的代码编辑器,通过流行的JS框架创建自定义的环境,以简化JS代码
官网
CodePen
优秀前端demo的展示网站,可以从中获取很多前端交互的灵感
官网
Promise迷你书
讲述JS中Promise的知识,JS的异步编程以及回调
官网GitHub
菜鸟教程
学的不仅是技术,更是梦想!
官网
tech-interview-handbook
GitHub最强技术面试手册
官网GitHub
from_coder_to_expert
从程序员到CTO,从专业走向卓越,分享大牛企业内部pdf与PPT
点击进入GitHub
大学资源网
一个功能强大并且完全免费的在线学习网站
官网
1loc.dev
收录了各种用Js一行代码实现的功能
官网
NodeSchool
NodeJS教学闯关课程网
官网
Oalib
一个完全免费的论文搜索网站
官网
awesome-vue
Vue.js相关的资源集合
点击进入GitHub

手机预览