nodejs能爬虫么？

更新日期: 2019-12-25 阅读: 2.9k 标签: 爬虫分享

nodejs可以爬虫。Node.js出现后，爬虫便不再是后台语言如PHP，Python的专利了，尽管在处理大量数据时的表现仍然不如后台语言，但是Node.js异步编程的特性可以让我们在最少的cpu开销下轻松完成高并发的爬取。

另外由于现在许多网站都有了反爬虫手段，对付这些手段最合适的当然是可以在浏览器中直接运行的JS，这也使得基于Node.js的爬虫技术越来越受重视。

node做爬虫的优势

1、node的驱动语言是JavaScript。

JavaScript在nodejs诞生之前是运行在浏览器上的脚本语言，其优势就是对网页上的dom元素进行操作，在网页操作上这是别的语言无法比拟的。

2、nodejs是单线程异步的。

听起来很奇怪，单线程怎么能够异步呢？想一下学操作系统的时候，单核cpu为什么能够进行多任务处理？道理也是类似，在操作系统中进程对CPU的占有进行时间切片，每一个进程占有的时间很短，但是所有进程循环很多次，因此看起就像是多个任务在同时处理。

js也是一样，js里有事件池，CPU会在事件池循环处理已经响应的事件，未处理完的事件不会放到事件池里，因此不会阻塞后续的操作。在爬虫上这样的优势就是在并发爬取页面上，一个页面未返回不会阻塞后面的页面继续加载，要做到这个不用像python那样需要多线程。

本文内容仅供个人学习、研究或参考使用，不构成任何形式的决策建议、专业指导或法律依据。未经授权，禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载，请保留原文来源信息，不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持！

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!