前端使用Node爬数据

更新日期: 2019-03-30 阅读: 2.4k 标签: 数据

爬虫类的需求,基本上在各个公司都会有,难免就会落在前端开发的头上。今天我们就来看看 Node 如何爬数据

其实抓取数据对于前端来说,就是 ajax 请求一个接口,只不过返回值有 text/html(早期 XML 之类的),application/json(目前工作中都是这个类型的) 两种。有时候为了一些简单的数据分析,我就直接在控制台请求数据。


request 请求

页面发起的 request 和 node 发起的 request 还是不一样的。我们分别说一下

Node 发起请求

https 库、http 库

const https = require('https');//Node 自带的
https.get('https://www.lilnong.top/cors/node-https', (resp) => {
 let data = '';
 resp.on('data', (chunk) => {
  data += chunk;
 });
 resp.on('end', () => {
  console.log('resp', JSON.parse(data));
 });
}).on("error", (err) => {
 console.log("Error: " + err.message);
});

优点就是原生自带、无依赖。
缺点呢,也很明显了,好多功能都不支持,写法复杂。http 和 https 不共享。
你可以想想成前端的 XMLHTTPRequest 很少有人直接用吧。

request 库

是一个第三方库,需要安装。使用简单,大量的人在使用。

request = require('request');
request('https://www.lilnong.top/cors/node-request', 
    {json: true},
    function(err, res, body){
        if (err) { return console.log(err); }
        console.log(body);
    }
);

优点来讲就是,封装库,使用方便,支持的东西较多。
缺点来说就是库停止了新功能的开发,不是promise的(request-promise)。

axios 库

也是一个第三方的库,需要安装。因为这个库可以跨环境使用(前端和 Node 都可以使用),使用起来也是很顺手的。

axios = require('axios');
axios('https://www.lilnong.top/cors/node-axios').then(function(rsp){
        console.log(rsp.data);
    });

优点来讲就是,跨环境,promise。
缺点来讲就是,node中的formdata,https设置代理的时候(axios-https-proxy-fix)

其他库

其实库还有很多 https://github.com/request/

  1. node-fetch
  2. got
  3. superagent
  4. urllib

页面发起请求

XMLHttpRequest

xhr = new XMLHttpRequest();
xhr.open('get', '//www.lilnong.top/cors/XMLHttpRequest')
xhr.send()
xhr.responseType='json'
xhr.onload = () => console.log(xhr.response)

优点来讲就是原生自带,经过多年更新,基本上功能都有了。
缺点来说就是ie低版本不支持(做ie的不用jquery不是胡扯吗,一般都是$.ajax)

axios

跨平台的库,可以在浏览器环境和 Node 环境使用。

axios('https://www.lilnong.top/cors/axios').then(function(rsp){
        console.log(rsp.data);
    });

优点,跨平台(上面代码拷贝过来就能跑)
缺点,还好吧。我基本上一直在用,没有明显的弱点。

$.ajax

jquery 库中带的方法。也是一款神器,也支持 promise 的方式。

$.ajax({
    url: 'https://www.lilnong.top/cors/$.ajax'
}).then(function(data){
    console.log(data);
});

优点:兼容性贼好,支持各种写法。
缺点:时代变了,jquery 不流行了。
你问这是什么?这是青春

fetch

浏览器的新规范。使用起来也挺方便,abort 的规范也在制定中。当然现在还干不掉 xhr。

fetch('https://www.lilnong.top/cors/fetch')
    .then(v=>v.json())
    .then(console.log)

优点:浏览器新加,天生支持 promise
缺点:兼容性,还有挺多的功能需要增加(中止、进度、cookie(已改默认值))


response 响应

Node 处理响应

html \ xml

我使用的是 cheerio ,算是 Node 中的 jQuery 吧。
看看这 api,熟悉吧基本上手就能用。

$ = cheerio.load('<h1>lilnong.top</h1>');//解析dom,一般我们都是把请求回来的响应放进去。
$('h1').text('欢迎关注公众号:前端linong。');
$('h1').addClass('title');

当然,还有还有其他库 JSDOM、Puppeteer(当做一个浏览器去使用,单击按钮之类的)。

html script 标签中的内容

这部分其实比较坑,比如说你用 jQuery 没获取过script中的变量吧。

其实有个很简单的办法,一般来说你要爬取的数据都不是前端去写的,很多都是模板直接输出的。包括vue的SSR之类的。

特征很明显,一个变量占据一行

那么我们就可以直接去比对每一行,如果你要找的那个变量开头,那么我们就截取这一行。

例子后补吧。我忘了谁家是这样的了。

json

这就很简单了,基本是个库就支持,不支持的也有 JSON.parse。

不过相比较上两个而言,这个更多的是要分析字段、摸索规则、referer 处理这些东西。


前端处理响应

前端来讲一般是简单的一些数据,而且主要用于分析。
当然也是有优势的,比如自动携带 cookie、自动更新 cookie、甚至你可以把他内部封装的 ajax 拿出来使用。

html \ xml

操作一下DOM对于前端来说不是家常便饭吗?
jQuery 吃遍天呀。你说就偶尔一下,querySelector、getElementById 这些都可以满足你。

html script 标签中的内容

这个就更简单了,直接获取对象呀。。。没的说吧。

json

json 的话,也不难呀是吧。


本文内容仅供个人学习、研究或参考使用,不构成任何形式的决策建议、专业指导或法律依据。未经授权,禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载,请保留原文来源信息,不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持!

链接: https://fly63.com/article/detial/8464

相关推荐

js判断数字是奇数还是偶数的2种方法实现

奇数和偶数的判断是数学运算中经常碰到的问题,这篇文章主要讲解通过JavaScript来实现奇偶数的判断。2种判断方法:求余% 、&1

进制转换_二进制、八进制和十六进制数之间的转换

在计算机语言中常用的进制有二进制、八进制、十进制和十六进制,十进制是最主要的表达形式。对于进制,有两个基本的概念:基数和运算规则。

mock.js模拟数据

开发时,后端还没完成数据输出,前端只好写静态模拟数据。数据太长了,将数据写在js文件里,完成后挨个改url。某些逻辑复杂的代码,加入或去除模拟数据时得小心翼翼。想要尽可能还原真实的数据,要么编写更多代码,要么手动修改模拟数据

几个数据持久化框架Hibernate、JPA、Mybatis、JOOQ和JDBC Template的比较

因为项目需要选择数据持久化框架,看了一下主要几个流行的和不流行的框架,对于复杂业务系统,最终的结论是,JOOQ是总体上最好的,可惜不是完全免费,最终选择JDBC Template。

nodejs 使用 xlsx 实现导入导出

将数据导出成excel方法,下面介绍两种方式,一种是将数组数据导出成excel,一种是将json数据导出成excel,都非常简单

web scraper 抓取网页数据的几个常见问题

如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据。如果你在使用 web scraper 抓取数据,很有可能碰到如下问题中的一个或者多个,而这些问题可能直接将你计划打乱,甚至让你放弃 web scraper 。

双向数据绑定与单向数据绑定的各自优势和关系

在react中是单向数据绑定,而在vue和augular中的特色是双向数据绑定。为什么会选择两种不同的机制呢?我猜测是两种不同的机制有不同的适应场景,查了一些资料后,总结一下。

原生JS数据绑定的实现

双向数据绑定是非常重要的特性 —— 将JS模型与HTML视图对应,能减少模板编译时间同时提高用户体验。我们将学习在不使用框架的情况下,使用原生JS实现双向绑定 —— 一种为Object.observe

JavaScript判断数据类型的多种方法【 js判断一个变量的类型】

js判断数据类型的多种方法,主要包括:typeof、instanceof、 constructor、 prototype.toString.call()等,下面就逐一介绍它们的异同。

Nginx返回大长度的JSON数据被截断

1 添加Nginx参数,增加缓存字符串大小;2 遇到权限问题,原因是大文件会先缓存到/proxy-temp文件夹下面,然后再返回;修改文件夹的权限为Nginx用户

点击更多...

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!