网页数据采集_在线网页爬虫工具

网页数据采集

Url地址

选择器

样式过滤

原编码

输出编码

采集规则

替换规则

案例选择

返回结果：

返回的结果数据

采集规则:

{
	'规则名':['jQuery选择器','要采集的属性'],
	'规则名2':['jQuery选择器','要采集的属性']
}

规则库是用jQuery选择器来编写的，规则名有自己定义，对应其返回的key。例如：

{
	//采集id为one这个元素里面的纯文本内容
	'text' : ['#one','text'],
	//采集class为two下面的超链接的链接
	'link' : ['.two>a','href'],
	//采集class为two下面的第二张图片的链接
	'img' : ['.two>img:eq(1)','src'],
	//采集span标签中的HTML内容
	'other' : ['span','html']
};

切片选择器:

切片选择器又叫“区域选择器”，指先按照该规则对HTML内容进行切片，然后再分别再在这些切片里面进行相关的选择。当采集列表的时候，建议设置这个参数。

// 切片选择器
'.items-area>.item'

替换规则:

用于全局替换相应内容，如下

{
	'内容1':'内容2',
	'替换前内容':'替换后内容'
}

乱码解决:

出现乱码的问题很多，一般通过设置输入输出参数即可解决，常用的网页编码有：utf-8，gbk，gb2312，iso-8859-1，big5，euc-krd等

基于querylist实现，本工具仅用于学习，参考使用！