网页数据采集
返回结果:
返回的结果数据
采集规则:
{
'规则名':['jQuery选择器','要采集的属性'],
'规则名2':['jQuery选择器','要采集的属性']
}
规则库是用jQuery选择器来编写的,规则名有自己定义,对应其返回的key。例如:
{
//采集id为one这个元素里面的纯文本内容
'text' : ['#one','text'],
//采集class为two下面的超链接的链接
'link' : ['.two>a','href'],
//采集class为two下面的第二张图片的链接
'img' : ['.two>img:eq(1)','src'],
//采集span标签中的HTML内容
'other' : ['span','html']
};
切片选择器:
切片选择器又叫“区域选择器”,指先按照该规则对HTML内容进行切片 ,然后再分别再在这些切片里面进行相关的选择。 当采集列表的时候,建议设置这个参数。
// 切片选择器
'.items-area>.item'
替换规则:
用于全局替换相应内容,如下
{
'内容1':'内容2',
'替换前内容':'替换后内容'
}
乱码解决:
出现乱码的问题很多,一般通过设置输入输出参数即可解决,常用的网页编码有:utf-8,gbk,gb2312,iso-8859-1,big5,euc-krd等
基于querylist实现,本工具仅用于学习,参考使用!