不乱码:curl www.1616.net |more
乱码:curl -H "Accept-Encoding: gzip"www.1616.net | more
不乱码:curl -H "Accept-Encoding: gzip"www.1616.net | gunzip | more
下面的a,b解释的是www.1ting.com,c,d解释是的www.1616.net
a.某个url,如果用不加任何选项的curl命令抓取后乱码,在curl后面加上Accept-Encoding:gzip,后面不加gunzip,则抓取的数据会乱码。
b.某个url,如果用不加任何选项的curl命令抓取后乱码,在curl后面加上Accept-Encoding:gzip,后面加上gunzip,则抓取的数据不会乱码。
c.某个url,如果用不加任何选项的curl命令抓取后不乱码,在curl后面加上Accept-Encoding:gzip,后面不加gunzip,则抓取的数据会乱码。
d.某个url,如果用不加任何选项的curl命令抓取后不乱码,在curl后面加上Accept-Encoding:gzip,后面加上gunzip,则抓取的数据不会乱码。
iconv命令是运行于linux平台的文件编码装换工具。当我们在linux系统shell下通过curl命令或者wget命令获取一个网页的源代码,当网页的编码与当前操作系统坏境的设置的编码不同时,就会发现网页中有很多乱码。如在网页"meta"标签"charset"属性值设置为"gb2312"的http://www.baidu.com百度首页,在系统坏境变量"$LANG"值为"en_US.UTF-8"的linux系统即会产生中文乱码现象。这时我们可以尝试使用iconv命令进行编码装换,让中文不在是乱码。如下命令是处理百度在系统坏境变量"$LANG"值为"en_US.UTF-8"的linux系统乱码的问题的解决方案之一:
curl http://www.baidu.com|iconv -fgb2312 -t utf-8
当然,你也通过改变系统坏境变量与百度首页的"charset"值一致,也可以解决此乱码问题,如下命令:
set LANG="gb2312"
export LANG
curl http://www.baidu.com
iconv命令的详细语法:
iconv [选项..] [文件..]
选项:
-f 输入编码
-t 输出编码
-l 列出所有已知的编码
-o 输出文件
对比采用php CURL库的POST GETHEADER三种方法之间的差异
比较POST GETHEADER这三种方法的区别:
参数 | POST | GET | HEADER |
CURLOPT_URL | 有 | 有 | 有 |
CURLOPT_POST | 开启 | 关闭 | 关闭 |
CURLOPT_HTTPHEADER | 如果有$header,则开启 | 如果有$header,则开启 | 如果有$header,则开启 |
CURLOPT_HEADER | False | False | True |
CURLOPT_NOBODY | false | False | true |
CURLOPT_POSTFILEDS | True | false | false |
从上表中可以看出:
POST方法:开启POST连接,然后发送POST报文体。关闭HEADER和NOBODY
GET方法:关闭POST相关的选项,关闭NOBODYHEADER,仅仅只是开启curlopt_httpheader
HEADER方法:开启HEADER和NOBODY,关闭POST相关的选项。
应该说上述三种方法,一个明显的区别是,箱采用什么方法的时候,就开启对应的CURL选项。CURL_HTTPHEADER与CUROPT_HEADER的区别:
前者是设置HTTP头部信息的一个数组
后者是将头文件的信息以数据流的方式输出
MySQL使用时,有一件很痛苦的事情肯定是结果乱码。将编码格式都设置为UTF8可以解决这个问题,我们今天来说下为什么要这么设置,以及怎么设置。在编程语言中,我们为了防止中文乱码,会使用unicode对中文字符做处理
为什么会出现乱码呢?这就是 lxml 的蛋疼之处,给它 unicode 它有的时候它不认,给它 bytes 它又处理不好,方案3的好处是,不必知道源站编码,而直接由pyquery来接管。
在Eclipse中,js文件的默认编码是ISO-8859-1,这种编码和中文不兼容,导致了解码失败,继而出现了中文乱码。解决的方法就是将js文件的编码修改为对应的中文编码就可以了。
HTML文件乱码一般是因为编码格式不匹配造成的,比如:不同编码内容混杂、浏览器不能自动检测网页编码等等;但无论是哪种情况造成乱码,在HTML文件头中设置网页编码,匹配好编码格式就可。
不同编码内容混杂:HTML乱码是由于html编码问题照成;使用记事本编辑html:使用记事本直接编辑html也容易照成html编码乱码
内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!