彻底理解编码

更新日期: 2019-05-23 阅读: 3.2k 标签: 编码分享

只要涉及编程工作，编码是永远绕不开的问题。只有彻底理解编码，遇到编码问题才知道问题的根源在哪里，并找到对应的解决办法。花一点时间去彻底消化并理解他，长远来看，对以后工作效率的提升是非常值得的。下面是我对编码的一些总结和理解，有不对之处还望指正。

1. 什么是编码？为什么会有编码？

从根本上来说，计算机只能处理0和1，也就是说只能处理由0和1组成的一串串数字。让人直接用01数字给计算机下达指令或传输字符显然是很困难的；但其实，早期计算机刚兴起时，那时的程序员就是写好01代码传给机器执行的。

人用自然语言沟通，而计算机只处理01代码。为了人与计算机更友好的交互，有人想了办法，将自然语言的每个字符都用一串01数字串来表示，也就是对每个字符用01串来编码，比如A用0100 0001来表示，这样就可以制定一个字符与01数字串的对应表，也即编码表，人只需要输入自然语言（如：Hello），计算机通过查编码表就可以转换为01串，这样机器就可以理解并处理了。

2. 为什么会有多种编码？

众所周知，世界上第一台计算机是在美国诞生的，因此，第一种编码自然是解决英文和01串的对应关系，这就促生了ASCII编码的出台，ASCII编码表用一个字节（8位）包含大小字母、数字、标点符号以及控制字符。

随着计算机的普及，世界上开始有越来越多的国家使用计算机，然而，每个国家都有自己的一套语言，加起来的字符成千上万。而ASCII最多只能编码256个字符，已经不能满足这么多的需求。于是，各国就制定了自己国家的编码表。比如中国就制定了GB2312、GBK、GB18030等编码规范。每个国家都有自己的一套编码，这就导致同一串01数字可能代表两个国家不同的字符，或者同一个字符A，在两个国家分别用不同的01数字串表示。这就导致不同编码的系统互相传输信息时无法正确识别，比如中国用GBK编码的字符传输给美国的服务器，而美国服务器只有ASCII编码表，这就很糟糕。

于是，Unicode编码出现了。Unicode编码将世界上各个国家所有的字符全部收录进去，每个字符都用唯一的01字符串表示，这样的话就做到了全世界所有字符的统一编码，各个国家传输信息都用Unicode编码，根据Unicode编码表就可以识别了。

常用的编码

ASCII：1个字节，实际使用7位，第8位保留，表示英文字符
ISO-8859-1：1个字节，ASCII的升级版，在ASCII的基础上添加了欧洲国家的字符，不能表示中文,常用于Java服务的网络传输
GB2312：2个字节，收录6763个汉字，只能表示简体字
GBK：GB2312的升级版，1个或2个字节，收录21003个汉字，可以表示简体字和繁体字
Unicode（即UCS）：原始的Unicode是定长的4个字节，比如字母A，用Unicode表示需要4个字节，比ASCII多了3个字节，由于这样做太浪费空间，因此经过优化制定了变长表示字符的UTF编码。
- UTF-8：用1-6个字节表示所有字符，此处使用变长字节表示，优先使用短字节。
- UTF-16：用2、4个字节表示所有字符，此处使用变长字节表示，优先使用短字节。
- UTF-32：用4个字节表示。

编码和解码

编码：将字符转为二进制（或unicode）。
解码：将二进制（或unicode）转为字符。

不同编码转换

首先应该知道，内存统一用Unicode编码，编码转换都统一转到Unicode，再从Unicode转为其他编码。比如ISO-8859-1和UTF-8之间转换，流程如下：

先知道字符"u"是用ISO-8859-1编码
获取字符"u"的二进制，java可通过getByte("ISO-8859-1")正确解析出该字符的二进制，也可以用十六进制表示，比如AF8U
根据某种规则，将ISO-8859-1的AF8U转化Unicode,再转化为UTF-8的4E2D

java编译的编码问题：

JDK先检查源文件的编码类型，如果没有指定编码类型则用系统的编码读取源文件，如果指定了编码类型则用指定的编码类型打开源文件。
打开源文件后，在内存中编译为.class文件，此时，.class文件是Unicode编码
将内存中的.class文件存入硬盘，此时，.class文件仍然是Unicode编码

浏览器编码问题

看浏览器使用的是什么编码，则显示的页面就是使用什么编码。
发送post请求时，看浏览器用的什么编码，则发送过去的数据就是用什么编码
一般可以查看headers里ContentType，charset是什么编码

服务器编码问题

服务器收到请求后，经过正确的编码规则解析，服务器才可以正常识别
服务器发送请求时，经过正确的编码规则编码，浏览器才可以正常显示。浏览器也可以自定义编码去解析

记住： 不管是爬虫获取的，浏览器收到的还是从本地硬盘读取的，都是二进制，选择正确的编码类型，才能把二进制或者说01序列解析为正确的字符。也就是用何种方式解析01数字。

本文内容仅供个人学习、研究或参考使用，不构成任何形式的决策建议、专业指导或法律依据。未经授权，禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载，请保留原文来源信息，不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持！

链接: https://fly63.com/article/detial/3843

上一页: 移动端兼容适配的分析下一页: 感觉自己不适合做程序员，什么样的人不适合做程序员？

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!