男人发现老公出轨一般怎么处理，男人公开出轨婚姻能坚持多久发现老公出轨男人怎么办

admin

2023-03-28 01:08:13 3阅读 0评论

这篇教程会帮你梳理清楚各种编码规则是怎么来的，让你对计算机的编码有个全方位认知。

我们常用的编码大概有这么几种， ASCII，GBK， GB2312，UTF8，UTF16，UTF32

ASCII

计算机问世开始，大家都用的 ascii 编码格式，定义为 8 个字节，且首字节恒定为0，因此最多可以表示 128 种字符

GB2312

ascii 虽然可以很好地表示英文，（毕竟英文一共只有26个字母），但是对于中国用户来说，ascii 编码方式肯定是无法支持所有汉字的，因此中国政府推出另一套编码规范，由中国国家标准总局1980年发布，1981年5月1日开始使用。

GB2312规定对收录的每个字符采用两个字节表示，第一个字节为“高字节”，对应94个区；第二个字节为“低字节”，对应94个位置。所以它的区位码范围是：0101－9494。区号和位号分别加上0xA0就是GB2312编码（因为限定最大区位码是 9494，因此不会造成区码位加上 0xA0 之后产生了问题）。例如最后一个码位是9494，区号和位号分别转换成十六进制是5E5E，0x5E+0xA0＝0xFE，所以该码位的GB2312编码是FEFE。

GB2312编码范围：A1A1－FEFE，其中汉字的编码范围为B0A1-F7FE，第一字节0xB0-0xF7（对应区号：16－87），第二个字节0xA1-0xFE（对应位号：01－94）

从另一个角度理解中文编码为：一个字节编码如果小于等于127，那么它的含义和 ascii编码一样，但是两个大于 127 的字节码拼接在一起的时候，可以表示某个汉字。前面的一个字节（称之为高字节）从0xA1用到 0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的"全角"字符，而原来在127号以下的那些就叫"半角"字符了。

GBK

由于GB 2312-80只收录6763个汉字，有不少汉字，如部分在GB 2312-80推出以后才简化的汉字（如"啰"），部分人名用字，台湾及香港使用的繁体字，日语及朝鲜语汉字等，并未有收录在内。于是厂商微软利用GB 2312-80未使用的编码空间，收录GB 13000.1-93全部字符制定了GBK编码。根据微软资料，GBK是对GB2312-80的扩展，也就是CP936字码表 (Code Page 936)的扩展（之前CP936和GB 2312-80一模一样），最早实现于Windows 95简体中文版。虽然GBK收录GB 13000.1-93的全部字符，但编码方式并不相同。GBK自身并非国家标准，只是曾由国家技术监督局标准化司、电子工业部科技与质量监督司公布为"技术规范指导性文件"。原始GB13000一直未被业界采用，后续国家标准GB18030技术上兼容GBK而非GB13000。

GB18030

GB 18030，全称：国家标准GB 18030-2005《信息技术中文编码字符集》，是中华人民共和国现时最新的内码字集，是GB 18030-2000《信息技术信息交换用汉字编码字符集基本资料的扩充》的修订版。与GB 2312-1980完全兼容，与GBK基本兼容，支持GB 13000及Unicode的全部统一汉字，共收录汉字70244个。

Unicode

从上面可以看出，不同的国家都在尝试制定自己的编码规范，那么这就会增加跨国沟通的成本。因此 unicode 的主要思想是可以给世界上所有的字符，都定义一个唯一标识，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+4E25表示汉字严。具体的符号对应表，可以查询unicode.org，或者专门的汉字对应表。

可以理解 Unicode 是一个思路，但是却不够实用。因为当我们将一篇文章转换成 unicode 编码之后，会返现不可读。原因在于有些字符用一个字节表示，有些字符用两个字节表示，有的甚至更多，我们永远无法知道，对于一个字节来说，它表示的是一个独立字符还是某个字符的组成部分。

因为 unicode 最大编码是4个字节，过去为了使用 unicode 编码，只能在小于四字节编码的符号之前，用0补齐，凑成四字节，但是存储开销也随之增大不少。

UTF8 （Unicode 编码的一种实现）

UTF8 的出现很好地解决了 unicode 中间编码不可读的问题，定义了两条规则如下:

对于单字节的符号：字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的；

对于n字节的符号（n > 1）：第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

其他实现方式还包括 UTF-16（字符用两个字节或四个字节表示）和 UTF-32（字符用四个字节表示），不过在互联网上基本不用。

这里有些有趣的规则值得我们注意：

字节开头为0的，一定表示 ascii 编码

字节开头是10的，一定是某个字符的组成部分

字节开头是110 的（范围: 0xC0 ~ 0xDF），一定代表了双字节编码的开头，后面一定是一个 10 开头的字节

字节开头是 1110 的（范围: 0xE0 ~ 0xEF），一定是代表了三字节编码的开头，后面一定是两个 10 开头的字节

…

在这么一套规则下，计算器可以很容易知道每个字节代表什么含义，是几个字符的编码，应该如何将字节组合编码。

版权属于：自由随风-天行健,君子以自强不息;地势坤,君子以厚德载物

本文链接： http://fengshui.zazhiba.com.cn/post/241239.html

男人发现老公出轨一般怎么处理，男人公开出轨婚姻能坚持多久发现老公出轨男人怎么办

相关阅读

发表评论取消回复

还没有评论，来说两句吧...