Base64编码是什么

内容纲要

在我们进行前端开发时，针对项目优化，常会提到一条：针对较小图片，合理使用Base64字符串替换内嵌，可以减少页面http请求。

并且还会特别强调下，必须是小图片，大小不要超过多少KB，等等。

那么，Base64又到底是什么呢？

初步认识base64格式

下面的这段字符串，应该是大家都很常见的。通过这种固定的格式，来表示一张图片，并被浏览器识别，可以完整的展示出图片：

data:image/svg+xml;base64,PHN2ZyB4bWxucz0iaHR0c......

这里展示的是一个svg格式的图片，当然我们还可以加载任何浏览器支持的格式的图片。

这段字符串就是基于Base64编码得来的，其中base64,后面那一长串的字符串，就是Base64编码字符串。

互联网发展早起，电子邮件是最有效的应用。

而电子邮件的SMTP传输协议在早期，只能用于传送7位的ASCII码，而ASCII码就是基于英语设计的，对于非英语国家的文字等资源就无法发送。

为了解决这个问题，后来有了通用互联网邮件扩充MIME，增加了邮件的主体结构，定义了非ASCII码的编码传输规则，这就是Base64。

Base64是基于64个可打印字符来表示二进制数据的编解码方式。

正因为可编解码，所以它主要的作用不在于安全性，而在于让内容能在各个网关间无错的传输。

这64个可打印字符包括大写字母A-Z、小写字母a-z、数字0-9共62个字符，再加上另外2个 + 和 /。

Base64是一种索引编码，每个字符都对应一个索引，具体的关系图，如下：

这也是名称中64的由来。

由于64等于2的6次方，所以一个Base64字符实际上代表着6个二进制位(bit)。

然而，二进制数据1个字节(byte)对应的是8比特(bit)，因此，3字节（3 x 8 = 24比特）的字符串/二进制数据正好可以转换成4个Base64字符(4 x 6 = 24比特)。

为什么是3个字节一组呢？因为6和8的最小公倍数是24，24比特正好是3个字节。

具体的编码方式：

上图中的字符串 ‘you’，经过转换后，得到的编码为： ‘eW91’。

我们可以看到，当3个字符进行Base64转换编码后，最后变成了4个字符。因为每个6比特位，都补了2个0，变成8比特位，对应1字节。

这里正好多了三分之一，所以正常情况下，Base64编码的数据体积通常比原数据的体积大三分之一。

这也是为什么我们在前面讲使用Base64编码优化图片时，需要强调是小图标，如果图片都使用该方式，则静态文件会增大很多，并不合适。

3个英文字符，正好能转成4个Base64字符。那如果字符长度不是3的倍数，那应该使用什么样的规则呢？

其实也简单，我们在实际使用Base编码时，常会发现有第65个字符的存在，那就是 ‘=’ 符号，这个等于号就是针对这种特殊情况的一种处理方式。

对于不足3个字节的地方，实际都会在后面补0，直到有24个二进制位为止。

但要注意的是，在计算字节数时，会直接使用总长度除以3，如果余数为1则会直接在最后补一个=，如果余数为2则补两个=。

因此，转码后的字符串需要补的后缀等号，要么是1个，要么是2个，具体的可以见下图：

图中第二个，使用的是单独的字符 ‘d’，是为了区分索引字符表里的索引0，这个时候，得到编码中，会存在一个索引0对应的A字符，而’=’是直接补上2个。

由于 Base64 仅可对 ASCII 字符进行编码，如果是中文字符等非ASCII码，就需要先将中文字符转换为ASCII字符后，再进行编码才行。

Post Views: 2,023