第一百四十章又一次想深了 <可不看，有枯燥知识>（2 / 5）_灭世诡火

这个假设不可谓不大胆，但他很清楚，越是伟大的假设，越需要他伟大的求证，甚至可能需要用上他一辈子的时间！

这些信息源头又来自于哪里？如果有一个更古老的穿越者，也许光用上未来的知识还不够，而是要开始整个异世界帝国的考古？

当然，眼下，他这婴儿般的身体，还具备考古的条件。他目前唯一具备的，只有一副近万年的头脑。

他现在很像看看：一些人们常见的事物，到底含有多少信息，占用多少数据量。

文字

众所周知，英文字母有26个，理论上5比特就可以全部表示。且慢，刚才说的是小写字母，那算上大写字母，阿拉伯数字，标点符号怎么办？

正好，一个字节有8个比特，含有256种组合，也就可以表示所有的英文大小写，数字，标点和控制字符了！这就是著名的ASCII码表的由来。

乌利亚最热爱的中文情况，又要比上面的英文复杂上一些。因为中文并不是基于字母的拼音文字，而是由大量各不相同的字组成。康熙字典共收录汉字47035个，实际汉字总体数量达到了惊人的近10万个！这种情况下，用8个比特来编码汉字显然是远远不够的。

实际使用中，常用汉字，在UTF-8编码下，一个汉字占用3个字节（Byte），也就是用24比特来表示，不常用汉字甚至占到了4个字节。

《红楼梦》共有731，017个汉字，算下来就有2193051个Byte，在不考虑存储压缩算法的情况下，大约有2MB大小。

这个数据在21世纪看来的确很小，在曾经一块软盘只有1.4MB大小的时代，那也是庞然大物了。

图片

那么图片呢？最主流的图片格式是位图。什么叫位图呢？只需要把图片放大即可看出端倪，比如一张图片上，美女细腻的脸庞不再光滑，而是呈现为一个一个不同颜色的小方格。

位图是由像素组成的

所谓位图，也叫bitmap，实际上是由很多“带有颜色的点”组成的。

这些点是图像显示的基本单位，也就是放大图像之后看到的小方格，称为“像素”。