这个假设不可谓不大胆,但他很清楚,越是伟大的假设,越需要他伟大的求证,甚至可能需要用上他一辈子的时间!
这些信息源头又来自于哪里?如果有一个更古老的穿越者,也许光用上未来的知识还不够,而是要开始整个异世界帝国的考古?
当然,眼下,他这婴儿般的身体,还具备考古的条件。他目前唯一具备的,只有一副近万年的头脑。
他现在很像看看:一些人们常见的事物,到底含有多少信息,占用多少数据量。
文字
众所周知,英文字母有26个,理论上5比特就可以全部表示。且慢,刚才说的是小写字母,那算上大写字母,阿拉伯数字,标点符号怎么办?
正好,一个字节有8个比特,含有256种组合,也就可以表示所有的英文大小写,数字,标点和控制字符了!这就是著名的ASCII码表的由来。
乌利亚最热爱的中文情况,又要比上面的英文复杂上一些。因为中文并不是基于字母的拼音文字,而是由大量各不相同的字组成。康熙字典共收录汉字47035个,实际汉字总体数量达到了惊人的近10万个!这种情况下,用8个比特来编码汉字显然是远远不够的。
实际使用中,常用汉字,在UTF-8编码下,一个汉字占用3个字节(Byte),也就是用24比特来表示,不常用汉字甚至占到了4个字节。
《红楼梦》共有731,017个汉字,算下来就有2193051个Byte,在不考虑存储压缩算法的情况下,大约有2MB大小。
这个数据在21世纪看来的确很小,在曾经一块软盘只有1.4MB大小的时代,那也是庞然大物了。
图片
那么图片呢?最主流的图片格式是位图。什么叫位图呢?只需要把图片放大即可看出端倪,比如一张图片上,美女细腻的脸庞不再光滑,而是呈现为一个一个不同颜色的小方格。
位图是由像素组成的
所谓位图,也叫bitmap,实际上是由很多“带有颜色的点”组成的。
这些点是图像显示的基本单位,也就是放大图像之后看到的小方格,称为“像素”。