也就是说q后面马上有一个u的概率几乎等于1。那么,从通信传输的概念上讲u在这个地方就是多余的,是一个冗余字符,信息量为零。同理,th的组合,ch配对儿出现的频率都很高,都存在着编码意义上的冗余。再比如,冠词“the”在语句中一般也是冗余信息。在英文电报中这个词就完全忽略。当你直接用英语当报文传输时,不确定性减少,冗余度增加,其携带的信息量相对减低很多。香农当时的粗略统计,英文的冗余度大约是50%。这我们也就容易理解,为什么在现代数字通信中,文字,尤其是英文为代表的拉丁文字可以进行大幅度的压缩。用计算机算法进行压缩,你会发现实际的冗余度比50%还大很多。纯技术上的处理,通常都可以压缩掉60%~70%,甚至更多。
前面讨论过,一般通信概念中信息的本质是离散的;信息是依据某一种模式用符号编码后的报文信号传输的。那么通信的信息量就是这些符号在报文中出现的概率及其对数积的总和。这就是香农信息论的公式中定义的信息,及其定量的计算方法。它本身也是用数学的语言揭示了信息的离散性、不确定性和随机性。
这个公式恰恰与热力学计算热能量的统计力学计算公式相似。热力学的第二定律把这个公式的计算结果称作“熵”(Entropy)。
不知是单纯的巧合,还是香农有意为之。这个“熵”原本在物理学领域也是一个只有少数人研究涉及的、难以理解的生僻概念。很多人听了这个新词,看了这个公式也感到无从了解这与我们朝夕相伴的信息有啥关系。不过,在香农的这篇论文中,熵的概念虽然怪异,但也是最强有力的。
理论广为应用,概念依旧模糊香农的论文一经发表还是在通信相关领域掀起了一阵旋风。世界各地的相关工程师、学者纷纷发函向香农索取论文的拷贝。
1949年底,在沃伦·韦弗(WarrenWeaver)促动下,香农和韦弗共同署名的同名专著《通信的数理理论》正式出版。韦弗是一位数学家,也是一位积极推动科研发展的科学管理学者,同时是研究机器翻译的先锋。韦弗在新书中拓宽了对香农的信息论的解释,阐述了其哲学层面的意义。
或许因为香农的谦逊低调,或许是香农的研究面毕竟有所局限,像大多数的纯理论一样成形都要有漫长过程,香农的信息论也未能一蹴而就、推出来就广为认同。专著出版后,科学界的评价各异。最早发表评论的是数学家约瑟夫·杜博,美国数理统计学的大师,他认为从数学的角度论述还不够严·谨和完备,更像是一个建议。生物学界则认为:尽管论述中不乏令人兴奋的隐喻,但它基本上还是一篇工程专著,对人类问题研究用处不大。《哲学评论》甚至担心香农从热力学“熵”的概念衍生拓展出来的“信息”的概念可能误导哲学家。只有维纳教授在《今日物理》杂志上的评论比较积极正面。
维纳的评述写了五段,肯定了香农论著中最根本的概念——“信息量是‘熵’之负数”的定义是准确的。因为,他自己的研究也同时得出了这样的结论。这就是维纳的《控制论》,第一版也是在1948年出版,稍晚于香农的论文。维纳预言:这两本书应是开启一个新领域的双响礼炮,预示这个领域将会迅速崛起。不过,在评论中维纳也表示了作为广义的信息论,香农的研究范围还是太窄,也不够深入。比如,若没有着重强调人的神经系统,则对语言的处理就不完整。维纳认为“人的神经接受语言并把它传输进大脑”。
……
展开