这里所说的结构是指特定的字符串集合应频繁出现,即可以忽略序列结构或者就不采用它。与字符出现的频率一样,即使是同样篇幅的文章而并不包含同样的信息,从这一点明白了仅仅是字符出现的频率高,却并不包含信息。若字符的序列中明显包含有信息,不充分利用它就不能实现最佳编码。
算术编码是一种划时代的编码方法。它以实际中的运算处理次数实现了这种最佳编码,其具体方法将在后面的章节中详述。总而言之,使送往对方的全部字符串与含有0和l的区间(确切地讲,为[0,1]半开区间)相对应,以所对应的位置作为代码。算术符号这个名称来自为确定其位置采用了实数的四则运算,即算术运算。
这种方法利用实数的密度,即在0和l之间有无限个数,无论是怎样的字符串,都始终使其对应于这一区域,可将所对应的位置作为代码。若能够理解这一事实,剩下的问题就是怎样获取其对应。这种对应必须有实数运算(四则运算),这决不能只采用加减法运算,或者只采用乘法运算。当然,在此乘以倒数并不意味只采用乘法运算。
实现这种算术符号的实际方法是,即便没有判断出全部字符串,也仍然能依次进行最佳编码,因此,其有效性非常高。而且,也包括依次性最佳的信源模型推测。对于这一点描述打算不超出以上范围,这里指出对信息和控制理论有非常大的影响。
如果明白这一事实,用怎样的运算量算出该对应点就成为实际问题。现在仍然继续努力这么做,在这努力的过程中会诞生出许多研究成果和专利。
展开