数据压缩的分类方法繁多。有人统计,仔细分来可达30~40种,到目前为止尚未统一。多数学着认同的比较一致的分类方法,是将数据压缩分为在某种程度上可逆的与实际上不可逆的两类,这样更能说明它们的本质区别。
可逆压缩也叫做祯编码或无噪声编码(Noiseless Coding),而不同专业的文献作者还采用了另外一些术语,比如,冗余度压减(Redundancy Reduction)、熵编码(Entropy Coding)数据压缩(Data Compaction)、信息保持编码(Lossless,bit-preserving,源^自!751/文-论/文*网[www.751com.cn),等等。
实际的信源:信源=信息+冗余,对冗余度的计算说明,实际信源产生信号所携带信息的效率非常低,只有20%~50%。压缩在一定限度内是可逆的,采用的技术有时域样点之间相关(短时、长时);频域谱的非平坦性(频域相关);统计特性,例如Huffman编码,算数编码等;通用编码,例如Lemoel-Ziv编码。
不可逆压缩就是有失真(Lossy Coding)编码,信息论中叫熵压缩(Entropy Coding)。压缩超过一定限度,必然带来失真,允许的失真越大,压缩的比例就越大。译码时能按一定的失真容许度恢复,保留尽可能多的信息。所采用的技术有:量化技术;变换编码;预测编码;人的感知特性等。
信源编码设计流程图
4离散信源编码
香农第一定理(可变长无失真信源编码定理)
设离散无记忆信源X包含N个符号{x1,x2,…,xi,..,xN},信源发出K重符号序列,则此信源可发出N^k个不同的符号序列消息,其中第j个符号序列消息的出现概率为PKj,其信源编码后所得的二进制代码组长度为Bj,代码组的平均长度B为
B=PK1B1+PK2B2+…+PKN^kBN^k
当K趋于无限大时,B和信息量H(X)之间的关系为B*K=H(X)(K趋近无穷)
香农第一定理又称为无失真信源编码定理或变长码信源编码定理。
香农第一定理的意义:将原始信源符号转化为新的码符号,使码符号尽量服从等概分布,从而每个码符号所携带的信息量达到最大,进而可以用尽量少的码符号传输信源信息
香农第二定理(有噪信道编码定理)
有噪信道编码定理。当信道的信息传输率不超过信道容量时,采用合适的信道编码方法可以实现任意高的传输可靠性,但若信息传输率超过了信道容量,就不可能实现可靠的传输。
设某信道有r个输入符号,s个输出符号,信道容量为C,当信道的信息传输率R<C,码长N足够长时,总可以在输入的集合中(含有r^N个长度为N的码符号序列),找到M ((M<=2^(N(C-a))),a为任意小的正数)个码字,分别代表M个等可能性的消息,组成一个码以及相应的译码规则,使信道输出端的最小平均错误译码概率Pmin达到任意小。