信源编码可看作信源符号集(消息)到码元集(码符号集)的一种映射。
信源编码的目的是寻找最佳码1,从而压缩信源冗余度、减少码元数目、降低对码元速率的要求,以提高通信的有效性。信源编码将消息转变为数字代码,因此当信源给出的是模拟信号时,信源编码也是模/数转换的过程。信源编码分为无失真信源编码和有失真信源编码。
1、信息量与信源熵
- 信息量(自信息量):
I ( x i ) = l o g q ( x i ) I\left(x_{i}\right)=logq\left(x_{i}\right) I(xi)=logq(xi) - 信源熵(平均自信息量):
H ( X ) ≜ ∑ i q ( x i ) I ( x i ) = − ∑ i q ( x i ) l o g q ( x i ) H(X)\triangleq\sum_{i}q\left(x_{i}\right)I\left(x_{i}\right)=-\sum_{i}q\left(x_{i}\right)logq\left(x_{i}\right) H(X)≜i∑q(xi)I(xi)=−i∑q(xi)logq(xi) - 互信息量:
I ( x i ; y j ) = I ( x i ) − I ( x i ∣ y j ) = log q ( x i ∣ y j ) q ( x i ) I\left(x_{i} ; y_{j}\right)=I\left(x_{i}\right)-I\left(x_{i} \mid y_{j}\right)=\log \frac{q\left(x_{i} \mid y_{j}\right)}{q\left(x_{i}\right)} I(xi;yj)=I(xi)−I(xi∣yj)=logq(xi)q(xi∣yj)
事件x,y之间的互信息量 I ( x i ; y j ) I\left(x_{i};y_{j}\right) I(xi;yj)是y发生时所得到的关于x的信息量,等于“x的自信息量”减去 “y条件下x的自信息量”。 - 互信息量与离散信道容量(统计特性):
C = max q ( x ) I ( X ; Y ) ( 比特 / 码元 ) C=\max _{q(x)} I(X ; Y) \quad(\text {比特} / \text {码元}) C=q(x)maxI(X;Y)(比特/码元)
对于无扰信道有 I ( x i ; y j ) = H ( X ) I\left(x_{i};y_{j}\right)=H(X) I(xi;yj)=H(X);
可以看出,若要达到信道容量,信源分布(信道输入概率)须满足一定条件。
2、无失真信源编码
无失真信源编码只对信源的冗余度进行压缩,不改变信源的熵,能保证码元序列无失真地恢复成信源符号的序列。
无失真信源编码的实质是对离散信号进行变换,使变换后的信源符号尽可能为等概率分布(此时信源符号平均所含信息量最大),使信道的信息传输率达到信道容量,实现信源与信道理想的统计匹配。
- 香农第一定理指导无失真信源编码
- 三种常用变长码编码:
香农编码法、费诺编码法、霍夫曼编码法
其中霍夫曼编码效率最高。
可参考:三种编码方式的比较 - 知乎 (zhihu.com)
3、有失真信源编码
也称率失真编码或熵压缩编码。
香农第三定理指导有失真信源编码。
4、其他编码:脉冲编码调制
PCM(Pulse Code Modulation), 一种将模拟语音信号变换成数字信号的编码方式,也是A/D转换的过程。PCM是最简单的波形编码,用于早期的语音信号等的编码,也是数字通信和其他编码的基础。PCM分为三个过程:抽样、量化、编码。
均匀量化和非均匀量化:在实际中采用不均匀选取量化间隔的非线性量化方法,即先将抽样值压缩再均匀量化,使得小信号时分层密、量化间隔小,而大信号时分层疏、量化间隔大。常用的非均匀量化/压缩方法有A律13折线法(我国)和μ律15折线法。
最佳码:所有唯一可译码中平均码长最短的称为最佳码或紧致码,信源编码就是寻找最佳码 ↩︎