哈夫曼编码

什么是哈夫曼编码

出现频次越高的字符，编码长度越小。

变长编码，使得编码的平均长度最短，实现压缩率大的无损压缩。

因为哈夫曼树是最优的，每次的选择都是贪心选择，这个局部最优也是全局最优。

因为所有字符都出现在叶子结点，保证了哈夫曼编码当中的任何一个字符的编码都不能是另一个字符编码的前缀。也就是说哈夫曼编码是一种前缀编码。

哈夫曼编码过程每次的选择都是贪心选择，这个局部最优也是全局最优。

其正确性证明依赖于贪心选择性质和最优子结构。

哈夫曼编码可以很有效的压缩数据，具体压缩率依赖于数据本身的特性。

齐夫定律：

发现某一单词出现的频率与其在频率表里名次的常数次幂成反比，也就是说极少数的单词会被经常使用，而绝大多数单词很少被提及，这种20/80法则在很多领域都被逐步发现，这种幂律分布被称为“齐夫定律”（Zipf’s law）

一般信息的分配都是幂率分布。

所以用哈夫曼编码压缩的比例一般都挺高的，70%以上。

香农第一定理给出了无损的情况下数据压缩的临界值。