4.4.1 Compression de données textuelles

La transmission d'un texte s'accommode mal d'erreurs et, pour ce type de signal, il n'est donc question que de codage sans perte.

Les techniques rencontrées dans les applications sont des variantes des trois techniques de codage suivantes:

Codage RLC
(Run Length Coding). Le principe employé pour ce codage est très simple: toute suite d'octets de même valeur est remplacée par la valeur, à laquelle on associe le nombre d'occurrences suivantes.
Codage de HUFFMAN.
Il s'agit d'une méthode de codage purement statistique consistant à coder les lettres suivant leur probabilité d'apparition. À la lettre la plus fréquente est associé le mot de code le plus court; le mot de code le plus long s'utilise pour la lettre la moins probable.
Codage LEMPEL, ZIV, WELCH (LZW).
Cette méthode consiste à remplacer les chaînes de caractères rencontrés précédemment par leur adresse dans une table au fur et à mesure du codage. Le récepteur procède de façon symétrique et reconstitue le dictionnaire par le même algorithme.

Cette méthode est utilisée par les logiciels de compression les plus courants tels que ARC ou PKzip.

Ces trois techniques ne sont pas réservées au seules données textuelles. La transmission d'un fax par exemple utilise la technique de codage RLC car les lignes contiennent de longues séries de pixels blancs.


Marc Van Droogenbroeck. Tous droits réservés.
2004-06-11