Une fois les données numériques obtenues, le travail n'est pas achevé. En effet, les signaux numérisés représentent des quantités d'information (des débits) considérables contenant une certaine redondance.
Prenons le cas de la phrase de la figure 2.29 pour expliquer le principe de la suppression de redondance, qui n'est autre que la raison de la compression. Malgré la suppression des quelques lettres, la troisième version de la phrase est toujours compréhensible alors que le nombre de lettres a diminué de 20%. La réduction de taille a donc été possible en raison de l'existence d'une certaine redondance dans le message de départ.
D'une manière plus formelle, chaque lettre se caractérise par une certaine probabilité d'occurrence dans un contexte donné. Par exemple, dans la langue française, un ``e'' est plus probable qu'un ``z''. Nous fournissons ci-dessous une définition expérimentale de la probabilité d'une lettre.