13.3.3 Techniques de localisation

Après éventuel pré-traitement, c'est-à-dire lorsque la qualité d'image ne peut plus être améliorée sans une certaine ``compréhension'' du contenu, il est essentiel de pouvoir localiser dans l'image les régions intéressantes. Dans les cas les plus favorables, la localisation peut se faire a priori, en plaçant des régions d'intérêt fixes: lorsque la répétabilité du placement des pièces est bonne, on sait à l'avance où il faut inspecter. On peut donc placer des sondes de mesures statiques aux endroits appropriés.

Cependant, deux situations arrivent fréquemment: soit les positions des pièces fluctuent, d'une façon telle que des régions d'intérêt statiques ne conviennent pas, soit les positions des pièces sont totalement inconnues (voir même, on ne sait pas à l'avance quelles pièces sont présentées).

On peut distinguer au moins trois familles de méthodes qui s'appliquent plus ou moins bien à l'un ou l'autre cas de figure:

l'appariement de modèle (template matching):
en premier lieu, on présente au système une instance de l'objet à localiser, sous la forme d'une image. C'est la phase d'apprentissage. Ensuite, lorsqu'un nouvelle image est présentée, une comparaison est faite par superposition entre l'image de référence et l'image inspectée, en faisant varier la position de la première. Le résultat de la recherche correspond à la meilleure correspondance trouvée. Deux grandes familles de méthodes sont utilisées: dans les méthodes surfaciques, on compare deux à deux tous les pixels du modèle et de la cible; les variantes les plus sophistiquées -basées sur la corrélation normalisée- permettent de compenser des variations globales de contraste. Dans les méthodes dites géométriques, on compare des représentations par descripteurs de formes plutôt que les pixels eux-mêmes13.1.
la détection de contours:
pour localiser des objets, il faut s'appuyer sur leur forme. Celle-ci est délimitée par leurs contours, c'est-à-dire les endroits où les variations de niveaux de gris sont les plus rapides: c'est ce que l'on appelle les bords (edge detection). Lorsque l'on franchit un bord, le profil des niveaux de gris suit une courbe en S, et sa dérivée première présente un extremum correspondant à un point d'inflexion. La position de ce point d'inflexion peut être déterminée avec grande précision par des techniques d'intégration ou d'ajustement de modèle, fournissant ainsi une précision sous-pixel (typiquement, de l'ordre du dixième de pixel). Lorsque la géométrie des bords d'un objet est connue à l'avance, la localisation des bords peut ainsi servir à les localiser. De plus, la localisation au sous-pixel des points de transition permet d'atteindre des précisions et répétabilités insoupçonnées.
la segmentation:
lorsque le contenu de l'image est très mal connu à l'avance (par exemple dans le cas de la reconnaissance de caractères, on sait que l'on va trouver des caractères, mais on ignore lesquels), on doit avoir recours à des méthodes générales pour isoler des objets. La segmentation consiste à délimiter dans l'image des régions dont le contenu est homogène, telles que des à-plats uniformes, des zones texturées de la même façon, l'image d'arrière-plan plus sombre, ... De telles régions correspondent à des objets complets dans les cas simples (caractères imprimés en une seule couleur sur un fond contrasté), et à des parties d'objets dans le cas général.
La technique de segmentation la plus répandue est le seuillage suivi d'analyse des composantes connexes: on classe les pixels par comparaison à un niveau de seuil (foncé appartient au fond, clair appartient à l'objet), puis on regroupe les pixels de même type qui se touchent. On forme ainsi des taches dont on peut estimer la position par détermination du centre de gravité ou autre. Cette approche à le mérite de la simplicité, mais elle tombe en défaut lorsque le critère de classification par intervalles de niveaux de gris n'est pas vérifié. On parle alors d'images non seuillables. Un contournement possible est l'utilisation de seuils non uniformes, aussi appelés adaptatifs, tels que la valeur de seuil est ajustée pixel par pixel. On obtient des seuils adaptatifs par filtrage passe-bas ou à partir d'une image de référence.
Des techniques alternatives de segmentation sont plus sophistiquées et se basent non seulement sur la valeur de gris des pixels individuels, mais sur les relations de voisinage entre ceux-ci: lignes de partage des eaux, croissance de régions, fusion/division, ...



Notes

... eux-mêmes13.1
Il ne faut pas confondre les expressions pattern matching (reconnaissance de formes) et template matching (ici rendu par appariement de modèle). La première couvre les larges domaines de la mesure de la ressemblance et de la classification, et constitue une branche de l'intelligence artificielle, alors que la seconde a le sens précis de localisation en termes de position spatiale, d'un objet connu.

Marc Van Droogenbroeck. Tous droits réservés.
2003-09-30