Après éventuel pré-traitement, c'est-à-dire lorsque la qualité d'image
ne peut plus être améliorée sans une certaine ``compréhension''
du contenu, il est essentiel de pouvoir localiser dans l'image les
régions intéressantes. Dans les cas les plus favorables, la localisation
peut se faire a priori, en plaçant des régions d'intérêt fixes: lorsque
la répétabilité du placement des pièces est bonne, on sait à l'avance
où il faut inspecter. On peut donc placer des sondes de mesures statiques
aux endroits appropriés.
Cependant, deux situations arrivent fréquemment: soit les positions
des pièces fluctuent, d'une façon telle que des régions d'intérêt
statiques ne conviennent pas, soit les positions des pièces sont totalement
inconnues (voir même, on ne sait pas à l'avance quelles pièces sont
présentées).
On peut distinguer au moins trois familles de méthodes qui s'appliquent
plus ou moins bien à l'un ou l'autre cas de figure:
- l'appariement de modèle (template matching):
-
en premier lieu, on présente au système une instance de l'objet à
localiser, sous la forme d'une image. C'est la phase d'apprentissage.
Ensuite, lorsqu'un nouvelle image est présentée, une comparaison est
faite par superposition entre l'image de référence et l'image inspectée,
en faisant varier la position de la première. Le résultat de la recherche
correspond à la meilleure correspondance trouvée. Deux grandes familles
de méthodes sont utilisées: dans les méthodes surfaciques, on compare
deux à deux tous les pixels du modèle et de la cible; les variantes
les plus sophistiquées -basées sur la corrélation normalisée- permettent
de compenser des variations globales de contraste. Dans les méthodes
dites géométriques, on compare des représentations par descripteurs
de formes plutôt que les pixels eux-mêmes13.1.
- la détection de contours:
- pour localiser des objets, il faut
s'appuyer sur leur forme. Celle-ci est délimitée par leurs contours,
c'est-à-dire les endroits où les variations de niveaux de gris sont
les plus rapides: c'est ce que l'on appelle les bords (edge
detection). Lorsque l'on franchit un bord, le profil des niveaux
de gris suit une courbe en S, et sa dérivée première présente un extremum
correspondant à un point d'inflexion. La position de ce point d'inflexion
peut être déterminée avec grande précision par des techniques d'intégration
ou d'ajustement de modèle, fournissant ainsi une précision sous-pixel
(typiquement, de l'ordre du dixième de pixel). Lorsque la géométrie
des bords d'un objet est connue à l'avance, la localisation des bords
peut ainsi servir à les localiser. De plus, la localisation au sous-pixel
des points de transition permet d'atteindre des précisions et répétabilités
insoupçonnées.
- la segmentation:
- lorsque le contenu de l'image est très mal connu
à l'avance (par exemple dans le cas de la reconnaissance de caractères,
on sait que l'on va trouver des caractères, mais on ignore lesquels),
on doit avoir recours à des méthodes générales pour isoler des objets.
La segmentation consiste à délimiter dans l'image des régions dont
le contenu est homogène, telles que des à-plats uniformes, des zones
texturées de la même façon, l'image d'arrière-plan plus sombre, ...
De telles régions correspondent à des objets complets dans les cas
simples (caractères imprimés en une seule couleur sur un fond contrasté),
et à des parties d'objets dans le cas général.
La technique de segmentation la plus répandue est le seuillage suivi
d'analyse des composantes connexes: on classe les pixels par comparaison
à un niveau de seuil (foncé appartient au fond, clair appartient à
l'objet), puis on regroupe les pixels de même type qui se touchent.
On forme ainsi des taches dont on peut estimer la position
par détermination du centre de gravité ou autre. Cette approche à
le mérite de la simplicité, mais elle tombe en défaut lorsque le critère
de classification par intervalles de niveaux de gris n'est pas vérifié.
On parle alors d'images non seuillables. Un contournement possible
est l'utilisation de seuils non uniformes, aussi appelés adaptatifs,
tels que la valeur de seuil est ajustée pixel par pixel. On obtient
des seuils adaptatifs par filtrage passe-bas ou à partir d'une image
de référence.
Des techniques alternatives de segmentation sont plus sophistiquées
et se basent non seulement sur la valeur de gris des pixels individuels,
mais sur les relations de voisinage entre ceux-ci: lignes de partage
des eaux, croissance de régions, fusion/division, ...
Notes
- ... eux-mêmes13.1
- Il ne faut pas confondre les expressions pattern matching
(reconnaissance de formes) et template matching (ici
rendu par appariement de modèle). La première couvre les larges domaines
de la mesure de la ressemblance et de la classification, et constitue
une branche de l'intelligence artificielle, alors que la seconde a
le sens précis de localisation en termes de position spatiale, d'un
objet connu.
Marc Van Droogenbroeck. Tous droits réservés.
2003-09-30