Comparaison d'approches pour l'interaction gestuelle

Le thème général de ce travail est celui de l'interaction gestuelle, i.e. de l'utilisation du geste pour l'interaction homme-machine. Le geste sera vu dans ce contexte comme une fonction du temps dans un ensemble de dimensions en rapport avec l'utilisateur et dépendantes de l'application considérée. Les dimensions envisagées incluent la position, la taille et l'orientation de parties du corps, d'objets tenus ou portés ou de surfaces de contact. Elles ne se limitent pas à des informations géométriques, incluant potentiellement d'autres éléments comme la pression exercée sur des capteurs. L'interaction gestuelle nécessite la capture de ces informations, leur description sous une forme structurée et leur interprétation en temps réel. Le travail proposé se concentrera sur l'interprétation.

Objectifs

Différentes méthodes de reconnaissance ont été proposées pour l'interaction gestuelle comme les modèles de Markov cachés [1], la déformation temporelle dynamique [2], la classification statistique à partir de caractéristiques géométriques [3], la comparaison de trajectoires [4] ou des méthodes heuristiques spécifiquement adaptées à un ensemble de gestes particulier [5].

La multiplication des surfaces interactives multi-touch (e.g. trackpads et souris, téléphones, tables) et des dispositifs grand-public à base de capteurs (e.g. wiimote) élargit considérablement le champ d'application de l'interaction gestuelle. L'objectif est d'étudier les méthodes de reconnaissance existantes pour identifier leurs points forts et limites au vu des différents défis posés par ces nouvelles applications. On s'intéressera notamment aux possibilités de segmentation des commandes gestuelles dans un flot continu d'interactions, à la reconnaissance de commandes paramétrées, à des gestes multi-utilisateurs [6] et multi-dispositifs [7].

Compétences attendues

Une bonne culture mathématique sera nécessaire pour comprendre les principes, points forts et limites théoriques des différentes approches. Un minimum de connaissances en programmation (C, C++ et/ou Python) est également souhaité afin de pouvoir comparer leurs avantages et inconvénients pratiques et réaliser un ou plusieurs démonstrateurs.

La personne en charge de ce travail aura accès aux équipements de la Plateforme Interactions - Réalité Virtuelle - Images (PIRVI) incluant notamment différents modèles de tables interactives et un système de suivi ARTtrack.

Références

[1] A. D. Wilson and A. F. Bobick. Parametric Hidden Markov Models for gesture recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 21(9):884–900, September 1999. [Google] [2] G. A. ten Holt, M. J. T. Reinders and E. A. Hendriks. Multi-dimensional dynamic time warping for gesture recognition. In Proceedings of the Thirteenth annual conference of the Advanced School for Computing and Imaging, 2007. [Google] [3] D. H. Rubine. Specifying gestures by example. In Proceedings of SIGGRAPH'91, pages 329–337, 1991. ACM. [ACM] [Google] [4] J. O. Wobbrock, A. D. Wilson and Y. Li. Gestures without libraries, toolkits or training: a $1 recognizer for user interface prototypes. In Proceedings of UIST'07, pages 159–168, 2007. ACM. [ACM] [Google] [5] A. D. Wilson and S. Shafer. XWand: UI for intelligent spaces. In Proceedings of CHI'03, pages 545–552, 2003. ACM. [ACM] [Google] [6] M. Ringel Morris, A. Huang, A. Paepcke and T. Winograd. Cooperative gestures: multi-user gestural interactions for co-located groupware. In Proceedings of CHI'06, pages 1201–1210, 2006. ACM. [ACM] [Google] [7] K. Hinckley, G. Ramos, F. Guimbretiere, P. Baudisch and M. Smith. Stitching: pen gestures that span multiple displays. In Proceedings of AVI'04, pages 23–31, 2004. ACM. [ACM] [Google]