Systèmes récompensés pour une interaction optimale
Olivier Pietquin (Supélec Metz) L'adaptation d'une interface homme-machine à un domaine ou à un public cible est une tâche difficile et longue, souvent basée sur une modélisation de l'utilisateur final qui peut entraîner un biais et induire des cycles supplémentaires d'amélioration. Dans cette intervention, nous présenterons une méthodologie d'optimisation d'interfaces homme-machine orientée données, dont l'objectif est de réduire le travail de développement et de transfert à différents domaines. La gestion de l'interaction y est vue comme un problème de décision séquentiel dans l'incertain qu'il s'agit d'optimiser. Pour ce faire, l'interaction est placée dans le cadre des processus décisionnels de Markov (éventuellement partiellement observables) dont la résolution est obtenue par apprentissage par renforcement ou planification. Nous parlerons des divers problèmes étudiés par cette thématique de recherche en plein essors depuis une dizaine d'années. Particulièrement nous traiterons de l'apprentissage à partir de traces d'interactions collectées sur des systèmes sous-optimaux, de l'apprentissage par interactions simulées et de l'apprentissage en ligne. Des exemples concrets d'applications, notamment aux systèmes de dialogue parlé, illustrerons le propos. |