ACTUALITÉ SCIENTIFIQUE
ET INNOVATION DE L'ÉTS
Annotation automatique du langage non verbal des personnes âgées - Par : Helmi Garraoui, Luc Duong, Sylvie Ratté,

Annotation automatique du langage non verbal des personnes âgées


Helmi Garraoui
Helmi Garraoui est candidat au doctorat à l’ÉTS sous la supervision de Sylvie Ratté et de Luc Duong. Ses intérêts de recherche comprennent la communication non verbale et l’analyse vidéo pour l’apprentissage machine.

Luc Duong
Luc Duong est professeur au Département de génie logiciel et des TI à l’ÉTS, et chercheur au Centre de Recherche du CHU. Ses recherches touchent l’imagerie médicale, la vision artificielle, les algorithmes et l’intelligence artificielle.

Sylvie Ratté
Sylvie Ratté est professeur au Département de génie logiciel et TI de l’ÉTS. Ses recherches portent sur l’intelligence artificielle, les ontologies, le forage de textes et de données, les langages formels et visuels en génie logiciel.

Personne âgée

Achetée sur Istock.com. Droits d’auteur.

RÉSUMÉ:

L’être humain a besoin de s’exprimer et de partager ses émotions par le biais de la communication verbale et non verbale. Par conséquent, l’analyse de ses comportements peut contribuer à une meilleure compréhension de ses besoins. Cet article traite d’un nouveau modèle d’annotation du langage non verbal. Il présente une approche intéressante d’annotation des gestes de tête chez les personnes âgées, fondée sur les techniques d’apprentissage machine dans le domaine de la linguistique. Grâce à l’approche proposée, nous avons été en mesure d’annoter les images comme le font les experts en réalité de terrain. Les mouvements de tête des personnes âgées sont identifiés par annotation automatique de vidéos (conversations naturelles avec des personnes âgées). Nous avons utilisé et comparé trois techniques d’apprentissage machine (arbre de décision [AD], K-plus proche voisin [KNN] et machine à vecteur de support [SVM]) pour annoter 3657 images extraites de conversations naturelles rassemblées dans un corpus appelé CorpAGEst. L’approche proposée donne des résultats prometteurs pour ce qui est de répertorier tous les mouvements de tête. Des taux de précision différents ont été obtenus selon la technique utilisée. La SVM et le KNN ont tous deux démontré la plus grande précision (93 %), par rapport au AD 68 %. À La suite pour mener à une caractérisation plus complète de la communication non verbale des personnes âgées.

Introduction

De nos jours, l’étude de la communication non verbale est un sujet des plus importants qui a évolué rapidement au cours des dix dernières années. En effet, des milliers d’études empiriques ont porté sur le rôle de la communication non verbale dans la vie humaine. L’être humain a besoin de s’exprimer et de partager ses émotions au moyen de la communication verbale et non verbale. Selon les recherches (1) en communication, les paroles comptent pour seulement 5 % de la compréhension du message; le ton, l’inflexion et autres éléments vocaux, 45 %, et le langage corporel, le mouvement et le contact visuel, 50 %. Ainsi, la communication non verbale est parfois plus utile pour comprendre l’intention exacte du communicateur. 

Approche proposée

Corpus

Pour ce travail, nous avons utilisé le corpus CorpAGEst (2), englobant des conversations en tête à tête entre des adultes et un sujet âgé (75 ans et plus). Il s’agit d’un corpus longitudinal contenant des annotations audio et vidéo et des transcriptions synchronisées. Le but de ce corpus est d’étudier les marqueurs verbaux et gestuels et de construire un profil pragmatique des personnes âgées, en suivant leurs marqueurs verbaux et gestuels pragmatiques dans des situations réelles. Le corpus est constitué de sous-corpus transversaux et longitudinaux :

  • Le corpus transversal comprend 18 conversations spontanées en français de Belgique avec neuf participants (huit femmes et un homme), dont l’âge moyen était de 85 ans. Chaque participant a tenu deux conversations. Le corpus sert à explorer les marqueurs non verbaux de posture et leur combinaison lors d’interactions verbales puisque ce sont des indicateurs représentatifs du comportement, de l’attitudes et de l’état émotionnel des locuteurs.
  • L’approche proposée pour automatiser les annotations des mouvements de la tête se fonde sur deux idées principales. La première, visant à simplifier le modèle, est la création d’une classe qui englobe les classes complexes et la seconde, pour simuler les annotations de l’expert, est l’utilisation de techniques d’apprentissage machine. Nous avons relevé trois étapes dans l’application du processus d’apprentissage machine. 
    • Extraction des caractéristiques de la tête (identification des repères). 
    • Prétraitement des données extraites lors de la première étape.
    • Application de trois techniques d’apprentissage machine pour caractériser les mouvements de tête.

Personne âgée en perte cognitiveExtraction et identification des caractéristiques

Différentes techniques sont utilisées pour extraire les caractéristiques, soit la détection des contours (3), la cascade de Haar boostée et le filtre de Gabor (5). Le système proposé utilisait OpenFace (6) pour extraire les caractéristiques de la tête. Cette technologie, fondée sur un modèle de réseau neuronal appelé « Convolutional Expert Constrained Local Model » (7), a généré 714 caractéristiques. De ces caractéristiques, nous avons supprimé celles qui étaient liées au regard et aux repères 3D. Cette étape de prétraitement nous a permis d’obtenir 211 caractéristiques pour chaque image.

Étapes de prétraitement

L’une des étapes les plus importantes pour obtenir des résultats satisfaisants est le prétraitement des données. Différentes techniques peuvent être utilisées. Dans cette recherche, nous avons procédé au nettoyage des données pour supprimer le bruit et corriger les incohérences dans les données générées par OpenFace. Nous avons également eu recours à la transformation de données, comme la normalisation, pour améliorer la précision des algorithmes de mesure de distance. Enfin, nous avons réduit la taille des données par agrégation, une technique de réduction des données permettant d’éliminer les caractéristiques redondantes. 

Réduction des caractéristiques

La réduction dimensionnelle est le processus qui consiste à trouver une représentation des données de plus petite dimension pouvant retenir le plus d’informations possible en conservant les variables les plus pertinentes. Deux techniques ont été appliquées dans ce travail.

Corrélation de Pearson

La corrélation de Pearson est un critère d’optimisation qui mesure la corrélation linéaire entre des variables indépendantes. La résultante permet de réduire le nombre de caractéristiques à l’aide de l’analyse en composantes principales.

Analyse en composantes principales

En raison du grand nombre de caractéristiques extraites, nous devions, d’une part, réduire considérablement le nombre de variables et, d’autre part, conserver les informations de l’ensemble de données de départ. L’une des techniques qui permettent cette fonction est l’analyse en composantes principales (PCA). 

Dimensionnement des caractéristiques (normalisation)

L’une des étapes de prétraitement dans le cadre de ce travail a été le dimensionnement des caractéristiques. En fait, nous avons dû appliquer cette technique en raison des différentes tailles d’images de notre ensemble de données, pour éviter que ces variations de dimensions n’entraînent de faibles performances.

Réduire le nombre de classes de mouvements de tête

Nous avons relevé 38 classes servant à annoter les mouvements de la tête dans le corpus CorpAGEst, proposées par les experts comme indiqué au tableau 1. Parmi ces classes, 8 sont des mouvements de tête « simple » ayant une unique direction (tourner à droite, tourner à gauche, pencher à droite, pencher à gauche, incliner vers le bas, incliner vers le haut, arrière, avant). Les autres classes représentent de mouvement de tête « complexes », soit qui ont plus d’une direction (p. ex. En bas + Tourner à droite, Pencher à gauche + Tourner à droite). L’approche proposée est fidèle aux annotations des experts; nous avons conservé les mêmes annotations simples et avons ajouté une nouvelle classe qui englobe toutes les classes composées. Les annotations des experts sont listées dans le tableau ci-dessous.

Tableau 1 Annotations des experts

Annotations proposées par les experts

 

Tableau 2 Classes d’annotation proposées

Annotations proposées

Techniques d’apprentissage machine pour caractériser les mouvements de tête

Ensemble de données

Nous avons validé notre travail en le comparant avec la réalité de terrain réalisée par des experts (linguistes); nous avons utilisé 3657 images extraites d’une conversation naturelle, puis divisé l’ensemble de données en 2 parties :

Ensemble d’entraînement

L’ensemble d’entraînement est un ensemble d’exemples utilisé pour l’apprentissage. Le modèle est entraîné à l’aide de cet ensemble de données par méthode d’apprentissage supervisé, selon les paramètres du classificateur. En observant ses données, le modèle apprend.

Ensemble de tests

L’ensemble de tests est un ensemble d’exemples utilisé pour évaluer la performance du classificateur entraîné. Une phase de test a servi à estimer le taux d’erreur, une fois le modèle final choisi. Il s’agit d’un ensemble de données fournissant une évaluation non biaisée du modèle final obtenu à partir des données d’entraînement.

Résultats

L’annotation automatique a été effectuée en considérant le problème comme une tâche de classification qui a été résolue par apprentissage supervisé selon trois techniques d’apprentissage machine, à savoir l’arbre de décision, la machine à vecteur de support et l’algorithme du K-plus proche voisin.

Arbre de décision

La technique de l’arbre de décision (AD) est une structure arborescente semblable à un diagramme de procédé, une approche décisionnelle multiétapes largement utilisée pour représenter les modèles de classification grâce à sa structure simple et compréhensible, rappelant la pensée humaine. Plusieurs raisons expliquent la grande popularité de l’AD, dont sa capacité à produire une généralisation adéquate et à traiter les attributs redondants et le bruit. On peut ajouter à cela le faible coût de calcul pour générer le modèle (8). Cependant, les résultats obtenus par cette méthode n’étaient pas prometteurs, nous avons atteint un taux de 68 %, comme indiqué ci-dessous.

Classement des mouvements selon la méthode de l’arbre de décision

Figure 1 Matrice de confusion de la méthode de l’arbre de décision

 

Machine à vecteur de support

La technique de la machine à vecteur de support (SVM) est fondée sur des algorithmes statistiques non paramétriques d’apprentissage supervisé, définis par un hyperplan séparateur servant, d’une part, à augmenter la capacité de généralisation du modèle et, d’autre part, à éviter le surajustement (9). La SVM remplit deux fonctions : la classification et l’analyse de régression. Ici, nous l’avons utilisée pour la classification. En d’autres termes, à partir des ensembles de données étiquetées d’entraînement, l’algorithme a pu trier de nouveaux exemples dans les classes définies. Les résultats que nous avons obtenus avec cette méthode sont prometteurs, atteignant un taux de 93 %.

Classement des mouvements selon la méthode de la machine à vecteurs de support

Figure 2 Matrice de confusion de la méthode de la machine à vecteurs de support

 

K-plus proche voisin

L’algorithme d’apprentissage de K-plus proche voisin (KNN) est efficace. Il appartient à la méthode de classification non paramétrique largement utilisée dans les applications réelles d’apprentissage machine, grâce à ses hautes performances et à sa mise en œuvre simple (10). Un cas est classé par vote majoritaire par ses voisins, le cas étant assigné à la classe la plus commune parmi ses K-plus proches voisins, déterminés selon une fonction de distance. L’algorithme KNN a donné de bons résultats, dépassant les 93 %.

Classement des mouvements selon la méthode de K-plus proche voisin

Figure 2 Matrice de confusion de la méthode de K-plus proche voisin

 

Discussion et conclusion

Nous avons présenté une méthodologie d’annotation informatisée, une approche visant à automatiser le processus manuel d’annotation. Notre travail offre deux contributions majeures : la première étant l’utilisation des techniques d’apprentissage machine dans le domaine de la linguistique, en vue de contrer plusieurs limitations dues à la précision et à la synchronisation. La deuxième contribution importante est liée à l’idée d’imiter les annotations d’experts selon une approche normalisée.

Nous avons présenté une approche interdisciplinaire pour l’annotation automatique. Le processus proposé met l’accent sur l’annotation automatique des mouvements de tête, réduisant le coût des annotations manuelles et établissant un dialogue entre les experts œuvrant en sciences informatiques et les chercheurs. Cette recherche a montré comment utiliser des techniques automatisées pour annoter des vidéos selon une approche normalisée. Les résultats proposent deux axes de recherche à explorer. Premièrement, le processus d’annotation automatique des comportements non verbaux dans les vidéos est tout à fait faisable; deuxièmement, les algorithmes d’apprentissage machine peuvent identifier des caractéristiques qui ne correspondent pas totalement aux observations des humains. Cette particularité établit clairement un nouveau dialogue entre les chercheurs en intelligence artificielle et les chercheurs en linguistique, d’une part, et les chercheurs dans les domaines liés à la communication et au vieillissement, d’autre part, quant à l’interprétation des résultats et des caractéristiques à partir de vidéos. La principale contribution de ce travail est l’établissement de techniques de reconnaissance gestuelle plus performantes et adaptées au vieillissement de la population, offrant aux chercheurs des outils permettant d’explorer les spécificités de façon automatisée.

Cette recherche a été présentée à la 87Conférence de l’Acfas, le 29 mai 2019.

Helmi Garraoui

Profil de l'auteur(e)

Helmi Garraoui est candidat au doctorat à l’ÉTS sous la supervision de Sylvie Ratté et de Luc Duong. Ses intérêts de recherche comprennent la communication non verbale et l’analyse vidéo pour l’apprentissage machine.

Programme : Génie des technologies de l'information 

Laboratoires de recherche : LiNCS – Laboratoire en ingénierie cognitive et sémantique 

Profil de l'auteur(e)

Luc Duong

Profil de l'auteur(e)

Luc Duong est professeur au Département de génie logiciel et des TI à l’ÉTS, et chercheur au Centre de Recherche du CHU. Ses recherches touchent l’imagerie médicale, la vision artificielle, les algorithmes et l’intelligence artificielle.

Programme : Génie logiciel  Génie des technologies de l'information 

Laboratoires de recherche : LIVE – Laboratoire d'imagerie interventionnelle 

Profil de l'auteur(e)

Sylvie Ratté

Profil de l'auteur(e)

Sylvie Ratté est professeur au Département de génie logiciel et TI de l’ÉTS. Ses recherches portent sur l’intelligence artificielle, les ontologies, le forage de textes et de données, les langages formels et visuels en génie logiciel.

Programme : Génie logiciel  Génie des technologies de l'information 

Laboratoires de recherche : LiNCS – Laboratoire en ingénierie cognitive et sémantique 

Profil de l'auteur(e)


Laboratoires de recherche :

LiNCS – Laboratoire en ingénierie cognitive et sémantique 

Domaines d'expertise :

Intelligence artificielle 

Recevez les dernières actualités scientifiques de l'ÉTS