Rapport de stage de 3








télécharger 186.82 Kb.
titreRapport de stage de 3
page1/8
date de publication09.07.2017
taille186.82 Kb.
typeRapport
ar.21-bal.com > loi > Rapport
  1   2   3   4   5   6   7   8


logo-isima.jpg




logoinria.gif

Institut Supérieur d'Informatique de Modélisation et de leurs Applications




Equipe FLOWERS

Institut National de Recherche en Informatique et en Automatique

Complexe des Cézeaux

BP 125

63173 Aubière Cedex




INRIA Bordeaux

351, cours de la Libération Bâtiment A29

33405 Talence Cedex

Rapport de stage de 3ème année

ISIMA Génie Logiciel – Master Recherche Informatique option Robotique

Apprentissage supervisé avec association sons/images

en robotique développementale

Présenté par : Bérenger BRAMAS

Responsable : Pierre-Yves OUDEYER

Remerciements

Je tiens à remercier tous les membres de l’équipe FLOWERS. Plus particulièrement, je tiens à remercier Pierre-Yves OUDEYER qui a accepté de m’accueillir et m’a guidé tout au long de mon stage. Ma reconnaissance va aux différents membres de l’équipe qui m’ont conseillé et aidé sur des problèmes techniques et scientifiques.

Glossaire

Apprentissage (Machine Learning) : C’est une discipline scientifique liée à la recherche et au développement d’algorithmes dans le but de donner les moyens aux machines d’évoluer grâce à un processus d’apprentissage. L’objectif est que les machines remplissent des tâches difficilement abordables avec la programmation classique.

Humanoïde (robot): Est un terme utilisé pour caractériser les robots de forme humaine. C'est-à-dire ceux qui possèdent deux bras, deux jambes, un buste et une tête. Le plus connu est Asimo développé par Honda.

HRI : Human-Robot Interaction (interactions entre humains et robots) : c’est l’étude des interactions entre les utilisateurs (humains) et les robots. En langue française, il n'existe pas d'acronyme pour désigner ce domaine. Dans ce rapport, l'acronyme anglais HRI sera utilisé pour exprimer "interaction entre robots et humains".

IA (Intelligence Artificielle) : est la « recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables à celles des êtres humains » (CNRTL).

Langage C++ : Langage de programmation orienté objet mis au point par Bjarne Stroustrup au début des années 1980. Le C++ est un langage puissant très utilisé dans l’industrie informatique.

Langage orienté objet : Langage de programmation reposant sur l'assemblage de briques logicielles appelées objets.

Librairie (ou Bibliothèque) : En informatique, c’est un ensemble de fonctions utilitaires, regroupées et mises à disposition afin de pouvoir être utilisées sans avoir à les réécrire.

Phonème : Représente la plus petite unité que l’on peut isoler dans une phrase. Les phonèmes sont différents selon les langues.

QT : C’est une bibliothèque logicielle orientée objet et développée en C++ par la société Trolltech (Nokia). Elle offre des composants d'interface graphique, d'accès aux données, de connexions réseaux, de gestion des fils d'exécution, d'analyse XML, etc. et ce sur de multiples plateformes.

Reconnaissance Vocal : C’est une technologie qui permet de transcrire du son en données exploitables par la machine. Le plus souvent, le son est transcrit en texte.

Robot : C’est un dispositif mécanique accomplissant automatiquement des tâches généralement considérées comme dangereuses, pénibles ou impossibles pour les humains. La définition de ce qui est considéré ou non comme robot varie selon les pays et les cultures.

SE/OS : Système d’Exploitation/Operating System : est un ensemble de programmes responsables de la liaison entre les ressources matérielles d’un ordinateur et les applications informatiques de l’utilisateur. Exemples : Windows, Linux, Mac OS.

TTS : Text To Speech : Littéralement du « texte à la parole », le TTS représente tous les procédés qui permettent la génération d’une voix à partir d’un texte.

Processus : Un processus est défini par un ensemble d'instructions à exécuter (un programme), un espace mémoire pour les données de travail et éventuellement, d'autres ressources, comme des descripteurs de fichiers, des ports réseau, etc.

Processus léger/Theads : Est similaire à un processus car tous deux représentent l'exécution d'un ensemble d'instructions du langage machine d'un processeur. Du point de vue de l'utilisateur, ces exécutions semblent se dérouler en parallèle. Toutefois, là où chaque processus possède sa propre mémoire virtuelle, les processus légers, appartenant au même processus père, se partagent sa mémoire virtuelle.

Résumé

Les robots ludiques et sociaux sont amenés à interagir avec les humains. Dans ce cadre, ils doivent apporter l’illusion d’être vivant auprès des utilisateurs. Pour cela, différentes recherches sont faites dans le but de donner aux robots des comportements et la capacité d’évoluer. L’objectif est qu’ils soient capables d’acquérir de nouveaux savoir-faire, de nouvelles connaissances et d’être robuste aux variations de l’environnement. Toutefois, pour que les utilisateurs apprécient les échanges avec les robots, il faut que les interactions soient naturelles et faciles même pour un non spécialiste. Par exemple, les utilisateurs qui interagissent avec un robot attendent de celui-ci qu’il évolue et apprenne des informations sur son environnement pour le partager ensuite avec eux.

Ainsi, mon travail a consisté à effectuer des recherches dans le but de concevoir un système d’apprentissage. Ce système permet d’enseigner des objets à un robot en utilisant la parole et une caméra. Ce système respecte des contraintes particulières comme l’absence de pré-requis au départ et la création de catégorie au fur et à mesure de l’apprentissage. De plus, le système peut apprendre en temps réel, c'est-à-dire immédiatement et avec peu d’exemples.

La reconnaissance vocale repose sur des calculs répandus et très utilisés pour le traitement de la parole (PLP-Rasta/DTW). En revanche, le traitement de l’image a demandé un travail important pour créer des algorithmes permettant de retrouver des objets dans un environnement hostile. Ces algorithmes sont basés sur les descripteurs de type SURF/SIFT.

Le système permet d’enseigner des objets, de façon intuitive, en les agitant devant une caméra et en prononçant des mots. Enfin, une phase de test a été réalisée sur humanoïde pour utiliser le système en situation réelle.

Mots clés: robot, apprentissage, HRI, reconnaissance vocale, imagerie, surf/sift.

Abstract

Social robots lead up to interact more and more with humans. In that context, they have to give the impression of being alive. To do that, many researchers try to give robots the ability to evolve and to simulate different behaviors. The main objective is to make the robot able to gain new abilities, new knowledge or to be robust to environmental changes. However, in order for the users to appreciate interactions with robots, interactions have to be simple and natural even for a non specialist user. For example, users expect from a robot to evolve and learn information about world to share with them.

Thereby, my work consisted in researching and creating a learning system. This system enables to teach objects to a robot using voice and a camera. It respects hard constraints like learning without a priori knowledge or the creation of categories during the learning process. Moreover, it can learn in real time and with few examples.

Speech recognition is based on the very popular PLP-Rasta analysis. Then, we compare sound using the dynamic time wrapping algorithm. On the other hand, image processing required creating new methods to succeed recognizing objects in hostile environment. Theses algorithms use the SURF/SIFT invariant descriptors.

The final system enables users to teach object in a very intuitive way by moving the objects in front of the camera and pronouncing their names. Finally, the system was tested in a real use on a humanoid robot.

Keywords: Robots, learning, HRI, speech recognition, image processing, surf/sift.

Table des figures


Table des algorithmes et codes sources


Introduction 11

1 Introduction au sujet de recherche 12

1.1 Présentation du cadre 12

1.1.1 L’INRIA 12

1.1.2 L’équipe FLOWERS 12

1.2 La robotique développementale 12

1.2.1 Définition générale et problématique 13

1.2.2 Exemple 13

1.3 Le sujet 14

1.3.1 Objectif 14

1.3.2 Problématiques 15

1.3.3 Travaux connexes 15

2 Méthodologie 18

2.1 Traitements sonore 18

2.1.1 Choix et représentation 18

2.1.2 Capture du son 18

2.1.3 Traitements 18

2.2 Traitement de l’image 19

2.2.1 SURF/SIFT 20

2.2.2 Extraction de contour 20

2.2.3 Correspondances 22

2.2.4 Filtre spatial 27

2.2.5 Filtre angulaire 28

2.2.6 Critère de choix 28

2.3 Résultats de la reconnaissance visuelle 30

2.4 Phase d’apprentissage et association 32

2.4.1 Déroulement de l’apprentissage 32

2.4.2 Relation sons - images 32

2.4.3 Restitution 33

2.5 Aspects techniques 36

2.6 Utilisation sur humanoïde 37

2.6.1 Introduction 37

2.6.2 Nao 37

2.6.3 URBI 39

2.6.4 Structure du système 41

2.7 Limites de l’architecture 42

3 Discussion et perspective 43

3.1 Organisation du stage 43

3.2 Perspectives 43

Conclusion 45

Bibliographie 46

Annexes 48

  1   2   3   4   5   6   7   8

similaire:

Rapport de stage de 3 iconRapport de stage
«Etudes Référentiels Internet» (eri) pour avoir eu la gentillesse de m’accepter en stage

Rapport de stage de 3 iconRapport de stage 2ème année dut informatique
«Les travaux dont IL est question dans le présent document ont été exécutés durant un stage de formation effectué au Centre international...

Rapport de stage de 3 iconRapport de stage

Rapport de stage de 3 iconRapport e Stage

Rapport de stage de 3 iconRapport de stage

Rapport de stage de 3 iconRapport de stage

Rapport de stage de 3 iconRapport de stage

Rapport de stage de 3 iconRapport de stage

Rapport de stage de 3 iconRapport de stage

Rapport de stage de 3 iconRapport de stage








Tous droits réservés. Copyright © 2016
contacts
ar.21-bal.com