Essais et tests de Tika








télécharger 123.92 Kb.
titreEssais et tests de Tika
page1/3
date de publication31.03.2017
taille123.92 Kb.
typeEssais
ar.21-bal.com > documents > Essais
  1   2   3

Documentation Technique

BoostMySales

Stage




Dossier d’études techniques


BoostMySales


Présenté par
David Bonnet

Yannis Machouri

Maxime Couteau

Stanislas Leduc

Pierre Freneau

Stage de 2ème année BTS Services Informatiques aux Organisations option SLAM - 14 janvier 2013 – 1er mars 2013


Stage effectué à

BoostMySales

Immeuble le Mercure

10, Rue Gaëtan Rondeau

44 200 Nantes

Remerciements
Nous tenons à remercier avant tout notre tuteur de stage Mr Nabil Belcaid Le Guyader ainsi que son frère Mr Ali Belcaid pour leur patience ainsi que pour leurs compétences dans leur domaine spécifique.
Nous remercions également nos professeurs d’informatique Mr Bourgeois et Mr Beauvais qui nous ont accompagnés et suivis pendant toute la durée de notre stage.
Nous exprimons également notre reconnaissance au professeur d’informatique Mr Gaddhar qui nous a aidé à trouver ce stage ainsi que pour son soutien tout au long du projet.

Tables des matières
Introduction


    1. Installation du serveur ……………………………………………………………...6




  1. Prérequis

  2. Installation de HBase 0.90.6

  3. Installation de Nutch 2.1

  4. Installation de TomCat

  5. Installation de Solr 4.0

  6. Intégration de Solr à Nutch




    1. Installation de Grails.……………………………………………………………....11




  1. Qu’est ce que Grails ?

  2. Installation




    1. Développement d’une interface de tests…………………………………12




  1. Pourquoi une interface de tests ?

  2. Captures d’écrans et extraits de codes




    1. Intégration de Tika…………………………………………………………………15




  1. Qu’est ce que Tika ?

  2. Implémentation de Tika dans Nutch

  3. Essais et tests de Tika




    1. Création de la base MySQL………………………………………………………18




  1. Création des tables pour stocker les paramètres de Nutch

  2. Contenus des tables




    1. Intégration de Nutch, HBase dans Grails…………………………………24




  1. Définition et exécution d’un crawl

  2. Visualisation d’un crawl


Conclusion………………………………………………………………………………………..36
Ressources………………………………………………………………………………………..37


Introduction




Dans le cadre de notre BTS SIO nous avons du trouver un stage en deuxième année qui correspondait à notre option le développement.
C’est donc dans l’entreprise BoostMySales que nous avons fait notre stage avec pour objectif la création d’un moteur de recherche spécialisé dans la recherche de CV.

BoostMySales est une jeune entreprise de démarchage téléphonique travaillant avec différents partenaires de l’assurance.

Nos objectifs pour ce stage ont été divers et variés. Nous devions dans un premier temps nous familiariser avec plusieurs outils que nous ne maîtrisions pas. Nous devions également rendre compte de notre activité quotidiennement en fin de journée.

Notre travail s’est scindé en plusieurs parties réparties sur les 5 membres de notre équipe de travail.

En effet nous aborderons dans un premier temps l’installation du serveur. Puis nous continuerons sur l’installation du framework Grails. Nous expliquerons également pourquoi nous avons développé une interface de tests ainsi que l’implémentation de Tika dans Nutch. Ensuite, nous traiterons de la création de la base de données MySQL. Enfin nous terminerons par l’intégration de Nutch et HBase dans Grails.







    1. Installation du serveur




  1. Prérequis




  1. Télécharger la machine virtuelle


Télécharger la machine virtuelle déjà installée et configurée à l’adresse suivante : http://www.turnkeylinux.org/drupal7


  1. Configurer la machine virtuelle


La machine virtuelle doit avoir au moins 1 Go de RAM

IP : 192.168.21.131

port http : 80

port sftp : 22

Passerelle : 192.168.21.1


  1. Connecter les portables


Installer Putty et se connecter sur le serveur à l’adresse 192.168.21.131


  1. Installation de Java




  • Installation de la commande apt

$ apt-get install sun-java6-jdk sun-java6-jre


  • Ouvrir le fichier .bashrc

$ nano ~/.bashrc


  • Ajouter la ligne suivante à la fin du fichier

Export JAVA_HOME=/usr/lib/jvm/java-6-sun


  • Vérifier l’installation de Java

java -version


  • Installation de Ant

apt-get install ant


  1. Installation de HBase 0.90.6




  1. Qu’est ce que HBase ?


HBase est un système de gestion de base de données non-relationnelles distribuées, écrit en Java, disposant d'un stockage structuré pour les grandes tables.
HBase est inspirée des publications de Google sur BigTable. Comme BigTable, elle est une base de données orientée colonnes.
HBase est un sous-projet d'Hadoop, un framework d'architecture distribué. La base de données HBase s'installe généralement sur le système de fichiers HDFS d'Hadoop pour faciliter la distribution, même si ce n'est pas obligatoire.


  1. Installation de HBase




  • Téléchargement de HBase 0.90.6 via http://mirrors.linsrv.net/apache/hbase/

  • Extraction du logiciel dans /opt/hbase906

  • Editer le fichier /opt/hbase906/conf/hbase-site.xml avec le contenu suivant :







  • Editer le fichier /opt/hbase906/conf/hbase-env.sh et dé-commenter la ligne JAVA_HOME.

  • Lancer HBase avec la commande : /opt/Serveur/hbase906/bin/start-hbase.sh




  1. Installation de Nutch 2.1




  1. Qu’est ce que Nutch ?

Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet.

L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus : récupération des données, analyse des documents, recherche, etc.
Doug Cutting est l'initiateur et le coordinateur de ce projet. Nutch a été à la base du Framework Hadoop : l’initiative phare du Big Data


  1. Installation de Nutch




  • Télécharger le paquet source (apache-nutch-2.1-src.zip)

  • Décompressez dans le fichier opt

  • Renommer le fichier apache : mv apache-nutch-2.1 nutch21


  • Placez vous dans le dossier nutch21 puis exécuter la commande: ant.

Il y a maintenant un répertoire runtime/local contenant une installation de Nutch prête à l’emploi.

  • Se placer dans le répertoire /nutch21/runtime/local/conf/ y copier le fichier /opt/hbase906/conf/hbase-site.xml

  • Spécifier le back-end Gora dans nutch-site.xml :




storage.data.store.class

org.apache.gora.hbase.store.HBaseStore

Dafault class for storing data




  • S’assurer que les dépendances avec HBase et Gora (gora-hbase) soient disponibles dans ivy/ivy.xml :




  • Décommenter la ligne suivante :





  • S’assurer également que HBaseStore est bien défini par défaut dans gora.properties :


gora.datastore.default=org.apache.gora.hbase.store.HBaseStore


  • Ajouter également dans le fichier /conf/nutch-site.xml :



httpd.agent.nameVSpider







  1. Utilisation de Nutch


Nous avons 2 méthodes afin d’utiliser Nutch :


  • Le mode dit «global» avec une seule commande (dépréciée au profit de la seconde) :





  • Le mode «étape par étape» avec plusieurs commandes :





  1. Installation de Tomcat


Les applications comme nutch-gui sont des applications servlet qui requièrent un serveur TomCat pour tourner.

Sous une base Debian, il suffit d’exécuter la commande suivante:
apt-get install tomcat6-admin tomcat6

Remplacer le contenu qui se trouve entre les balises par:




  1. Installation de Solr 4.0




  1. Qu’est ce que Solr ?


Solr est une plateforme logicielle de recherche s'appuyant sur le moteur de recherche Lucene, créée par la Fondation Apache et distribuée et conçue sous licence libre.
Solr utilise le langage Java et est exécuté par un conteneur de servlets, comme par exemple TomCat. Il communique avec le client à l'aide d'une interface de programmation en XML et JSON, généralement via le protocole HTTP.


  1. Installation de Solr avec TomCat6




  • Télécharger Solr (version 4.0)


  • Extraction des sources dans /opt/apache-solr-4.0


  • On crée le répertoire solr4 mkdir /opt/solr4


  • Copier example/solr dans /opt/solr4


  • Copier example/webapps/solr.war dans /opt/solr4

  • Editer dataDir dans le fichier de configuration /opt/solr/collection1/conf/solrconfig.xml :



  • Créer un répertoire pour les données Solr et donner les droit pour le serveur tomcat6 :



  • Configurer le nouveau contexte tomcat pointant vers nos fichiers Solr.



  • Créer un fichier /etc/tomcat6/Catalina/localhost/solr.xml avec le contenu suivant :




  • Redémarrer TomCat6.




  1. Vérification de l’installation de Solr

Après avoir démarré la console d’administration de Solr, on peut accéder aux pages suivantes :

192.168.1.131:8080/solr/admin


  1. Intégration de Solr à Nutch


Après avoir installé correctement Nutch et Solr , Nutch récupère des données depuis les url données. Voilà les étapes pour déléguer la recherche à Solr, pour que les liens puissent être consultables :

  • Copier le fichier shema.xml du dossier conf de Nutch vers le dossier conf de Solr

cp nutch21/conf/shema-solr4.xml /opt/solr4/collection1/conf/schema.xml

  • Ajouter la ligne de code suivante dans le document shema.xml :



  • Redémarrer TomCat6

  • Lancer la commande de l’index de Solr :

/opt/nutch21/bin/nutch solrindex http://192.168.1.131:8983/solr -reindex


      1. Installation de Grails




  1. Qu’est ce que Grails ?


Grails est un framework open source de développement agile d'applications web basé sur le langage Groovy et sur le patron de conception Modèle-Vue-Contrôleur.
Grails est basé sur cinq principes fondamentaux :

  • Ne pas se répéter : les éléments de l'application ne doivent être qu'à un seul endroit. L'architecture MVC et la métaprogrammation en Groovy rendent cela possible.

  • Convention plutôt que configuration : il est inutile de préciser des détails lorsqu'ils respectent des conventions établies. Grails exploite cela en proposant des comportements par défaut pour la plupart de ses fonctionnalités.

  • Architecture orientée modèle : le point d'entrée et la pierre angulaire d'un développement Grails est la description formelle des classes représentant le domaine métier (Modèle conceptuel de données) ainsi que de leurs dépendances. Les couches techniques sous-jacentes sont générées.

  • Prototypage : Les mécanismes de scaffolding offerts par le framework permettent de

générer automatiquement un prototype d'application "présentable" aux utilisateurs dès la formalisation des classes de domaine.
  1   2   3

similaire:

Essais et tests de Tika iconScénarios de tests Préparation au développement des tests unitaires
«Banc de test predim» c’est à dire les données (maintenant obsolètes) du réseau de Brest, de la liaison sncf brest-Rennes et du réseau...

Essais et tests de Tika iconEssais normalises, autres essais 4
«Transformation du Bois» dans le cadre du Transfert de technologie vers les entreprises

Essais et tests de Tika iconEssais de type et essais de routine 10
«risque minimisé» suivant le C2-112 édition de mars 2015, édité par Synergrid, la fédération des gestionnaires de réseaux électricité...

Essais et tests de Tika iconRapport de tests d’échelle pour les référentiels de documents à très grande échelle

Essais et tests de Tika iconAdresse : 169 rue du Faubourg Sainte Anne, 60700 Pont St Maxence
«best practices»: recommandations, mise à niveau, documentations, tests, nouvelles fonctionnalités. Prise en charge des développeurs...

Essais et tests de Tika icon04. 10. 2015 : 399. Tests de cosmétiques
«Peut-on se laver, se raser, se maquiller sans risques ?» Le magazine 60 millions de consommateurs de l'Institut national français...

Essais et tests de Tika iconDéveloppement d’une application de gestion de contacts avec asp. Net mvc (C#)
«Mock Object Framework» puis fabriquer des tests unitaires pour nos contrôleurs et logiques de validation

Essais et tests de Tika iconEssais controles 10

Essais et tests de Tika iconEssais sur

Essais et tests de Tika iconEssais de Montaigne








Tous droits réservés. Copyright © 2016
contacts
ar.21-bal.com