Forums World-Informatique.com

Aide Webmasters - Solr : Indexation de données Alfresco à Solr

bat29 - Mar Aoû 05, 2014 21:54

Bonjour

Je travaille sur la configuration d'un moteur de recherche pour une entreprise. Je teste actuellement une solution Open Source. Mon objectif est d'indexer les données des documents contenus dans Alfresco à Solr. Pour cela j'utilise le connecteur Open Source Apache ManifoldCF 1.6.1. J'utilise également la version 4.5 de Solr et la version 4.2.c d'Alfresco community.
Alfresco contient une version de Solr embarquée qui est la version 1.4. L'utilisation de Solr embarquée à l'application a été testée en production et a planté après six mois de fonctionnement sans raison cohérente. J'ai donc exclut l'idée d'utiliser Solr préconfiguré pour Alfresco.

Maintenant, je vais tenter d'expliquer au mieux le problème auquel je suis confronté. J'ai configuré mes applications pour quelles fonctionnent entre elles, c'est à dire qu'Apache ManifoldCF collecte les documents d'Alfresco pour les indexer à Solr. ManifoldCF communique grâce au protocole CMIS avec Alfresco.

Voici l'exemple d'une url reçue par ManifoldCF : http://localhost:8080/alfresco/cmisatom/b0b3b48f-6d1d-4fb4-9b54-9ad1698cbcbe/content/rapport3.pdf?id=workspace%3A%2F%2FSpacesStore%2Fec8d8548-9002-4d58-8c84-50767b1c704a%3B1.0

Cette url est ensuite traitée par le update handler de Solr : /update/extract. L'ensemble du contenu du document d'Alfresco est ainsi extrait et indexé à Solr.

Le problème est que seul le contenu du document et les métadonnées du document définies dans ses propriétés sont indexés, alors que je souhaite indexer l'ensemble des métadonnées attribuées par Alfresco au document.

Voici un exemple de quelques métadonnées d'un document visibles dans Alfresco après avoir lancé une requête CMIS : cm:name, cm:title, cm:created. Ce sont ces métadonnées que je souhaite extraire et affecter à mes champs définis dans Solr.

Je ne comprends pourquoi je ne parviens pas à les obtenir dans Solr alors que j'ai complété le Solr Field Mapping de ManifoldCF et effectué le "mapping" des métadonnées lors de la configuration du update handler : /update/extract. Je ne sais pas si le problème provient de l'url utilisée par ManifoldCF ou de l'extracteur Solr ou de la configuration du protocole CMIS.

Quelqu'un aurait il une idée sur la question ?
Toutes les heures sont au format GMT + 1 Heure
Powered by phpBB 2.0.23 © 2001 phpBB Group