Accueil > Sudoc > Produire dans le Sudoc > Automatisation des process : le Hub de métadonnées

Automatisation des process : le Hub de métadonnées

Le projet Hub fait partie de la stratégie globale relative au signalement de la documentation électronique, tel que recommandé par le rapport du cabinet Pleiade .

En cohérence avec les principes du Web de données, le projet Hub de métadonnées a consisté à doter l'Abes de nouveaux outils et méthodes pour drainer davantage de données de qualité, facteur décisif pour la recherche, l'identification et la garantie de l'accès aux documents. Avec le projet Hub, l'Abes réaffirme sa volonté de contribuer à l'effort international de libération des métadonnées bibliographiques et associées.

Le Hub vise à améliorer les données, en qualité et en quantité, dans l'environnement ouvert du Web. 

Le Hub de métadonnées répond aux enjeux suivants :

  • le signalement de la documentation électronique ne peut suivre le même modèle que le catalogage partagé traditionnel : les masses et les flux de documents sont trop importants
  • les éditeurs sont aujourd'hui en mesure de fournir des métadonnées réutilisables : leur qualité étant souvent inférieure aux attendus, les outils du Hub améliorent cette qualité par des process automatisés
  • les données sont libres et réutilisables, intégrées au web de données : les métadonnées ont vocation à être redistribuées le plus largement possible, y compris en direction des outils de découverte ou des résolveurs de liens commerciaux.

Le Hub et BACON - base de connaissance nationale

Pour le Hub comme pour BACON, la stratégie de l'Abes consiste à ajouter une pierre à un édifice nécessairement international et coopératif.

Le Hub est conçu comme l'une des sources de métadonnées de BACON .

Repères / historique du projet

Projet d'établissement 2012-2015 : introduction de la notion et de l'ambition d'un hub de métadonnées

"Dans le cadre du hub de métadonnées, l’Abes offrira aux établissements un nouveau service de redistribution (dans n’importe quel format) des métadonnées enrichies après leur récupération (dans n’importe quel format) auprès des éditeurs. Outre la conversion de format, l’Abes apportera une plus-value aux métadonnées en termes de structuration, de richesse et d’interconnexion de l’information avec d’autres bases."

Étude de faisabilité (septembre 2012-avril 2013)

L'étude menée afin d'évaluer concrètement la faisabilité et le positionnement d'un Hub de métadonnées incluait la conception d'un prototype de traitement de corpus de métadonnées de différentes natures.

Objectifs

  • agréger les données des différents corpus
  • évaluer leur qualité et leur complétude
  • corriger les données - autant que possible - de façon automatique
  • enrichir les données : normaliser, compléter, lier ...
  • rendre les données accessibles, interrogeables et réutilisables par des tiers

Corpus étudiés

  • Springer revues et articles (licence nationale)
  • Springer ebooks (licence nationale)
  • Thèses avant 1985 (Sudoc - documentation imprimée)
  • Ebooks Dalloz (documentation électronique sous abonnement)
  • Revues.org (Open Access)

Au terme de cette étude, ont été précisés :

  • les traitements apportant une plus-value aux données de départ
  • les solutions techniques rendant viables ces traitements automatiques de masse

Agrandir le schéma

Rapport final

Le rapport final comporte :

  • une introduction reprenant les éléments de contexte et les objectifs
  • les principes méthodologiques et techniques ayant guidé la conception et le développement du prototype
  • la présentation des données de départ, des problèmes spécifiques et des traitements effectués pour chacun des corpus de métadonnées étudiés
  • les enseignements généraux que l'on peut tirer de l'analyse des cinq corpus
  • une liste motivée de recommandations opérationnelles

Lire le rapport

Lire l'annexe "Métadonnées des Ebooks Springer"

Après l'étude, l'action

Les recommandations de l'étude ont été présentées au Conseil d'Administration du 31 mai 2013. A partir de septembre 2013, l'équipe projet constituée avait pour mission  de transformer progressivement le prototype en outil de production et d'initier le traitement de certaines données.

Les métadonnées des documents acquis dans le cadre du programme ISTEX ont été traitées en priorité.

Dans un premier temps, ces listes de documents livrés ont été vérifiées, précisées et corrigées. Ces listes ont ensuite servi de support à différents outils (bases de connaissance, exemplarisation automatique dans le Sudoc....). Dans un second temps, les métadonnées ont été enrichies, notamment par un liage à plusieurs référentiels (IdRef, VIAF, RAMEAU, Dewey, etc.). Enfin,  les canaux de sortie ont été conçus pour faciliter la récupération des métadonnées par les professionnels (API, webservices) ainsi que leur exposition sur le Web, notamment sur le Web de données.

Remonter