OuBiPo

Expérimentation Sudoc FRBR II. Portrait-robot d’un algo

Suite de : Mais qu’est-ce qu’il se passe encore ? (2) Expérimentation Sudoc FRBR, le retour

Deux phases de recette et une petite trêve estivale plus tard…

portrait noir et blanc de deux jouets robots
flickr : Champignon.Bunny

Après avoir testé et trituré les données dans (presque) tous les sens, l’Abes est en mesure d’annoncer que l’algoclc2 sera très prochainement implémenté en base de production du Sudoc. Il remplacera le premier algorithme, utilisé depuis le 23 octobre 2017 et rebaptisé ”algoclc1”.

Retour sur un été riche d’enseignements.

 

 

 

 

 

Un nouvel algorithme plus performant

L’algoclc2 a été installé début mai dans une base de test (copie du Sudoc tel qu’il était fin mars 2019) avec les paramétrages par défaut évoqués dans le billet précédent (paragraphe Un nouvel algo sort du chapeau).

Première phase de recette

La première phase de la recette consistait à évaluer ses performances en fonction des spécifications fournies par l’Abes. Une phase de découverte donc, pour vérifier si les premières spécifications avaient bien été implémentées par OCLC, puis pour rectifier certains paramétrages. Les notices de thèses ont notamment fait l’objet d’une attention particulière.

Les échanges successifs avec l’équipe OCLC ont permis d’esquisser les contours du fonctionnement de l’algoclc2. Il traite les données en deux étapes : 

1- segmentation de la base en sous-ensembles de données pouvant être rapprochés à partir des titres des notices bibliographiques. L’objectif de cette étape est de permettre la création de clés de comparaisons, générées par un index « phrases » spécifique, pour créer des lots de notices et favoriser un maximum d’opportunités de rapprochements. A ce stade, une même notice bibliographique peut appartenir à un seul ou à plusieurs sous-ensembles. 

2- génération de grappes -ou clusters- de notices bibliographiques et pour chaque grappe, création d’une notice autorité de regroupement. Pour chaque lot de données, le programme compare chaque notice bibliographique à l’intérieur de ce lot. La comparaison des notices bibliographiques se fait deux à deux, ce qui permet de générer un indice de similarité. Si la similarité est suffisamment élevée alors les notices bibliographiques sont regroupées dans une même grappe (elles sont automatiquement retirées d’autres lots si besoin). A ce stade donc, une même notice bibliographique ne peut appartenir qu’à une et une seule grappe.

Quelques ajustements pour l’adapter au Sudoc

 

Seconde phase de la recette

La phase suivante de la recette visait à comparer les résultats de l’algoclc2 et de l’algoclc1 afin de vérifier que le nouvel algorithme n’entraîne pas de régression. Dans un premier temps, ces tests de comparaison ont démontré, qu’à l’état initial et de façon générale, l’algoclc2 était au moins aussi pertinent qu’algoclc1.
En plus du travail sur les auteurs et les thèses, des éléments de la formule de calcul ont été revus et modifiés pour respecter le principe suivant : obtenir des grappes de notices bibliographiques cohérentes et justes, quitte à créer moins de clusters ou plus de petits clusters. Le leitmotiv des données d’autorité demeure : “Mieux vaut un doublon que des entités mêlées”.

Au final, l’algoclc2 produit des regroupements satisfaisants là où l’algoclc1 faisait des erreurs grossières. Sa pertinence reste limitée pour les notices répondant à des règles de catalogage trop spécifiques, comme les livres anciens par exemple. En revanche, il donne un éclairage nouveau sur les différents choix de catalogage possibles pour certaines œuvres, ou encore sur les incohérences dues à des changements ou au non-respect de règles de production des données.
L’évaluation globale qui sera faite en début d’année 2020, lors de la troisième phase de la recette, apportera sans nul doute de nouveaux éléments d’appréciation qui serviront à établir un plan d’action pour la suite à donner à cette expérimentation.

<Update le 15 octobre 2019> L’algoclc2 est passé en production. La documentation est disponible sur le guide méthodologique </Update>

Mais avant cela, rendez-vous dans une dizaine de jours environ pour découvrir la documentation qui accompagnera le passage en production et, fin novembre, pour une session J.e-Cours qui détaillera ce que vous pourrez observer du travail de cet algorithme.

Quitter la version mobile