Expérimentation Sudoc FRBR II. L’évaluation : algo vs humain 3/3

  • Commentaires de la publication :3 commentaires
Robot and the Book of Light
« Robot and the Book of Light » by Eric Kilby flickr CC BY-SA 2.0

 

Billets précédents :
1. Les règles du jeu
2. Le score

 

 

 

 

L’analyse des résultats du match

De l’examen des cas issus de l’analyse statistique décrite dans le billet précédent, il est possible de dégager des éléments récurrents de perturbation du fonctionnement de l’algorithme. Sans grande surprise les zones contenant les titres et les auteurs ont un poids important dans la formule de calcul et sont, de fait, sources d’erreur surtout quand les œuvres sont très représentées dans le Sudoc. Certains partis pris ont aussi leur responsabilité dans quelques cas quant au niveau de granularité des regroupements ou des difficultés à les réaliser.

 1. Des variations de saisie de catalogage feintent l’algorithme

1.1 Des paramétrages génériques

A l’intérieur des notices qu’il traite, le programme s’appuie (essentiellement) sur les titres et les auteurs au travers des zones UNIMARC : B200 (titre et mention de responsabilité) ; B500 (titre uniforme) ; des zones de liens B454 (est une traduction de) et B464 (contient) ; du bloc B7XX des responsabilités. 

A noter : le programme ne tient pas compte des numéros et des titres de parties (sous-zones $h et $i) mais considère un complément de titre (sous-zone B200 $e ou B454 $o) comme faisant partie intégrante du niveau œuvre comme cela  a été vu dans les exemples du 1er billet de cette série dédiée à l’évaluation de l’expérimentation. De plus, deux listes de termes non significatifs permettent d’ignorer certaines chaînes de caractères dans les titres et les compléments de titres. Enfin, l’algorithme a volontairement été bridé pour interdire une recherche floue. Une différence d’une lettre dans un titre peut proscrire un regroupement mais il permet aussi d’éviter beaucoup de regroupements abusifs comme pour les manuels d’enseignements (exemple : un manuel scolaire pour le niveau CM1 ne pourra pas être regroupé avec celui du niveau CM2 même si le reste du titre est identique).

L’algorithme compare des chaînes de caractères en générant des clés d’index de comparaison qui servent à déterminer le taux de similarité entre deux notices. Par exemple :

Pour la zone de titre (présentée sans les mentions de responsabilité) :

200 1#‎$a@Textos hispánicos dialectales‎$eAntologia histórica…$hII‎$iMurciano. Andaluz. Canario. Español de América. Papiemento. Español de Filipinas. Judeoespañol. Vocubulerio. Indices‎.

La clé d’index générée basée sur la sous-zone $a est : textos hispanicos dialectales antologia historica

Les sous-zones $h et $i sont ignorées par le programme.

1.2 Quelques exemples de structurations et de saisies pièges

1.2.1 Organisation de la zone de titre principal

Les choix de traitements en zone B200 (Titre et mention de responsabilité), avec ou sans complément de titre (sous-zone B200 $e ou B454 $o) ou de titre de sous-partie (sous-zone $i), ont une influence sur les résultats. Ici, l’algorithme ne peut pas rassembler les notices par album et se voit même contraint de rassembler deux albums différents (notices 1 et 4) :

Notice 1 : 200 1#‎$aLes @aventures de Tintin$h[3]‎$iTintin en Amérique$f Hergé 
Clé d’index générée basée sur la sous-zone $a (les sous-zones $h et $i sont ignorées) : aventures tintin 

Notice 2 : 200 1#‎$a@Tintin en Amérique$fpar Hergé 
Clé d’index générée basée sur la sous-zone $a : tintin & amerique

Notice 3 : 200 1#‎$a@Explorers on the moon‎$ethe adventures of Tintin‎$fHergé 
Clé d’index générée basée sur la sous-zone $a et $e : explorers moon adventures tintin 

Notice 4 : 200 1#‎$aLes @aventures de Tintin‎$iOn a marché sur la lune‎$fHergé 
Clé d’index générée basée sur la sous-zone $a (la sous-zone $i est ignorée) : aventures tintin

1.2.2 Les lacunes, fautes de frappes ou mauvaises saisies

Ces actions généreront des clés d’index de comparaison différentes :

  • saisie d’un titre original différent et lacunaire en zone B454 d’une notice décrivant une traduction : “454 ##‎$t@Diego Velázquez” par rapport à la zone de titre de la notice décrivant la ressource en langue originale “200 1#‎$a@Velazquez‎$ethe artist as a maker‎$ewith a catalogue raisonné of his extant works
  • faute de frappe, ici un « e » en trop : “454 ##‎$t@On a marché suer la lune
  • saisie avec ponctuation au lieu d’une structuration avec une sous-zone $m pour indiquer la langue du document : “500 ##‎$a@Lezioni sul fascismo. English
  • choix de saisie de chiffres ou de nombres en toutes lettres ou non. Si aucune zone B500 (titre uniforme) n’est présente, l’algorithme ne peut rééquilibrer le taux de similarité dans ces notices et n’est pas en mesure de les regrouper :
    200 1#‎$aLe @fils de Giboyer Comédie en cinq actes 
    200 1#‎$aLes @Fils de Giboyer, comédie en 5 actes 

1.3 L’évolution des règles de catalogage 

De façon générale, les évolutions touchant aux zones sur lesquelles s’appuient l’algorithme sont susceptibles de perturber son fonctionnement si les notices concernées ne sont pas remises à niveau. Par exemple, il existe des agrégats “cachés”. 

Rappel : selon les règles de catalogage (mises à jour en juin 2018), font partie des agrégats les notices bibliographiques contenant plusieurs titres propres du même auteur ou d’auteurs différents dans le format UNIMARC en zone B200 : présence de plusieurs sous-zones $a ou bien des sous-zones $a avec des sous-zones $c ou encore des notices bibliographiques contenant plusieurs zones B454 (est une traduction de), B500 (titre uniforme) ou au moins une zone B464 (contient) .

Il existe dans le Sudoc des notices antérieures à ces règles qui ne répondent pas à ces critères que l’algorithme suit. Il ne peut pas tenir compte des strates de catalogage, et des notices contenant encore des zones B423 ou B327 utilisées pour mentionner des œuvres contenues.

2. Des responsabilités parfois trompeuses

Dans une moindre mesure, un signalement trop varié des auteurs a des conséquences sur les regroupements. Le manque de liens, des liens erronés, l’absence de mentions de responsabilité ou parfois d’accès auteurs sont le plus souvent en cause. 

La prise en compte des co-auteurs ou des auteurs secondaires peut être trop importante dans certains cas (assez rares) pour des œuvres au titre identique. 

C’est notamment le cas dans un groupe de notices où l’auteur H-L Védié a traduit certains ouvrages de D. Begg. Mais il a lui-même écrit un ouvrage portant le même titre “Microéconomie” (qui est aussi la traduction du titre “Economics” de de D. Begg). Un cluster mélange les œuvres de ces deux auteurs.

A noter : dans les paramétrages de l’algorithme, le groupe auteurs (regroupant : auteur principal, co-auteurs et auteurs secondaires) a plus de poids que l’auteur principal seul. 

3. Des œuvres très représentées

Les plus grands clusters mêlent souvent des entités. Les œuvres les plus concernées sont souvent des classiques et les œuvres anciennes (par exemple une des grappes pour le titre De imitatione Christi compte 866 notices bibliographiques liées dont certaines à tort).

Par ailleurs, les adaptations ne sont pour le moment pas repérables par l’algorithme, la structuration actuelle des notices rend difficile l’ajustement des paramétrages de l’algorithme utilisé aujourd’hui.

4. Des partis pris contraignants

4.1 Les thèses, un corpus à part

Les thèses sont régies par des règles plus strictes obligeant le programme à :

  • privilégier la notice de description de l’originale (contenant une zone B105$bm) comme notice de référence pour construire la notice autorité de regroupement,
  • regrouper les notices de thèse de manière à ne rassembler que les notices répondant aux règles de catalogage valides. Une erreur ou un contenu contradictoire entre deux zones et une notice est ignorée. Par exemple, une notice décrivant la thèse originale ne doit pas contenir une zone de note B328 avec une sous-zone $z (indication de reproduction, etc.).

4.2 Le choix de la granularité pour définir le niveau œuvre peut varier

La granularité choisie pour le niveau œuvre lors des tests partait du principe que pour les ensembles (exemple : «La Comédie humaine»), certaines bandes dessinées ou encore les manuels scolaires, il fallait rassembler au volume quand cela était possible. Si des notices existaient pour l’ensemble sans précision de sous-titre ou de sous-partie alors il fallait les laisser de côté car considérées comme des agrégats.

Cette règle établie a posteriori des deux premières phases de la recette a pu poser problème à l’algorithme pour le traitement de ressources comme les manuels scolaires dont certains compléments de titres jugés génériques font partie du fichier des termes à exclure des traitements. La mise à jour des listes des termes génériques suffira à régler ce problème. Par exemple :

Pour le moment une même clé d’index est générée pour ces deux titres :
200 1#‎$a@J’apprends les maths CE2, cycle 3‎$elivre du maître 
200 1#‎$a@J’apprends les maths CE2, cycle 3$efichier de l’élève 

Clé d’index : j apprends maths ce2 cycle 3 
Même s’ils contiennent une sous-zone $e (complément de titre) prise en compte au niveau œuvre par l’algorithme, leur contenu fait pour le moment partie de la liste des termes non significatifs qui doivent être ignorés du programme. Une mise à jour de cette liste règlera ce problème.

5. Et après ?

L’ensemble des informations récoltées grâce à cette expérimentation offre aujourd’hui un certain nombre de pistes d’actions visant à :

  • continuer d’affiner les connaissances et les compétences internes pour mieux maîtriser les traitements de regroupements et ainsi améliorer les performances
  • enrichir et corriger les données existantes
  • outiller au mieux les traitements et l’exploitation des données.

L’Abes doit maintenant les examiner pour intégrer celles qui seront les plus à même de servir efficacement les actions prioritaires en cours dans le cadre de l’actuel projet d’établissement.

Cet article a 3 commentaires

Laisser un commentaire

Aller au contenu principal