Organisée en ligne pour la première fois, sur le thème « Cataloguer par entités ou le big bang des données« , la 5ème journée professionnelle « Métadonnées en bibliothèque » organisée par le groupe « Systèmes et Données » du programme national Transition Bibliographique a réuni près de 500 participants.
Les enregistrements des présentations sont à consulter ICI.
Avec l’intervention « Décrire les œuvres et les expressions« , par Héloïse Lecomte (Abes) et Florence Tfibel (BnF), on découvre comment les évolutions du format UNIMARC (validées par le PUC) permettent désormais de traduire en format les éléments constitutifs des entités Œuvre et Expression. Ces évolutions majeures, outre le fait qu’elles aident à mieux comprendre le contour de ces entités, vont permettre de travailler de manière concrète à l’évolution des logiciels, l’éclatement des notices, la reprise des données, la mise en place de nouveaux outils de production…
L’intervention « Transformation d’une notice en arbre OEMI » par Tiphaine-Cécile Foucher (BnF) illustre ce que signifie « cataloguer par entités » : on y voit comment les données d’une notice bibliographique du catalogue général de la BnF sont redistribuées dans les nouvelles entités de l’arbre OEMI (OEuvre Expression Manifestation Item).
Les catalogueurs ont également été informés des avancées du « Projet FNE« , futur outil de production d’entités, par Anila Angjeli (BnF) et Benjamin Bober (Abes).
Ces orientations doivent se matérialiser dans les systèmes de gestion des bibliothèques. Grâce aux retours d’expériences (partie 5) des bibliothèques ayant commencé la transformation de leur catalogue, elles sont apparues plus concrètes. Chaque catalogueur peut ainsi mesurer le chemin parcouru, et réaliser que la transition bibliographique est en marche.
Lors des sessions du Permanent UNIMARC Committee 2020, l’essentiel des discussions a été consacré à l’adaptation du format au modèle LRM à travers la finalisation des grilles de description des œuvres et expressions dans le format UNIMARC/A. Consulter les billets précédents :
Après le marathon de septembre, les membres du PUC ont eu le plaisir de se retrouver du 19 au 22 octobre pour 3 autres réunions au cours desquelles ont été débattues quelques autres évolutions des formats UNIMARC/A et B.
Voici un éclairage sur les principales décisions prises, en attendant la publication officielle des mises à jour 2020 du format UNIMARC sur le site de l’IFLA et la mise en œuvre de certaines de ces nouveautés dans le Sudoc, selon un calendrier et des modalités à définir. N’hésitez pas à nous signaler des besoins en la matière !
Une amélioration de la zone B225 pour les ensembles monographiques
La représentante de la Bibliothèque nationale de Russie a proposé la correction d’une lacune dans la zone B225, correspondant à la « zone de la collection et de la monographie en plusieurs volumes » de l’ISBD et permettant de transcrire le titre, les compléments de titre et les mentions de responsabilité de la collection ou de l’ensemble monographique dans lequel se situe une ressource. Il sera désormais possible d’indiquer l’ISBN, l’ISMN (identifiant des partitions) ou tout identifiant international de l’ensemble monographique dans la nouvelle sous-zone $y.
Par exemple, dans la notice bibliographique du 1er volume de l’ensemble The History of Chinese Civilization, l’ISBN de l’ensemble (1-107-01309-7) pourra désormais être catalogué en B225 $y, tandis que l’ISBN du volume restera enregistré dans la zone 010.
De nouveaux codes pour des alphabets très utilisés
Prenant acte du petit nombre de codes d’écriture proposé par le référentiel UNIMARC utilisé par les catalogueurs pour la zone B100 (positions 34-35, « écriture du titre ») et la sous-zone de contrôle $7 du format autorités (positions 0-1, « écriture de catalogage » et 4-5 « écriture de la racine de la vedette » – la traduction française n’ayant pas encore été remise au goût du jour…), la représentante de l’ICCU, agence bibliographique nationale italienne, a fait la proposition d’ajouter des codes pour une meilleure représentation d’alphabets non latins dans les notices en UNIMARC. En effet, pour le moment, les catalogueurs ne peuvent utiliser que le code « zz – autre » pour ces écritures, qui demeurent donc invisibles dans les données structurées de nos catalogues.
Le critère choisi par les italiens est celui du nombre de locuteurs des langues utilisant ces alphabets : un nouveau code a été proposé pour toutes les écritures utilisées actuellement par au moins 10 millions de personnes dans le monde. Si cette méthodologie peut sembler arbitraire en ne se fondant pas sur les besoins de description réels des bibliothèques utilisatrices de l’UNIMARC, qui ont été jugés trop difficiles à recenser, elle a le mérite d’être objective.
Les nouveaux codes correspondent presque uniquement à des écritures asiatiques : birman, khmer, bengali, gujarati, gurmukhi, odia, kannada, malayalam, cingalais, telugu. Un code représentera également l’alphabet éthiopien. D’autres écritures pourront bien sûr être intégrées à cette liste de codes en fonction des besoins signalés par les communautés utilisant l’UNIMARC.
La question de l’utilisation de la norme ISO 15924 plutôt que de la liste UNIMARC pour représenter les codes d’écriture a été posée par la France. En effet, la norme ISO est complète : représentant toutes les écritures du monde, elle est maintenue par une instance ad hoc. La présidente du PUC a proposé que les représentants nationaux interrogent les bibliothécaires et les fournisseurs de SGB de leurs pays afin de vérifier l’intérêt et la faisabilité technique de cette évolution, les codes ISO ayant 4 caractères (et non 2 comme les codes UNIMARC). Le sujet sera à l’ordre du jour du PUC 2021.
De nouveaux codes de fonction en provenance d’Italie
Cette année, les collègues italiens ont également planché sur les codes de fonction (utilisés en B/7XX $4 pour indiquer le rôle joué par un agent en relation avec une ressource), en particulier dans le domaine des manuscrits et du livre ancien.
Voici les nouveaux codes retenus :
355 – Epitomateur (du grec ἐπιτομή, epitomē) : personne qui compose l’abrégé d’une œuvre. Ce code sera utile en particulier lorsqu’une œuvre antique n’est connue que par son épitomé.
407 – Glossateur : auteur de gloses. Ce code est plus spécifique que « 212 – auteur du commentaire ».
552 – Notaire : cette fonction est utile dans le cadre de la description de matériaux archivistiques et/ou de manuscrits.
678 – Restaurateur : même type d’utilisation.
735 – Translittérateur : utile uniquement dans le cas de textes anciens manuscrits, qui nous sont parvenus via une translittération faite par une auteur plus tardif.
Enfin, dans le domaine du jeu, un nouveau code, plus spécifique que l’actuel « 245 – Concepteur », a été défini : « 405 – Concepteur du jeu (Game designer) »
Les échanges qui se sont déroulés sur 5 jours sont évoqués dans 2 billets distincts.
1.« PUC , Day 1 » 2. « Le Permanent UNIMARC Committee et LRM, la suite (9 au 14 septembre 2020) » (ce billet)
Après la séance d’ouverture de la réunion annuelle du Permanent UNIMARC Committee, les 4 journées suivantes ont été consacrées à l’examen des propositions d’évolution du format bibliographique et du format autorités. La France portait de nombreuses demandes, concernant principalement le format autorités. Il s’agissait de le compléter pour lui permettre d’exprimer l’ensemble des attributs des entités « Œuvre » et « Expression » prévues par le modèle IFLA-LRM.
De RDA-FR à UNIMARC en passant par LRM
Initiée par les collègues du département des Métadonnées de la BnF, la comparaison entre les attributs des œuvres et expressions dans RDA-FR (voir RDA-FR, section 2) et l’état actuel du format UNIMARC a abouti à plusieurs constats :
Initialement programmée en mars 2020, la réunion annuelle du Permanent UNIMARC Committee, organe international rattaché à l’IFLA qui maintient et fait évoluer le format d’échange UNIMARC, s’est tenue début septembre par visioconférence, en raison de la situation sanitaire. Pour permettre aux participants, dispersés de l’Iran au centre des États-Unis, de suivre les sessions pendant leurs heures de travail, les réunions ont été organisées sur 5 jours, deux à trois heures par jour, à midi en temps universel (14h en France).
La France sur le pont
Comme chaque année, le Comité français UNIMARC était représenté par l’Abes. Les sessions se sont ouvertes par une discussion méthodologique générale sur l’adaptation du format UNIMARC au nouveau modèle LRM. L’analyse de la compatibilité du format UNIMARC avec ce modèle, autre standard de l’IFLA, constitue en effet l’un des deux axes de travail 2019-2021 définis par la présidente du PUC, Gordana Mazić (IZUM, Slovénie), en plus de l’examen annuel des propositions d’évolution du format préparées et transmises par les différents membres. Le deuxième axe de travail est la « visibilité » du format, avec notamment un projet de création d’espaces de noms IFLA reprenant la structure du format UNIMARC, et permettant de transposer ce vétéran de l’encodage dans le web de données.
De l’examen des cas issus de l’analyse statistique décrite dans le billet précédent, il est possible de dégager des éléments récurrents de perturbation du fonctionnement de l’algorithme. Sans grande surprise les zones contenant les titres et les auteurs ont un poids important dans la formule de calcul et sont, de fait, sources d’erreur surtout quand les œuvres sont très représentées dans le Sudoc. Certains partis pris ont aussi leur responsabilité dans quelques cas quant au niveau de granularité des regroupements ou des difficultés à les réaliser.
1000 notices de monographies ont finalement été examinées par « le onze abesien ». Le jeu de données clusterisées par les testeurs a été confronté aux regroupements réalisés par l’algorithme dans la base de test. Les clusters ont été classés en six catégories une fois le taux de regroupement global connu :
Parmi ces 1000 notices faisant partie du périmètre d’action du programme :
629 notices ne sont ni dans un cluster humain ni dans un cluster machine
371 notices font partie d’un regroupement humain et/ou machine.
L’évaluation globale de l’expérimentation annoncée dans le billet précédent a pu s’achever à la fin du mois de juin avec deux mois de retard sur le calendrier initial.
Les forces et les faiblesses de l’algorithme sont désormais connues :
Les paramétrages actuels permettent de traiter au niveau œuvre une partie non négligeable des notices de monographies qui représentent le plus gros volume des données du Sudoc. Cependant, le nombre total de notices regroupées reste modeste par rapport au périmètre pris en compte par le programme (un grand nombre « d’unicas » d’œuvres en sont aussi responsables). Par ailleurs, l’algorithme ne tourne pas sur toutes les données du Sudoc (notamment les agrégats dont font partie les ressources continues) et l’hétérogénéité des pratiques de signalement ainsi que la qualité des notices limitent ses performances.
Voici une présentation de cette évaluation publiée en trois parties :
Le programme national Transition Bibliographique travaille, et avance, à un rythme doux, propice à l’énorme enjeu de réécriture des normes de description et d’un code de catalogage.
Alors, de mois en mois, il peut arriver qu’on perde le fil, qu’on délaisse sa veille sur ce sujet.
Jusqu’au jour où il survient à nouveau dans une discussion, au détour d’un texte, et où l’angoisse – ou la culpabilité – nous rattrape. « Mince ! Ai-je donc tout oublié ? »
Alors, pour ne pas que cela vous arrive, nous proposons ici un rapide bilan de tout ce qui s’est passé, pendant l’année universitaire 2019-2020, concernant la transition bibliographique dans le Sudoc.
D’abord, on récapitule les nouveautés 2020, et leurs impacts dans le Sudoc. On explique aussi ce qui va se passer en 2021.
Ensuite, on zoome sur la réforme Rameau, et on vous dit l’essentiel de ce qu’il faut retenir.
Enfin, on se projette, pour imaginer ce que sera un catalogue avec des notices d’œuvres. Et on comprend que tout le travail effectué sur les données aujourd’hui (notamment le travail de liage) rendra possible demain l’existence de ces notices d’œuvres.
« Faire confiance à notre intuition pour trouver ce que l’on cherche dans un catalogue de bibliothèque ? Naviguer dans une arborescence logique pour identifier et sélectionner notre ressource, plutôt que de parcourir des listes de notices ? Obtenir facilement une ressource quel que soit son support ? Explorer les fonds de notre bibliothèque de manière intelligente en suivant des liens riches entre des œuvres, des personnes, des sujets… ?
On veut quoi ? On veut des entités LRM dans le catalogue de notre bibliothèque !! »
Des statistiques de prêt par œuvres et par grappes d’exemplaires, une assistance à la politique documentaire, des services documentaires améliorés et un jour, de l’intelligence artificielle comme aide à l’acquisition et à la gestion de nos collections… Nous, bibliothécaires, nous voulons cela aussi !
Alors : En club d’utilisateurs, Avec notre fournisseur de SIGB, Ou tout simplement animé de notre passion personnelle pour les données bibliographiques…
Deux phases de recette et une petite trêve estivale plus tard…
Après avoir testé et trituré les données dans (presque) tous les sens, l’Abes est en mesure d’annoncer que l’algoclc2 sera très prochainement implémenté en base de production du Sudoc. Il remplacera le premier algorithme, utilisé depuis le 23 octobre 2017 et rebaptisé ”algoclc1”.