Expérimentation Sudoc FRBR II. L’évaluation : algo vs humain. 2/3

  • Commentaires de la publication :3 commentaires
grille de résultats
« I win » by Ginny flickr (CC BY-SA 2.0)

Billet précédent :
1. Les règles du jeu

 

 

 

 

 

Le score

1000 notices de monographies ont finalement été examinées par « le onze abesien ». Le jeu de données clusterisées par les testeurs a été confronté aux regroupements réalisés par l’algorithme dans la base de test. Les clusters ont été classés en six catégories une fois le taux de regroupement global connu :

Parmi ces 1000 notices faisant partie du périmètre d’action du programme :

  • 629 notices ne sont ni dans un cluster humain ni dans un cluster machine
  • 371 notices font partie d’un regroupement humain et/ou machine.

Graphique : 1000 notices dans l'échantillon. 39% clusterisées et 61% non clusterirées

Graphique : nombre de clusters créés par l'algo et par l'humain

  • 424 regroupements ont été créés par l’algorithme : 294 comprenant une des notices de l’échantillon et 130 clusters supplémentaires. 

A noter : le total de 424 tient compte des 130 clusters machine qui apparaissent via les notices regroupées par les testeurs et qui ne font pas partie de l’échantillon de départ car l’algorithme est parfois contraint de créer plusieurs clusters là où l’humain n’en fera qu’un seul.

  • 328 regroupements ont été créés par l’humain.

Un programme de traitement automatisé des résultats

Pour évaluer les résultats de l’algorithme OCLC, un programme léger (développé en interne) a comparé et classé les clusters réalisés par les humains avec ceux de l’algorithme. Les données des clusters, préalablement chargées dans une base Oracle, ont ainsi été traitées selon des spécifications précises dégageant six cas de figure. 

Quelques chiffres

Rappel : le grand principe retenu pour l’expérimentation est d’obtenir des grappes de notices bibliographiques cohérentes, quitte à créer moins de grappes ou plus de petites grappes sans entités mêlées.

Pour y parvenir les paramétrages de l’algorithme ont volontairement été durcis afin d’éviter au maximum les regroupements abusifs.

Environ 70% des regroupements effectués par la machine répondent aux principes retenus pour la seconde expérimentation.

Les cas où l’algorithme respecte le principe édicté

L’algorithme et l’humain obtiennent le même résultat

L’algorithme et l’humain s’accordent pour créer le même regroupement dans 174 cas sur les 424 clusters créés par la machine (41%). 

De par ses contraintes techniques, l’algorithme obtient le même résultat que l’humain en créant plusieurs clusters dans 22 cas sur les 424 (5,2%).

Ensemble des clusters justes créés par l'algo

L’algorithme regroupe moins de notices que l’humain

L’algorithme ne réussit pas à regrouper toutes les notices que l’humain a rassemblées dans 117 cas sur 424 (27,6%).

Clusters algo plus petits que ceux de l'humain

L’algorithme aurait dû créer un cluster

L’algorithme ne crée pas de cluster alors que l’humain le fait à partir de 43 notices de l’échantillon. Les restrictions de paramétrages et/ou la qualité des notices sont en cause.

Les cas où l’algorithme ne respecte pas le principe édicté

Le programme crée des clusters faux dans 74 cas sur 424 (17,4%) car il ne rassemble pas les mêmes notices que l’humain.
Enfin, il crée des clusters à tort, là où l’humain ne le fait pas, dans 43 cas sur 424 (10%).

Clusters algo faux

A suivre…

3. L’analyse des résultats du match

Cet article a 3 commentaires

Laisser un commentaire

Aller au contenu principal