Data Asset : la délicate valorisation des rapprochements de données culturelles


La donnée, un actif vital de l'entreprise
Valoriser la donnée n'est plus accessoire. De plus en plus souvent, l'entreprise est tenue de se réinventer autour de la donnée pour servir ses clients. Si l'exemple le plus complet vient de façon inattendue d'une agence média, Havas Media Group, d'autres témoignages ont appuyé ce constat. En...
DécouvrirLe 24 septembre 2015, CIO a organisé à Paris une Matinée Stratégique sur « Data Asset : la donnée, actif de l'entreprise ». Pierre Boudigues, directeur projets et SI à Electre / Livres Hebdo, a expliqué comment collecter et associer les données pour les valoriser.
PublicitéFiliale du Cercle de la Librairie, le syndicat patronal français des industries du livre créé en 1847, la société Electre est connue pour sa base bibliographique éponyme (créée en 1986) et sa revue professionnelle Livres Hebdo (successeur depuis 1979 de Bibliographie de la France fondée en 1811). La base Electre gère les données de 1,6 million d'ouvrages (1,9 million d'oeuvres : rééditée, parodiée, illustrée...), 1,6 million d'auteurs (dont 450 000 de fiction), 17 000 marques et sociétés actives (86 000 en tout)... pour des productions de 450 000 objets éditoriaux (articles de Livres Hebdo, prix littéraires...) de 15 types différents pour 10 000 utilisateurs réalisant 2 millions de requêtes par jour sur la base bibliographique.
« Electre est une entreprise qui produit manuellement de l'information et l'une des seules au monde à gérer une base bibliographique avec nativement le modèle oeuvre » a indiqué Pierre Boudigues, directeur projets et SI à Electre / Livres Hebdo. Il s'est exprimé lors de la Matinée Stratégique « Data Asset : la donnée, actif de l'entreprise » organisée par CIO le 24 septembre 2015 à Paris. Le modèle oeuvre est un mode de catalogage de tout ce qui est culturel (livres, CD, DVD, partitions...) très structuré et normalisé. D'autres organismes en France (comme la BNF, Bibliothèque Nationale de France) et à l'étranger ont des catalogues par nature d'oeuvres (une pour les livres, une pour les CD, etc.) et produisent une base consolidée en modèle oeuvre par calcul.
Pierre Boudigues précise : « la BNF référence bien plus d'ouvrages que nous -environ 20 millions- et sa logique est celle d'une migration. » Le modèle oeuvre offre des possibilités de recoupement et de rebonds entre déclinaisons (par exemple : la nouvelle Carmen de Prosper Mérimée, l'opéra de Bizet, les adaptations cinématographiques, etc.). Mais, dans les faits, de tels rebonds sont peu pratiqués par les utilisateurs actuels de la base Electre.
Au service public du livre
Les bibliothèques, les éditeurs, les libraires... sont les clients d'Electre et, souvent, ces utilisateurs exposent la base de données ainsi collectée. « Juridiquement, nous avons de ce fait une difficulté à protéger notre propriété intellectuelle » a observé Pierre Boudigues en rebondissant sur l'intervention précédente de l'avocate Christiane Féral-Schuhl.
L'une des ambitions d'Electre était de bénéficier de la puissance du modèle oeuvre en enrichissant ses données propres avec des sources tierces issues du web afin, par exemple, de retrouver aisément les expressions dérivées d'un livre (films, etc.). Pierre Boudigues s'est souvenu : « après la visite d'un fournisseur enthousiaste, nous avons accepté de faire un pilote avec comme objectif de trouver les expressions cinématographiques des livres en croisant plusieurs référentiels sur Internet avec notre base bibliographique. Le but était de traiter mille livres en cinq jours. En quinze jours, à trois personnes, nous en avons traités 330. Et nous étions contents d'y parvenir car nous avons pu présenter ce travail au Salon du Livre. »
PublicitéLa véritable difficulté est de garantir la qualité de l'information. Il est en effet nécessaire de bien valider les rapprochements opérés pour atteindre le même niveau de qualité que la base bibliographique. « Ca peut être très compliqué quand on cherche des informations sur un auteur nommé Jacques Martin » a soulevé Pierre Boudigues. Il n'y a pas que l'auteur de la bande dessinée Alix...
La collecte est aisée, le rapprochement compliqué
Techniquement, la collecte d'informations complémentaires sur Internet est aisée. « Il suffit d'avoir de l'espace et de la bande passante » a soutenu Pierre Boudigues. Aussitôt, il a spécifié : « extraire la substantifique moelle et la réconcilier avec nos propres données, par contre, c'est lourd et encore coûteux alors qu'il n'y a pas de marché ».
Sur les 450 000 auteurs de fiction référencés chez Electre, moins de 100 000 ont pu être alignés avec les fiches disponibles sur Wikipedia ou à la BNF. « Ils existent pourtant tous sur Internet mais la validation reste compliquée » a insisté Pierre Boudigues pour qui « la bibliographie est une vraie discipline scientifique ». Il faut peser et calibrer l'information, même si certains automatismes peuvent être mis en place.
Le véritable problème est de valoriser économiquement ce travail. De ce fait, la PME Electre n'a que peu d'appétit à développer ces outils. Servir la science, même avec joie, n'est guère la destinée d'une entreprise.
Utiliser la technologie pour casser les silos internes
Si la technologie n'a que peu d'intérêt économique lorsqu'il s'agit de rapprocher la base bibliographique interne et des sources extérieures, le rapprochement des différentes sources de données internes pouvait, par contre, avoir une justification. Et, de fait, Pierre Boudigues a trouvé dans le système d'information éditorial de son entreprise dix-neuf silos séparés pour six rubriques dans le journal Livres Hebdo... La plupart des contenus produits n'étaient exploités que pour leur usage primaire, notamment l'impression du magazine papier. « Même la publication du magazine sur le web était une activité annexe qui intéressait peu » a soupiré Pierre Boudigues.
Cependant, appliquer la technique de réconciliation des données avait de multiples vertus pour ces différents silos. D'une part, cela pouvait aider à résoudre des problèmes récurrents techniques liés à l'entretien de multiples systèmes en permettant de migrer les données dans un entrepôt unique. D'autre part, cette technique permettait de mieux connaître le fonds disponible. Pierre Boudigues a ainsi mentionné un exemple : « en France, les meilleures ventes sont calculées statistiquement, les éditeurs refusant de communiquer les chiffres exacts au contraire de leurs homologues anglo-saxons, et rechercher une information au sein de ces statistiques était compliqué alors qu'aujourd'hui c'est très simple. » Et c'est ainsi que la présence de 50 nuances de Grey dans les cinq premières places du Top 20 peut être retrouvée aisément tout au long des deux dernières années. « Je peux aujourd'hui le vérifier et pas me fier au doigt mouillé » s'est réjoui Pierre Boudigues.
Un entrepôt unique pour toutes les abriter
Techniquement, Electre dispose aujourd'hui d'un entrepôt de données unique avec des points d'entrées redéfinis. Quatre modèles de flux permettent de l'alimenter en respectant le modèle de données. Quinze types d'objets rédactionnels peuvent être créés à partir de ces données.
Cependant, certains rapprochements demeurent problématiques. Pierre Boudigues a signalé ainsi : « sur 50 nuances de Grey, bien qu'il n'y ait qu'un seul auteur, le système en propose dix-neuf car certains ont écrit des analyses et d'autres se sont retrouvés associés à l'ouvrage au travers de passages dans les médias. » La valeur de ces rapprochements n'est pas nulle en toute circonstance mais reste, dans beaucoup de cas, plus un problème qu'autre chose.
La seule manière de régler ce problème serait de pousser les auteurs des contenus rédactionnels à indexer eux-mêmes leurs production, ce qui, pour le coup, rajouterait un référentiel de tags qui ne serait même pas fixe. Pour Pierre Boudigues, le web sémantique est très prometteur mais suppose qu'il y ait une véritable conduite du changement avec une forte implication hiérarchique.
Cette architecture nouvelle permet de mener des études ponctuelle. Par exemple, Pierre Boudigues a réalisé une étude de corrélation entre les statistiques de vente et les passages médias afin de définir quels étaient les médias les plus prescripteurs. Par exemple, sur les 4000 livres présentés à l'antenne de France 2, moins de 500 ont été primés et moins de 1500 apparaissent dans les meilleures ventes. On peut en déduire soit que France 2 ne se contente pas de suivre l'actualité en étant très éclectique soit que ce n'est pas un média prescripteur, analyse qui intéressera les éditeurs.
Article rédigé par

Bertrand Lemaire, Rédacteur en chef de CIO
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire