« Nous voulons préserver pour l'éternité les documents numériques »
La numérisation du patrimoine culturel est l'un des grands enjeux pour la Bibliothèque Nationale de France (BNF), qu'il s'agisse du dépôt légal des livres ou des autres fonds dont elle assure la conservation. Avec les difficultés techniques liées tant au volume qu'à la pérennité des données.
PublicitéQu'entend-on exactement par « bibliothèque numérique » ? Le terme de « bibliothèque numérique » renvoie à plusieurs projets ayant peu de points communs en dehors de la volonté de préserver pour l'éternité les documents numériques. Tout d'abord il y a le dépôt légal du web. Il s'agit de documents purement numériques dont la perte est nécessairement définitive puisqu'il n'y a aucun « original » matériel. Il y a également la numérisation des fonds propres de la BNF afin de les communiquer au plus grand nombre en évitant ainsi de sortir des magasins les originaux, ce qui constitue toujours un risque pour la conservation d'un document. Notre rythme annuel de numérisation est de l'ordre de 100 000 documents/an, un document donné pouvant comporter des milliers de pages. Cela concerne aussi bien les livres, les magazines, des CD audio, des partitions, des fonds photographiques, des fonds divers (comme des estampes)... Certains fonds sont issus du dépôt légal, d'autres de dons ou d'acquisitions, comme par exemple des ouvrages de références parus dans des langues étrangères. Nous avons un projet spécifique concernant la presse quotidienne régionale où l'objectif est de disposer sous forme de fichiers PDF de chaque édition avec les pages communes une seule fois. Par exemple, Ouest France réalise le dépôt légal, chaque jour, d'une trentaine d'éditions locales mais seules quelques pages varient d'une édition à une autre. Il s'agit d'avoir dans un même PDF toutes les pages communes puis chacune des pages spécifiques à la file. Du point de vue technique, comment procédez-vous ? Il y a un gros investissement en matériel mais aussi en logiciels. Beaucoup de logiciels que nous employons sont des logiciels libres que nous devons adapter à nos besoins. Nous souhaitons au maximum mutualiser les ressources requises aussi bien en développement qu'en stockage avec d'autres établissements publics mais aussi, le cas échéant, avec des acteurs privés. Le stockage des documents numériques est l'objet du projet SPAR (système de préservation et d'archivage réparti), dont le marché de réalisation a été confié à Atos Origin. Le but étant de préserver pour l'éternité des documents numériques, nous vérifions à échéances régulières la pérennité des supports et des formats et nous procédons si besoin est à des conversions de support ou de format. Comment numérisez-vous les documents ? Il y a une filière par type de document. Nous pouvons utiliser des ateliers internes ou bien recourir à des prestataires extérieurs dans le cadre de marchés publics, comme Jouve ou Safig par exemples. Lorsque nous avons recours à des prestataires, les documents sont déposés chez eux puis ils restituent les originaux accompagnés des numérisations dont nous vérifions la qualité, y compris au niveau des métadonnées ou des index. Dans certains cas, par exemple pour les documents que nous ne voulons pas voir sortir, nous utilisons les ateliers internes. La BNF a toujours eu des ateliers pour des métiers en rapport avec la conservation, par exemple pour la reliure. Que récupérez-vous exactement à l'issue d'une numérisation ? Nous utilisons notamment le logiciel libre Fedora (qui n'a rien à voir avec la distribution Linux homonyme) pour préserver les documents dans la norme OAIS. Chaque page devient un paquet qui comprend plusieurs éléments, le tout suivant des normes très strictes. La BNF se doit d'être exemplaire dans le respect des normes, qui sont autant de garanties de pérennité des documents numériques. Avant tout, chaque page devient un fichier image au format TIFF. Après reconnaissance optique des caractères, le texte est décrit dans le format Alto, une norme XML très stricte de description de page (tel mot à tel endroit...) mais ne comprenant aucune information de structure (chapitre, titre...). Chaque page est accompagnée de métadonnées de type XML qui suivent, encore une fois, des normes très strictes. Ces métadonnées permettent l'intégration des documents aux catalogues, notamment pour en assurer la traçabilité. Lorsque la numérisation est effectuée par un prestataire, celui-ci intègre aux métadonnées de fond fournies par la BNF des métadonnées de forme comme la liste des fichiers constituant un document, leur description, etc. Et pour le dépôt légal du web, numérique par nature ? Le principe est de naviguer au fil des liens du web francophone pour stocker les contenus éphémères à l'attention des générations à venir. Les premières captures ont été réalisées par le projet d'origine américaine Archives.org qui était très en avance. Nous avons racheté des collections puis nous avons collaboré avec eux au sein du consortium IIPC. Les images réalisées sont très larges mais pas intégrales, voire pas forcément très profondes, c'est-à-dire que beaucoup de sites sont visités mais en général seule la page d'accueil et quelques autres pages sont capturées. De temps en temps, nous effectuons des images plus profondes sur des thématiques fortes. Un bon exemple est constituée par les dernières élections présidentielles où nous avons tracé les sites les plus pertinents durant quelques mois. Mais soyons clairs : un site personnel d'un jeune de vingt ans n'a sans doute aucun intérêt... sauf s'il devient Président de la République quelques années plus tard ! Evidemment, nous avons un problème de place et nous ne pouvons pas stocker la totalité du web francophone. Stocker est une chose mais, ensuite, comment peut-on accéder au stock de documents ? Concernant le web, la diffusion se fait à la BNF. A partir du 7 avril prochain, elle se fera aussi auprès de chercheurs accrédités. Pour les autres fonds numérisés, notamment les livres, c'est l'objet de Gallica et de Gallica 2. Le principe général est d'éviter de sortir les exemplaires originaux des collections. La BNF est une bibliothèque de dernier recours et nous essayons depuis toujours d'inciter les personnes cherchant des documents à les consulter ailleurs lorsque c'est possible. Et de toutes les façons, nous ne prêtons jamais de documents. A la BNF, sur le site Tolbiac, il y a un haut de jardin où l'accès est libre. Vous y trouvez les boutiques, la presse du jour... Le bas de jardin permet d'accéder, à l'inverse, aux stocks des magasins si vous avez été habilités par les conservateurs de la BNF. Gallica et Gallica 2 visent à étendre la consultation des documents mais sous format numérique via Internet. Bien entendu, la BNF se veut un modèle dans le respect du droit d'auteur. Pour que nous numérisions un document en vue de sa consultation par le public, il faut que cela soit légal. Le cas échéant, nous négocions la possibilité de numériser des fonds trop récents avec les ayant-droits. En quoi consiste précisément Gallica ? La version 1 a été ouverte en 1997 avec très peu de documents, visibles uniquement sous forme d'images (scannage de pages, de photographies...). Au fil des années, la numérisation des fonds s'est étendue mais sans évolution technique. Le 14 décembre 2004, Jean-Noël Jeanneney, alors directeur de la BNF, signa une tribune dans Le Monde sur le danger pour la culture française d'une numérisation des seuls fonds documentaires anglo-saxons par des acteurs comme Google. D'où l'idée d'une bibliothèque numérique européenne. Comme l'avancement d'un tel projet est lent, Jean-Noël Jeanneney a souhaité créer une maquette, Europeana, sur les ressources propres de la BNF entre juin et octobre 2006. Puis nous sommes passés au stade du prototype avec 7000 documents de la BNF et 5000 issus de diverses bibliothèques nationales. Le projet se base sur la technologie J2EE, avec la récupération des métadonnées par le protocole OAI-PMH et surtout une indexation plein texte grâce au moteur open-source Lucene. Le prototype a été présenté au Salon du Livre en mars 2007. L'Europe décide alors de lancer le projet avec une structure ad hoc, hébergée à La Haye, sous le nom d'Europeana qui a été conservé. La structure regroupe beaucoup de bibliothèques nationales, de musées... Ce que nous avons fait pour Europeana a été « relooké » pour en faire Gallica 2, ouvert en octobre 2007, sans fermer Gallica, plus complet. Le 13 mars 2008, Gallica 2 deviendra non seulement une bibliothèque numérique publique mais aussi une plate-forme de diffusion pour des partenaires commerciaux dont les fonds seront vendus selon différents modèles économiques, variables en fonction des partenaires mais aussi du temps. L'idée est de tester les différentes possibilités et nous en tirerons un bilan au Salon du Livre en mars 2009. D'ici là, à la rentrée 2008, Gallica 1 devrait fermer, tous ses fonds ayant été intégrés dans Gallica 2. Quelles sont les caractéristiques techniques de Gallica ? Nous n'utilisons que des logiciels open-source et des développements internes, eux-mêmes rendus disponibles en open-source, pour des raisons de pérennité. Nous n'utilisons pas de framework particulier car la cinématique du site est faible. Côté matériel, nous utilisons des bandothèques Storagetek (aujourd'hui Sun) pour stocker les masters en doublon sur deux sites. La diffusion se fait à partir de formats moins lourds, créés à partir des masters, et stockés sur des baies de disques banalisées.
Article rédigé par
Bertrand Lemaire, Rédacteur en chef de CIO
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire