métadonnées – L'épée du soleil

La réflexion sur l’organisation de la documentation numérique se poursuit tranquillement, au hasard des lectures et découvertes. Persiste, de plus en plus fort, le sentiment que la joute de la culture numérique passe par cette saisie des ensembles documentaires qui nous entourent. Apple a gagné une partie de la manche, pour ceux qui adoptent le modèle. Sinon, avec last.fm, avec spotify, avec des logiciels concurrents, comment les gens gèrent-ils leurs bibliothèques musicales ? Les multiplient-ils volontiers ? Comment les utilisent-ils ? Comment s’y retrouvent-ils ?

Dans le travail à faire pour rassembler les données liées aux documents numériques que je possède, la tâche la plus fastidieuse est certainement le renseignement des champs de métadonnées. Pas pour utiliser les fonctions de citation automatique (dans Word, dans OpenOffice) — le volume de citations dans mes travaux n’est pas à ce point élevé —, mais plutôt pour ne pas perdre ces références et pouvoir les retrouver. La lecture d’un article de ProfHacker sur Mendeley attire mon attention sur un test (non scientifique, mais pragmatique !) d’importation des citations depuis un lot de pdfs. C’est un point de départ…

Let me stress again, this is a test I did out of curiosity. A sample of 15 articles clearly isn’t enough to provide anything but my subjective impressions. For one thing it covers only articles mostly from ScienceDirect, Wiley and ACM Digital Library. Results will differ in particular if you get papers from say JSTOR.

Also due to the search topic used, understandably the articles pulled up are all new (2005 and after), the results will probably differ a lot if articles used were say from the 90s or even older, as the pdfs available would be different (no metadata embeded or worse just scanned pdfs).

Investigation à poursuivre, donc : quel procotole de description des métadonnées ces BD utilisent-elles ? quelle force déductive les moteurs d’extraction des pdfs ont-ils vraiment ? Plus encore : qu’arrive-t-il de cette performance avec de la documentation non scientifique comme des livres numériques ? Un test à faire… (je me le promets éventuellement dans Zotero et Mendeley ; Endnote d’aucun intérêt pour moi)

Fonction corollaire : les dossiers surveillés, qui importent automatiquement les fichiers qui y sont placés. Possibilité d’avoir accès aux dossiers d’un iPad pour recenser les livres téléchargés (en dehors d’une version jailbreakée) ? Difficile d’imaginer fonctionner autrement, puisque les fichiers sont bloqués à l’intérieur des applications (ou laborieusement re-déposables (?), si certaines rares applications comme Stanza permettent l’exportation et l’importation via iTunes). À défaut du filesystem accessible, est-ce que la fonction de recommandation de ces applications (mail, twitter, fb) pourrait transporter les métadonnées correctement structurées avec elle ?

Je ne peux pas croire que l’on laissera tous les non-geeks se perdre dans leurs téléchargements épars, leurs boîtes de transfert, leurs documents transmis en pièce jointe… et leur donner raison sur le fait que tout ceci est un foutoir monumental.

J’ai traversé, comme plusieurs, la synthèse précieuse d’Olivier Ertzscheid (sur affordance.info) à propos de Google Books. Bien des enjeux me dépassent (et nous dépassent). Mais j’ai accroché sur un point précis, qui relance mes réflexions périodiques sur la fonction de filtre dans la sphère internet et l’interface que constituent les chercheurs dans le rapport avec le savoir.

L’obstacle du Good Enough

Dans son article, Ertzscheid rappelle bien le principe gouvernant la numérisation et, de façon plus spécifique, l’établissement des métadonnées liées aux documents numérisés. Il a été démontré par plusieurs, et avec force, que les erreurs sont nombreuses, voire endémiques dans les métadonnées constituées par Google Books. Si le commun des mortels s’en balance un peu (hum, beaucoup), la communauté scientifique reste préoccupée, en raison de la précision déficiente des renseignements, de la perspective tronquée sur le corpus numérisé… Mais plusieurs s’en remettent à l’idée que c’est mieux que rien — c’est là ce que résume d’Ertzscheid.

Il poursuit néanmoins en y voyant là un enjeu politique (au sens large) :

La question est de savoir si ce rêve que l’humanité poursuit depuis son origine, c’est à dire offrir à tous et en un même lieu l’ensemble des connaissances disponibles, si ce rêve aujourd’hui à portée de souris doit se satisfaire d’un « pas trop mal » et d’un « mieux que rien ». A chacun de se déterminer. Mon avis ? Mon point de vue est qu’il faut se servir de la formidable opportunité offerte par Google pour renforcer le rôle de la prescription et de la médiation publique du savoir et de la connaissance. Je ne parle pas ici de prescription « publique » par opposition à une prescription « privée » mais bien par rapport à une prescription « commerciale ». Si le politique (cf supra) ne relève pas ce défi c’est sans ambage et sans lyrisme déplacé la mort programmée de la diversité culturelle, et peut-être même celle de l’éducation à la diversité. Pour le reste, cessons de rêver : on ne contrera plus Google sur la numérisation ni même sur le commerce des livres.

La résignation gagne les troupes : c’est David contre Goliath, et Goliath a vaincu sur un plan — le caractère massif de son aire d’occupation du territoire. Personne (ni même la BNF) n’arrivera à sa cheville en volume et en vitesse de numérisation. Mais l’insatisfaction reste, tant du point de vue des droits (le combat se poursuit) que du point de vue de la qualité de la documentation produite/rendue accessible. D’où cet appel à une prescription publique.

Une métadonnée en chasse une autre (la complète, en fait)

La question reste donc de définir cette prescription publique : il ne s’agit pas, comme le laisse comprendre Ertzscheid, de politiques et de lois, mais d’action collective. Au delà de l’utopie première, comment donner forme à cet engagement pour contrer Goliath ?

La question se pose plus facilement du point de vue technique et scientifique. Le problème de Google Books, notamment (!), c’est en quelque sorte de ne pas perdre des données (des volumes entiers) dans le néant… Tout bibliothécaire vous le dira : un livre mal classé ou mal indexé peut être perdu à jamais. C’est un cas extrême, mais néanmoins envisageable dans le spectre des erreurs liées aux métadonnées des livres numérisés. De façon plus commune, c’est de ne pas pouvoir accéder au livre recherché parce que mal associé (mauvais tags attribués), c’est d’avoir une information fautive sur un livre. Et « Google, tout en étant conscient de ces erreurs, « ne considère pas leur rectification comme prioritaire » » souligne Ertzscheid, à la suite de Geoffrey Numberg ; n’imaginons pas que G. nous laissera davantage jouer dans ses codes et nous laisser les rectifier.

À défaut d’agir directement sur la source du problème, pourrait-on la contourner ? Je m’amuse là à émettre une pure hypothèse (on voudra bien me dire si techniquement c’est réalisable). Il s’agirait d’ajouter une surcouche de métadonnées à Google Books, lesquelles seraient exactes, validées et utilisables par le discours scientifique. Par un effort commun, nous pourrions constituer une interface normalisée gérant les métadonnées de la documentation scientifique, laquelle serait accessible dans Google Books dans un second temps. Comme tous les volumes sont basés sur des protocoles standardisés (à tout le moins le classique ISBN), il serait aisé d’offrir des outils permettant d’interfacer GBooks… Par Zotero, par OpenLibrary, voire par LibraryThing, des communautés scientifiques pourraient surcoucher Goliath, et ainsi le laisser se perdre dans ses nuages. GBooks resterait évidemment une couche obligée (dépositaire du contenu numérique convoité), mais on n’y accéderait que dans un second temps, pour obtenir ce contenu brut.

Des limites, pour sûr : pas nécessairement accès aux requêtes dans les textes (encore que…), pas d’accès direct à la banque d’indexation, mais tout de même : la possibilité de gérer l’information, de baliser l’accès, de filtrer la documentation. Car l’enjeu s’y trouve : si les bibliothécaires se prêtent à la mutation de leurs fonctions, c’est tout à fait là qu’ils se trouvent — interface / filtre qui permet d’accompagner des usagers, des chercheurs, des lecteurs dans leur exploration du monde du savoir.

Hypothèse futile ? projet utopique ? Surcoucher Google Books, ce serait lui ajouter le fini qui lui manque (voire la crédibilité qui lui manque en contexte scientifique) : beau rêve, qui refuse la simple démonisation du projet (et l’hypocrisie d’un usage une fois le dos tourné) ; utopie collective à explorer… sous cette forme ou sous une autre.

Bibliothèque numérique, suite : extraction

Perdre Goliath dans les nuages (surcoucher Google Books ?)