Bibliothèque numérique, suite : extraction

La réflexion sur l’organisation de la documentation numérique se poursuit tranquillement, au hasard des lectures et découvertes. Persiste, de plus en plus fort, le sentiment que la joute de la culture numérique passe par cette saisie des ensembles documentaires qui nous entourent. Apple a gagné une partie de la manche, pour ceux qui adoptent le modèle. Sinon, avec last.fm, avec spotify, avec des logiciels concurrents, comment les gens gèrent-ils leurs bibliothèques musicales ? Les multiplient-ils volontiers ? Comment les utilisent-ils ? Comment s’y retrouvent-ils ?

Dans le travail à faire pour rassembler les données liées aux documents numériques que je possède, la tâche la plus fastidieuse est certainement le renseignement des champs de métadonnées. Pas pour utiliser les fonctions de citation automatique (dans Word, dans OpenOffice) — le volume de citations dans mes travaux n’est pas à ce point élevé —, mais plutôt pour ne pas perdre ces références et pouvoir les retrouver. La lecture d’un article de ProfHacker sur Mendeley attire mon attention sur un test (non scientifique, mais pragmatique !) d’importation des citations depuis un lot de pdfs. C’est un point de départ…

Let me stress again, this is a test I did out of curiosity. A sample of 15 articles clearly isn’t enough to provide anything but my subjective impressions. For one thing it covers only articles mostly from ScienceDirect, Wiley and ACM Digital Library. Results will differ in particular if you get papers from say JSTOR.

Also due to the search topic used, understandably the articles pulled up are all new (2005 and after), the results will probably differ a lot if articles used were say from the 90s or even older, as the pdfs available would be different (no metadata embeded or worse just scanned pdfs).

Investigation à poursuivre, donc : quel procotole de description des métadonnées ces BD utilisent-elles ? quelle force déductive les moteurs d’extraction des pdfs ont-ils vraiment ? Plus encore : qu’arrive-t-il de cette performance avec de la documentation non scientifique comme des livres numériques ? Un test à faire… (je me le promets éventuellement dans Zotero et Mendeley ; Endnote d’aucun intérêt pour moi)

Fonction corollaire : les dossiers surveillés, qui importent automatiquement les fichiers qui y sont placés. Possibilité d’avoir accès aux dossiers d’un iPad pour recenser les livres téléchargés (en dehors d’une version jailbreakée) ? Difficile d’imaginer fonctionner autrement, puisque les fichiers sont bloqués à l’intérieur des applications (ou laborieusement re-déposables (?), si certaines rares applications comme Stanza permettent l’exportation et l’importation via iTunes). À défaut du filesystem accessible, est-ce que la fonction de recommandation de ces applications (mail, twitter, fb) pourrait transporter les métadonnées correctement structurées avec elle ?

Je ne peux pas croire que l’on laissera tous les non-geeks se perdre dans leurs téléchargements épars, leurs boîtes de transfert, leurs documents transmis en pièce jointe… et leur donner raison sur le fait que tout ceci est un foutoir monumental.

1 réflexion au sujet de « Bibliothèque numérique, suite : extraction »