Ouvrir un chantier commun : sur un projet en digital humanities

Le colloque de la Society for Digital Humanities a été pour moi l’occasion de présenter les orientations qui ont guidé la mise en place du projet DÉCALCQ et du Laboratoire Ex situ. J’ai produit une version rédigée des notes qui m’ont servi à la présentation, disponible ici ; laprojection électronique est également accessible.

L’idée même de la diffusion des sources, des archives documentaires des projets de recherche sur la littérature et la culture québécoises est au cœur de cette réflexion, depuis les logiques qui s’affrontent au moment de gérer cette documentation jusqu’aux usages et enjeux qu’elle appelle. Dépôts institutionnels, valorisation des sources, open access, numérisation — bref, une certaine conception des digital humanities y est exprimée. Et bien du travail reste à faire pour modifier les perceptions et changer les usages.

(photo: « Construction Corner », mugley, licence CC)

Share

Perdre Goliath dans les nuages (surcoucher Google Books ?)

J’ai traversé, comme plusieurs, la synthèse précieuse d’Olivier Ertzscheid (sur affordance.info) à propos de Google Books. Bien des enjeux me dépassent (et nous dépassent). Mais j’ai accroché sur un point précis, qui relance mes réflexions périodiques sur la fonction de filtre dans la sphère internet et l’interface que constituent les chercheurs dans le rapport avec le savoir.

L’obstacle du Good Enough

Dans son article, Ertzscheid rappelle bien le principe gouvernant la numérisation et, de façon plus spécifique, l’établissement des métadonnées liées aux documents numérisés. Il a été démontré par plusieurs, et avec force, que les erreurs sont nombreuses, voire endémiques dans les métadonnées constituées par Google Books. Si le commun des mortels s’en balance un peu (hum, beaucoup), la communauté scientifique reste préoccupée, en raison de la précision déficiente des renseignements, de la perspective tronquée sur le corpus numérisé… Mais plusieurs s’en remettent à l’idée que c’est mieux que rien — c’est là ce que résume d’Ertzscheid.

Il poursuit néanmoins en y voyant là un enjeu politique (au sens large) :

La question est de savoir si ce rêve que l’humanité poursuit depuis son origine, c’est à dire offrir à tous et en un même lieu l’ensemble des connaissances disponibles, si ce rêve aujourd’hui à portée de souris doit se satisfaire d’un « pas trop mal » et d’un « mieux que rien ». A chacun de se déterminer. Mon avis ? Mon point de vue est qu’il faut se servir de la formidable opportunité offerte par Google pour renforcer le rôle de la prescription et de la médiation publique du savoir et de la connaissance. Je ne parle pas ici de prescription « publique » par opposition à une prescription « privée » mais bien par rapport à une prescription « commerciale ». Si le politique (cf supra) ne relève pas ce défi c’est sans ambage et sans lyrisme déplacé la mort programmée de la diversité culturelle, et peut-être même celle de l’éducation à la diversité. Pour le reste, cessons de rêver : on ne contrera plus Google sur la numérisation ni même sur le commerce des livres.

La résignation gagne les troupes : c’est David contre Goliath, et Goliath a vaincu sur un plan — le caractère massif de son aire d’occupation du territoire. Personne (ni même la BNF) n’arrivera à sa cheville en volume et en vitesse de numérisation. Mais l’insatisfaction reste, tant du point de vue des droits (le combat se poursuit) que du point de vue de la qualité de la documentation produite/rendue accessible. D’où cet appel à une prescription publique.

Une métadonnée en chasse une autre (la complète, en fait)

La question reste donc de définir cette prescription publique : il ne s’agit pas, comme le laisse comprendre Ertzscheid, de politiques et de lois, mais d’action collective. Au delà de l’utopie première, comment donner forme à cet engagement pour contrer Goliath ?

La question se pose plus facilement du point de vue technique et scientifique. Le problème de Google Books, notamment (!), c’est en quelque sorte de ne pas perdre des données (des volumes entiers) dans le néant… Tout bibliothécaire vous le dira : un livre mal classé ou mal indexé peut être perdu à jamais. C’est un cas extrême, mais néanmoins envisageable dans le spectre des erreurs liées aux métadonnées des livres numérisés. De façon plus commune, c’est de ne pas pouvoir accéder au livre recherché parce que mal associé (mauvais tags attribués), c’est d’avoir une information fautive sur un livre. Et « Google, tout en étant conscient de ces erreurs, « ne considère pas leur rectification comme prioritaire » » souligne Ertzscheid, à la suite de Geoffrey Numberg ; n’imaginons pas que G. nous laissera davantage jouer dans ses codes et nous laisser les rectifier.

À défaut d’agir directement sur la source du problème, pourrait-on la contourner ? Je m’amuse là à émettre une pure hypothèse (on voudra bien me dire si techniquement c’est réalisable). Il s’agirait d’ajouter une surcouche de métadonnées à Google Books, lesquelles seraient exactes, validées et utilisables par le discours scientifique. Par un effort commun, nous pourrions constituer une interface normalisée gérant les métadonnées de la documentation scientifique, laquelle serait accessible dans Google Books dans un second temps. Comme tous les volumes sont basés sur des protocoles standardisés (à tout le moins le classique ISBN), il serait aisé d’offrir des outils permettant d’interfacer GBooks… Par Zotero, par OpenLibrary, voire par LibraryThing, des communautés scientifiques pourraient surcoucher Goliath, et ainsi le laisser se perdre dans ses nuages. GBooks resterait évidemment une couche obligée (dépositaire du contenu numérique convoité), mais on n’y accéderait que dans un second temps, pour obtenir ce contenu brut.

Des limites, pour sûr : pas nécessairement accès aux requêtes dans les textes (encore que…), pas d’accès direct à la banque d’indexation, mais tout de même : la possibilité de gérer l’information, de baliser l’accès, de filtrer la documentation. Car l’enjeu s’y trouve : si les bibliothécaires se prêtent à la mutation de leurs fonctions, c’est tout à fait là qu’ils se trouvent — interface / filtre qui permet d’accompagner des usagers, des chercheurs, des lecteurs dans leur exploration du monde du savoir.

Hypothèse futile ? projet utopique ? Surcoucher Google Books, ce serait lui ajouter le fini qui lui manque (voire la crédibilité qui lui manque en contexte scientifique) : beau rêve, qui refuse la simple démonisation du projet (et l’hypocrisie d’un usage une fois le dos tourné) ; utopie collective à explorer… sous cette forme ou sous une autre.

Share

Google retire le projet Palimpsest

Peter Suber relaie l’information que Google met un terme à son projet (jamais vraiment lancé) Palimpsest, visant à héberger de larges quantités de données scientifiques. Google qui retire ses billes ?

« As you know, Google is a company that promotes experimentation with innovative new products and services. At the same time, we have to carefully balance that with ensuring that our resources are used in the most effective possible way to bring maximum value to our users, » wrote Robert Tansley of Google on behalf of the Google Research Datasets team to its internal testers.

Utilisation la plus efficace, viser la plus grande valeur : on parle des usagers ou du chiffre d’affaires de G. ? À l’évidence, la valeur commerciale importe plus que la valeur symbolique rattachée à cet hébergement (et au pouvoir lié à la masse des connaissances).

Share

L'expression « revue savante » ne s'accorde plus au singulier

On l’oublie trop souvent : la revue savante n’est pas tant un médium de transmission immédiate (on pourrait même dire, en caricaturant : n’est pas un médium d’actualité), mais bien un support voué à la pérennisation des savoirs. Publier un article en revue, c’est faire entrer dans la durée une réflexion, une enquête, une analyse, c’est les fixer pour qu’elles traversent le temps. Verba volant, scripta manent. Mais au régime de l’oralité volatile ou de l’écriture pérenne nos aïeux auraient-ils associé le web, cette écriture virtuelle…?

Avec la venue de la numérisation des revues savantes, c’est en fait à un rappel tonitruant de leur dimension archivale que nous sommes confrontés. Ici, le geste de transmettre et le geste d’archiver se confondent ? alors qu’autrefois, la revue était d’abord distribuée, lue comme on lit l’objet-livre, puis éventuellement archivée dans les rayons de la bibliothèque (« pour référence future »). Internet fusionne ces gestes auparavant distincts en une même démarche : publier en ligne. Que l’on lise le numéro récent ou tel numéro numérisé rétrospectivement, il n’y a aucune différence dans le geste lui-même, l’actualité de l’événement étant déclassée (sauf à travers certaines pratiques circum-éditoriales comme le communiqué ou le fil RSS).

Pour nous lecteurs, le plaisir de découvrir de nouvelles recherches, des problématiques originales par la consultation d’un nouveau numéro ne se dément pas pour autant; là n’est pas la question. Mais le numéro de revue électronique que l’on consulte, médiologiquement, est déjà une archive, est déjà placé dans le bon rayon de la bibliothèque virtuelle (qui l’entreposera jusqu’à ce que flanche l’infrastructure qui l’accueille!). Publier à l’ère du web, c’est de façon encore plus flagrante contribuer directement au patrimoine scientifique du monde.

* * *Si pendant plusieurs années, publier une revue en ligne relevait du pied de nez au processus éditorial commun, si cette pratique relevait par ailleurs de l’audace technologique et donc, par conséquent, de la marge, les temps ont bien changé. Depuis les expérimentations pionnières de projets comme Muse dès 1993, la conception de la publication électronique de revues savantes a évolué de façon importante, passant donc d’une forme expérimentale à un support complémentaire au papier, voire à un support pouvant très bien remplacer le papier. Ceci dans une logique ici ouverte, là (et plus souvent là) marchande et commerciale. Et cette prise de conscience s’accompagne des problèmes conséquents : un personnel non qualifié pour assurer l’édition électronique, des revues non équipées pour assurer le stockage numérique des archives.

S’ensuit une prise de contrôle à large échelle du savoir. À l’heure de la centralisation des connaissances, de larges conglomérats se développent pour assurer/faciliter cette transition. Et où il faut bien saisir les enjeux posés par ce geste : non pas simplement agir comme partenaires pour la transmission du savoir, mais aussi, par le fait même, pour l’archivage de ce savoir ? car on le sait maintenant ces deux gestes sont à peu près indissociables.

Suivant cette logique, des entités énormes émergent autour de nous. Le projet Érudit, d’abord centré sur la publication numérique, poursuit son travail par de la numérisation rétrospective. Si ce projet était questionnable par son fonctionnement (un dépôt OAI fermé, une interface unique pour des dizaines de revues, une DTD spécifique, une orientation plutôt commerciale), il semble trouver un nouvel élan par son affiliation au large projet Synergies, dirigé par Michael Eberle-Sinatra, projet qui a été récemment subventionné de façon importante (plus d’une dizaine de millions $CAN). Indices de cette possible ouverture : mobilisation du logiciel Open Journal Systems développé à UBC, mise en place d’un moteur de recherche commun à 170 revues scientifiques en SHS subventionnées par le CRSH, accès majoritairement gratuit (euh, quid de la visée commerciale mise en place par Érudit? cette « majorité » vise-t-elle les archives de plus de 2 ou 5 ans?). Projet longuement mûri dans les coulisses du CRSH (ici, ou encore , il répond à un impératif tant scientifique que national (la FCI étant un organisme visant à propulser la recherche canadienne au niveau international).

Il faudra voir comment le projet Synergies se placera par rapport aux recommandations des rapports produits sur la question de la numérisation : centralisation des données ou protocole assurant l’interopératibilité ? Le projet pourrait sembler se situer entre les deux, cinq universités partenaires assurant le fonctionnement. Seront-elles les dépositaires des contenus produits? Rappelons pour mémoire l’une des recommandations du rapport Chan-Groen-Guédon (« Étude de faisabilité sur la publication en accès libre des revues bénéficiant de l?aide pour les revues de recherche et de transfert du CRSH »), à savoir la recommandation pour des dépôts institutionnels (plutôt que centralisés par un organisme agrégateur) :

en ce qui concerne les dépôts institutionnels (organes d?’archivage) : que le CRSH collabore avec l?’ABRC (Association des bibliothèques de recherche du Canada) (et autres associations de même type) à la promotion et au développement des dépôts institutionnels, afin d’?assurer leur interopérabilité et d?’améliorer leur rôle dans la conservation du patrimoine savant canadien. Le CRSH devrait également envisager de travailler de concert avec l?’AUCC ainsi qu’?avec la Fédération canadienne des sciences humaines en vue d?’appuyer l?’auto-archivage à l’?échelon des établissements

(En ce sens, on renverra aux projets d’archivage développés par les institutions ; à titre d’exemple, Archimède et Papyrus.)

Si la situation canadienne se trouve ainsi en piste d’accélération pour la numérisation des revues savantes, la France n’est pas en reste. Longtemps en position incertaine, avec la cohabitation de projets semi-apparentés mais clairement concurrents (Persée, le CENS du CNRS, le projet Revues.org…), elle tend tranquillement à mettre en place une stratégie plus construite. En témoigne la mise en place récente du très grand équipement Adonis, en partenariat avec le Centre pour l’édition électronique ouverte (CLEO) à créer bientôt. La fédération de revues Revues.org s’y trouve rattachée (avalée?). Persée demeure toujours concurrente, mais avec une mission légèrement distincte.

Dans cet esprit émergeront également des projets encore plus larges, à l’instar de Scientific Journals International, avec une prétention encyclopédique discutable, ne serait-ce que par le rattachement et les visées un peu obscurs de cette entreprise.

En fin de course, il faut prendre en considération l’aspect symbolique de ces projets. Qui dit archivage dit possession ? et pouvoir. L’économie du savoir dans laquelle nous sommes pousse à prendre position, afin de se tailler une place dans l’échiquier actuel. C’est à coup de bulldozers et de dynamite que les gros projets émergents établissent leurs fondations. Espérons que les projets singuliers ne seront pas considérés comme des pièces à absorber, qu’ils pourront persister à leurs côtés, voire dynamiser ces énormes ensembles par définition monolithiques et uniformisants.

Share