Les Digital Humanities et la question de l’annotation collaborative

Du 16 au 22 juillet 2012 se tenait à Hambourg le grand colloque annuel des Digital Humanities. Parmi les ateliers/conférences, 6 ont abordé la question de l'annotation. J'en retiendrai surtout trois, qui traitent de l'annotation comme "marque de lecture" et non pas dans le sens de "métadonnées" (le mot "annotation est en effet ambiguë en anglais).

Annoter, visualiser : le projet du MIT

La présentation du premier projet, ancrée dans la théorie littéraire, rappelle d'abord les avantages et les fonctions de l'annotation, d'un point de vue personnel (balisage, prospection, associations, liens, processus de lecture, etc.) et collectif (instructif, distrayant, influence sur l'interprétation, etc.) pour convenir, dans la perspective de Wolfgang Iser1L'autre grand nom, avec Jauss, de l'Ecole de Constance dont L'appel du texte vient d'être réédité, qu'un texte se déploie dans l'acte de la lecture, c'est-à-dire qu'il est actualisé par un lecteur. Autrement dit : la lecture, ce n'est pas qu'une rencontre entre un texte et un lecteur, c'est un processus qui définit ce texte potentiel comme texte particulier. Ce que les traces dans les livres permettent de confirmer.

Mais comment rendre visible et intelligible - pour d'autres lecteurs - cet acte de lecture ? À partir de quels outils pourrait-on montrer le parcours d'un lecteur, ses choix, ses hésitations non seulement dans un texte mais, en plus, entre plusieurs textes, vidéos, images de manière à former un "tissu" ?

Un groupe de travail pluridisciplinaire du laboratoire de Digital Humanities du MIT (HyperStudio) s'est penché sur ces questions. Le laboratoire a mis en place un outil de production et de visualisation des annotations qui permet non seulement de représenter visuellement et de façon structurée les éléments contenus dans un texte mais également de les projeter dans des graphes qui donnent à lire les interactions sur une seule page et dans un livre entier entre un lecteur et un texte. Ces outils doivent donner les moyens de lire la lecture et de s'appuyer sur elle pour naviguer dans le texte.

La visualisation des textes

Les réflexions sur la visualisation menées par le MIT ont été influencées par de nombreux projets :

  • Talmud Project : présenté en 1999 au musée Cooper-Hemitt, le "Talmud Project" de David Small permettait aux visiteurs de suivre les relations entre des textes de la Torah et du Talmud, de manipuler des blocs de textes et de comparer leurs multiples traductions (en anglais, en français).
  • Chronos Timeline : outil développé par le MIT, Chronos Timeline permet aux universitaires de représenter des événements sur des frises chronologiques, de manière dynamique et flexible (tags, sujets, etc.).
  • Many Eyes : plusieurs exemples de visualisation de données réalisés par IBM.
  • Voyant : outil connu des universitaire, utile pour analyser le lexique d'un texte, en révéler les occurrences bref, générer des données et les visualiser.
  • Google Ngram View : "application linguistique proposée par Google, permettant d’observer l’évolution de la fréquence d’un ou de plusieurs mots ou groupe de mots à travers le temps dans les sources imprimées" (Wikipedia)

Mais si ces outils, note l'équipe, lui a permis d'analyser les aspects linguistiques du travail d'un auteur, ils sont limités, quand il s'agit de comprendre le rapport qu'entretient un lecteur avec ce travail. C'est pour répondre à ce problème que le MIT développe depuis peu AnnotationStudio avec la méthode agile (tous les acteurs - étudiants, professeurs, designers, etc. - sont impliqués à différentes stades de production).

L'équipe a conscience que de très nombreux outils d'annotation existent aujourd'hui. Mais aucun, d'après elle, ne permet d'annoter avec du contenu "multimedia", de mesurer les relations entre différents textes grâce aux liens et aux tags et de visualiser toutes ces productions.

Catégoriser les annotations

Le studio du MIT fournit quelques captures d'écran pour comprendre comment tout cela fonctionne (on peut aussi tester l'outil). Vous pouvez évidemment surligner du texte et apposer une annotation. Innovation : les annotations sont catégorisables, c'est-à-dire qu'une case est prévue pour les annotations-tags ou les annotations-commentaires.

hyperstudio-annotation-mit-texte

Si, par exemple, je classe tel passage de Moby Dick sous le tag "Belle description" et que je fais de même avec un passage d'un autre livre, je pourrai automatiquement retrouver tous les passages sous cette appellation. On retrouve ici un geste humaniste2Châtelain Jean-Marc, 1999, "Humanisme et culture de la note", Le Livre annoté, Revue de la Bibliothèque nationale de France, p. 26-37.qui consistait à classer sous des thématiques des fragments de textes.

La marge, lieu de recueillement des productions

L'ensemble des annotations produites est visualisable dans la colonne de droite. La marge apparaît classiquement comme le lieu de recueillement des annotations qui sont entendus dans un sens large et comprendre ainsi liens, cartes, photos, vidéos :

annotation-mit-photos-videos

Il reste au MIT à travailler la question de la visualisation des annotations, de l'espace d'administration (gestion des tags, etc.), des relations entre les différents annotateurs, du découpage textuel et de la circulation des fragments.

Utiliser Wikipedia pour le "crowd-sourcing"

Erik Ketzan revenait quant à lui ("Crowd-sourcing the Analysis and Annotation of Pynchon, Eco and Others") sur deux initiatives menées sur Wikipédia : l'annotation d'un texte d'Umberto Eco (La Misteriosa Fiamma della Regina Loana) et d'un autre de Pinchon.

Lever les ambiguïtés d'un texte d'Umberto Eco

Selon Erik Ketzan, Eco se prête bien à ce genre d'expérience : il multiplie tellement les citations non sourcées et les allusions qu'un travail d'annotation est nécessaire, pour déjouer ces difficultés, inscrire le texte dans une culture textuelle (la citation rendue visible, etc.) afin de le domestiquer, de l'actualiser pour la rendre lisible auprès des jeunes générations ou de le lier à d'autres textes, de manière à révéler les thèmes qui travaillent son oeuvre ou de mesurer, dans leurs intervalles, un espace nouveau de compréhension.

Succès modeste pour l'opération : une douzaine d'annotateurs ont participé à l'opération. Mais ils ont manifestement réalisé un travail remarquable d'éditorialisation en relevant et commentant chacune des références historiques, littéraires, artistiques présentes dans le texte d'Umberto Eco.

Edition critique et index alphabétique : l'opération Pynchon

La seconde initiative fut menée sur un roman de l'auteur américain Thomas Pynchon. En 2006, l'un de ses lecteurs (Tim Ware) déporta toutes ses notes produites à partir d'un roman de Pynchon vers un wiki qu'il appela Pynchonwiki.com. Erik Ketzan rejoignit alors ce lecteur et commença à produire ses propres annotations page par page.

Deux chercheurs (Ralph Schroeder and Matthijs den Besten) ont noté dans leur article le succès de l'opération : 235 contributeurs ont produit 450 000 mots (ce qui n'indique pas vraiment grand chose) et notamment 1350 entrées d'un index alphabétique (plus intéressant : on connaît ici la nature des opérations menées à partir des 450 000 mots).

Le travail mené par ce groupe d'annotateurs est impressionnant : c'est une véritable édition critique de l'oeuvre de Pynchon qu'ils proposent (plusieurs romans ont été annotés depuis). Si l'on prend par exemple le dernier roman de cet auteur (Inherent Vice), on a non seulement droit un relevé systématique de tous les mots susceptibles de poser problème (page par page ; tous les éléments paratextuels - couverture, titres, etc. - sont analysés), mais en plus à un index alphabétique qui recense l'ensemble des mots commentés.

La suite : développer des normes de pointage communes

Depuis, Erik a lancé une page sur Wikipedia : Literarywiki.com, où il explique la méthode envisagée (annotations page par page, construction d'un index alphabétique, timeline, etc.) et liste un certain nombre de textes à annoter (Burroughs, Wallace, etc.).

La viabilité du projet interroge : les annotations se réfèrent parfois  à des emplacements, c'est-à-dire à la norme de référencement du Kindle...Ce travail n'est pas stable : que le Kindle disparaisse demain, et tout le travail effectué n'aura plus de sens. Il devient donc urgent de développer des normes de pointage comparables à celle de la Bible (Livre I, Chapitre II, Verset 3, etc.), qui permettrait de se passer des normes spécifiques à chaque édition pour assurer la circulation et la transmission des oeuvres dans de bonnes conditions.

Des groupes d'annotateurs hiérarchisés

Le dernier projet ("A flexible model for the collaborative annotation of digitized literary works") s'inscrit dans les travaux et les expérimentations menés depuis une dizaine d'années sur l'annotation collaborative, qui a donné lieu à d'innombrables outils professionnels.

Le projet @Note 1.0, menée par l'Université Complutense de Madrid et présentée lors de cette conférence, est une tentative pour donner au lecteur une prise sur les collections numérisées par Google. Après la numérisation de ses 100 000 volumes, l'Université s'est rendu compte qu'ils étaient inexploitables : l'annotation, élément indispensable d'appropriation de l'information, était difficile voire impossible.

Des groupes de travail hiérarchisés

@Note 1.0 se distingue des autres modèles en ceci qu'il favorise la production d'annotations collaboratives par une communauté hiérarchisée de chercheurs/enseignants/étudiants :

annotation-digital-humanities

Schémas d'annotations et manipulations

Plusieurs niveaux et acteurs sont distingués :

  • "Annotation management communities" (en haut à gauche) désigne des groupes d'annotateurs experts (chercheurs, professeurs) chargés d'animer les activités des étudiants et de sélectionner les documents à annoter.
  • "Annotation communities" (à côté à droite) désigne au contraire les groupes d'annotateurs (les étudiants) dirigés.
  • "Work" (au centre) désigne les textes littéraires annotables.
  • "Annotation activity" (en haut au centre) désigne deux types d'activité : annoter le texte littéraire ("work-oriented schema"); annoter une autre annotation ("metalevel-oriented schema"), indispensable dans le cas des échanges-réponses-discussions entre étudiants/professeurs.
  • "Annotation" (en-dessous) est composé de 3 éléments : l'ancre (la région vers laquelle pointe l'annotation) ; le contenu de l'annotation (son "body") ; sa description sémantique selon sa nature (annotation type/annotation category).

Les schémas sont modifiables selon les buts envisagés. Par "schéma", il faut entendre une structure, un cadre de travail choisi par un expert qui oriente les actions menées par les membres d'un groupe de travail. Les fonctionnalités varient selon le statut des annotateurs. Par exemple, tous les experts peuvent modifier la nature d'une annotation (type/category) mais seul celui qui a crée le schéma a le droit de le rendre public ou privé. Les annotateurs-étudiants, eux, peuvent seulement ajouter de nouveaux types et de nouvelles catégories.

L'intérêt de @Note est  de permettre l'annotation collaborative de textes littéraires dans des groupes hiérarchisés etde favoriser la création collective-collaborative de structures d'actions qui vont changer la manière dont le texte sera étudié. Testé auprès des étudiants de l'Université espagnole, @Note a semble-t-il convaincu : ses utilisateurs ont noté sa flexibilité et l'intérêt de pouvoir créer des schémas d'activité en fonction des buts envisagés.

Prochaines étapes du projet : créer un espace de travail multilingues, connecter @Note à d'autres bibliothèques (Hathi Trust), permettre aux étudiants de constituer leurs propres catalogues et réutiliser leurs annotations dans des éditions critiques, assurer l'intéropérabilité des données malgré la diversité des normes en vigueur. 

Notes   [ + ]

1. L'autre grand nom, avec Jauss, de l'Ecole de Constance dont L'appel du texte vient d'être réédité
2. Châtelain Jean-Marc, 1999, "Humanisme et culture de la note", Le Livre annoté, Revue de la Bibliothèque nationale de France, p. 26-37.