Les Digital Humanities et la question de l’annotation collaborative

Du 16 au 22 juil­let 2012 se tenait à Ham­bourg le grand col­loque annuel des Dig­i­tal Human­i­ties. Par­mi les ateliers/conférences, 6 ont abor­dé la ques­tion de l’an­no­ta­tion. J’en retiendrai surtout trois, qui trait­ent de l’an­no­ta­tion comme “mar­que de lec­ture” et non pas dans le sens de “méta­don­nées” (le mot “anno­ta­tion est en effet ambiguë en anglais).

Annoter, visualiser : le projet du MIT

La présen­ta­tion du pre­mier pro­jet, ancrée dans la théorie lit­téraire, rap­pelle d’abord les avan­tages et les fonc­tions de l’an­no­ta­tion, d’un point de vue per­son­nel (bal­is­age, prospec­tion, asso­ci­a­tions, liens, proces­sus de lec­ture, etc.) et col­lec­tif (instruc­tif, distrayant, influ­ence sur l’in­ter­pré­ta­tion, etc.) pour con­venir, dans la per­spec­tive de Wolf­gang Iser1L’autre grand nom, avec Jauss, de l’Ecole de Con­stance dont L’ap­pel du texte vient d’être réédité, qu’un texte se déploie dans l’acte de la lec­ture, c’est-à-dire qu’il est actu­al­isé par un lecteur. Autrement dit : la lec­ture, ce n’est pas qu’une ren­con­tre entre un texte et un lecteur, c’est un proces­sus qui définit ce texte poten­tiel comme texte par­ti­c­uli­er. Ce que les traces dans les livres per­me­t­tent de con­firmer.

Mais com­ment ren­dre vis­i­ble et intel­li­gi­ble — pour d’autres lecteurs — cet acte de lec­ture ? À par­tir de quels out­ils pour­rait-on mon­tr­er le par­cours d’un lecteur, ses choix, ses hési­ta­tions non seule­ment dans un texte mais, en plus, entre plusieurs textes, vidéos, images de manière à for­mer un “tis­su” ?

Un groupe de tra­vail pluridis­ci­plinaire du lab­o­ra­toire de Dig­i­tal Human­i­ties du MIT (Hyper­Stu­dio) s’est penché sur ces ques­tions. Le lab­o­ra­toire a mis en place un out­il de pro­duc­tion et de visu­al­i­sa­tion des anno­ta­tions qui per­met non seule­ment de représen­ter visuelle­ment et de façon struc­turée les élé­ments con­tenus dans un texte mais égale­ment de les pro­jeter dans des graphes qui don­nent à lire les inter­ac­tions sur une seule page et dans un livre entier entre un lecteur et un texte. Ces out­ils doivent don­ner les moyens de lire la lec­ture et de s’ap­puy­er sur elle pour nav­iguer dans le texte.

La visualisation des textes

Les réflex­ions sur la visu­al­i­sa­tion menées par le MIT ont été influ­encées par de nom­breux pro­jets :

  • Tal­mud Project : présen­té en 1999 au musée Coop­er-Hemitt, le “Tal­mud Project” de David Small per­me­t­tait aux vis­i­teurs de suiv­re les rela­tions entre des textes de la Torah et du Tal­mud, de manip­uler des blocs de textes et de com­par­er leurs mul­ti­ples tra­duc­tions (en anglais, en français).
  • Chronos Time­line : out­il dévelop­pé par le MIT, Chronos Time­line per­met aux uni­ver­si­taires de représen­ter des événe­ments sur des fris­es chronologiques, de manière dynamique et flex­i­ble (tags, sujets, etc.).
  • Many Eyes : plusieurs exem­ples de visu­al­i­sa­tion de don­nées réal­isés par IBM.
  • Voy­ant : out­il con­nu des uni­ver­si­taire, utile pour analyser le lex­ique d’un texte, en révéler les occur­rences bref, génér­er des don­nées et les visu­alis­er.
  • Google Ngram View : appli­ca­tion lin­guis­tique pro­posée par Google, per­me­t­tant d’observer l’évolution de la fréquence d’un ou de plusieurs mots ou groupe de mots à tra­vers le temps dans les sources imprimées” (Wikipedia)

Mais si ces out­ils, note l’équipe, lui a per­mis d’analyser les aspects lin­guis­tiques du tra­vail d’un auteur, ils sont lim­ités, quand il s’ag­it de com­pren­dre le rap­port qu’en­tre­tient un lecteur avec ce tra­vail. C’est pour répon­dre à ce prob­lème que le MIT développe depuis peu Anno­ta­tion­Stu­dio avec la méth­ode agile (tous les acteurs — étu­di­ants, pro­fesseurs, design­ers, etc. — sont impliqués à dif­férentes stades de pro­duc­tion).

L’équipe a con­science que de très nom­breux out­ils d’an­no­ta­tion exis­tent aujour­d’hui. Mais aucun, d’après elle, ne per­met d’an­not­er avec du con­tenu “mul­ti­me­dia”, de mesur­er les rela­tions entre dif­férents textes grâce aux liens et aux tags et de visu­alis­er toutes ces pro­duc­tions.

Catégoriser les annotations

Le stu­dio du MIT four­nit quelques cap­tures d’écran pour com­pren­dre com­ment tout cela fonc­tionne (on peut aus­si tester l’outil). Vous pou­vez évidem­ment surlign­er du texte et appos­er une anno­ta­tion. Inno­va­tion : les anno­ta­tions sont caté­goris­ables, c’est-à-dire qu’une case est prévue pour les anno­ta­tions-tags ou les anno­ta­tions-com­men­taires.

hyperstudio-annotation-mit-texte

Si, par exem­ple, je classe tel pas­sage de Moby Dick sous le tag “Belle descrip­tion” et que je fais de même avec un pas­sage d’un autre livre, je pour­rai automa­tique­ment retrou­ver tous les pas­sages sous cette appel­la­tion. On retrou­ve ici un geste humaniste2Châtelain Jean-Marc, 1999, “Human­isme et cul­ture de la note”, Le Livre annoté, Revue de la Bib­lio­thèque nationale de France, p. 26–37.qui con­sis­tait à class­er sous des thé­ma­tiques des frag­ments de textes.

La marge, lieu de recueillement des productions

L’ensem­ble des anno­ta­tions pro­duites est visu­al­is­able dans la colonne de droite. La marge appa­raît clas­sique­ment comme le lieu de recueille­ment des anno­ta­tions qui sont enten­dus dans un sens large et com­pren­dre ain­si liens, cartes, pho­tos, vidéos :

annotation-mit-photos-videos

Il reste au MIT à tra­vailler la ques­tion de la visu­al­i­sa­tion des anno­ta­tions, de l’e­space d’ad­min­is­tra­tion (ges­tion des tags, etc.), des rela­tions entre les dif­férents anno­ta­teurs, du découpage textuel et de la cir­cu­la­tion des frag­ments.

Utiliser Wikipedia pour le “crowd-sourcing”

Erik Ket­zan reve­nait quant à lui (“Crowd-sourc­ing the Analy­sis and Anno­ta­tion of Pyn­chon, Eco and Oth­ers) sur deux ini­tia­tives menées sur Wikipé­dia : l’an­no­ta­tion d’un texte d’Um­ber­to Eco (La Mis­te­riosa Fiamma del­la Regi­na Loana) et d’un autre de Pin­chon.

Lever les ambiguïtés d’un texte d’Umberto Eco

Selon Erik Ket­zan, Eco se prête bien à ce genre d’ex­péri­ence : il mul­ti­plie telle­ment les cita­tions non sour­cées et les allu­sions qu’un tra­vail d’an­no­ta­tion est néces­saire, pour déjouer ces dif­fi­cultés, inscrire le texte dans une cul­ture textuelle (la cita­tion ren­due vis­i­ble, etc.) afin de le domes­ti­quer, de l’ac­tu­alis­er pour la ren­dre lis­i­ble auprès des jeunes généra­tions ou de le lier à d’autres textes, de manière à révéler les thèmes qui tra­vail­lent son oeu­vre ou de mesur­er, dans leurs inter­valles, un espace nou­veau de com­préhen­sion.

Suc­cès mod­este pour l’opéra­tion : une douzaine d’an­no­ta­teurs ont par­ticipé à l’opéra­tion. Mais ils ont man­i­feste­ment réal­isé un tra­vail remar­quable d’édi­to­ri­al­i­sa­tion en rel­e­vant et com­men­tant cha­cune des références his­toriques, lit­téraires, artis­tiques présentes dans le texte d’Um­ber­to Eco.

Edition critique et index alphabétique : l’opération Pynchon

La sec­onde ini­tia­tive fut menée sur un roman de l’au­teur améri­cain Thomas Pyn­chon. En 2006, l’un de ses lecteurs (Tim Ware) dépor­ta toutes ses notes pro­duites à par­tir d’un roman de Pyn­chon vers un wiki qu’il appela Pynchonwiki.com. Erik Ket­zan rejoignit alors ce lecteur et com­mença à pro­duire ses pro­pres anno­ta­tions page par page.

Deux chercheurs (Ralph Schroed­er and Matthi­js den Besten) ont noté dans leur arti­cle le suc­cès de l’opéra­tion : 235 con­tribu­teurs ont pro­duit 450 000 mots (ce qui n’indique pas vrai­ment grand chose) et notam­ment 1350 entrées d’un index alphabé­tique (plus intéres­sant : on con­naît ici la nature des opéra­tions menées à par­tir des 450 000 mots).

Le tra­vail mené par ce groupe d’an­no­ta­teurs est impres­sion­nant : c’est une véri­ta­ble édi­tion cri­tique de l’oeu­vre de Pyn­chon qu’ils pro­posent (plusieurs romans ont été annotés depuis). Si l’on prend par exem­ple le dernier roman de cet auteur (Inher­ent Vice), on a non seule­ment droit un relevé sys­té­ma­tique de tous les mots sus­cep­ti­bles de pos­er prob­lème (page par page ; tous les élé­ments para­textuels — cou­ver­ture, titres, etc. — sont analysés), mais en plus à un index alphabé­tique qui recense l’ensem­ble des mots com­men­tés.

La suite : développer des normes de pointage communes

Depuis, Erik a lancé une page sur Wikipedia : Literarywiki.com, où il explique la méth­ode envis­agée (anno­ta­tions page par page, con­struc­tion d’un index alphabé­tique, time­line, etc.) et liste un cer­tain nom­bre de textes à annot­er (Bur­roughs, Wal­lace, etc.).

La via­bil­ité du pro­jet inter­roge : les anno­ta­tions se réfèrent par­fois  à des emplace­ments, c’est-à-dire à la norme de référence­ment du Kin­dle…Ce tra­vail n’est pas sta­ble : que le Kin­dle dis­paraisse demain, et tout le tra­vail effec­tué n’au­ra plus de sens. Il devient donc urgent de dévelop­per des normes de pointage com­pa­ra­bles à celle de la Bible (Livre I, Chapitre II, Ver­set 3, etc.), qui per­me­t­trait de se pass­er des normes spé­ci­fiques à chaque édi­tion pour assur­er la cir­cu­la­tion et la trans­mis­sion des oeu­vres dans de bonnes con­di­tions.

Des groupes d’annotateurs hiérarchisés

Le dernier pro­jet (“A flex­i­ble mod­el for the col­lab­o­ra­tive anno­ta­tion of dig­i­tized lit­er­ary works) s’in­scrit dans les travaux et les expéri­men­ta­tions menés depuis une dizaine d’an­nées sur l’an­no­ta­tion col­lab­o­ra­tive, qui a don­né lieu à d’in­nom­brables out­ils pro­fes­sion­nels.

Le pro­jet @Note 1.0, menée par l’U­ni­ver­sité Com­plutense de Madrid et présen­tée lors de cette con­férence, est une ten­ta­tive pour don­ner au lecteur une prise sur les col­lec­tions numérisées par Google. Après la numéri­sa­tion de ses 100 000 vol­umes, l’U­ni­ver­sité s’est ren­du compte qu’ils étaient inex­ploita­bles : l’an­no­ta­tion, élé­ment indis­pens­able d’ap­pro­pri­a­tion de l’in­for­ma­tion, était dif­fi­cile voire impos­si­ble.

Des groupes de travail hiérarchisés

@Note 1.0 se dis­tingue des autres mod­èles en ceci qu’il favorise la pro­duc­tion d’an­no­ta­tions col­lab­o­ra­tives par une com­mu­nauté hiérar­chisée de chercheurs/enseignants/étudiants :

annotation-digital-humanities

Schémas d’annotations et manipulations

Plusieurs niveaux et acteurs sont dis­tin­gués :

  • Anno­ta­tion man­age­ment com­mu­ni­ties” (en haut à gauche) désigne des groupes d’an­no­ta­teurs experts (chercheurs, pro­fesseurs) chargés d’animer les activ­ités des étu­di­ants et de sélec­tion­ner les doc­u­ments à annot­er.
  • Anno­ta­tion com­mu­ni­ties” (à côté à droite) désigne au con­traire les groupes d’an­no­ta­teurs (les étu­di­ants) dirigés.
  • Work” (au cen­tre) désigne les textes lit­téraires anno­ta­bles.
  • Anno­ta­tion activ­i­ty” (en haut au cen­tre) désigne deux types d’ac­tiv­ité : annot­er le texte lit­téraire (“work-ori­ent­ed schema”); annot­er une autre anno­ta­tion (“met­alev­el-ori­ent­ed schema”), indis­pens­able dans le cas des échanges-répons­es-dis­cus­sions entre étudiants/professeurs.
  • Anno­ta­tion” (en-dessous) est com­posé de 3 élé­ments : l’an­cre (la région vers laque­lle pointe l’an­no­ta­tion) ; le con­tenu de l’an­no­ta­tion (son “body”) ; sa descrip­tion séman­tique selon sa nature (anno­ta­tion type/annotation cat­e­go­ry).

Les sché­mas sont mod­i­fi­ables selon les buts envis­agés. Par “sché­ma”, il faut enten­dre une struc­ture, un cadre de tra­vail choisi par un expert qui ori­ente les actions menées par les mem­bres d’un groupe de tra­vail. Les fonc­tion­nal­ités vari­ent selon le statut des anno­ta­teurs. Par exem­ple, tous les experts peu­vent mod­i­fi­er la nature d’une anno­ta­tion (type/category) mais seul celui qui a crée le sché­ma a le droit de le ren­dre pub­lic ou privé. Les anno­ta­teurs-étu­di­ants, eux, peu­vent seule­ment ajouter de nou­veaux types et de nou­velles caté­gories.

L’in­térêt de @Note est  de per­me­t­tre l’an­no­ta­tion col­lab­o­ra­tive de textes lit­téraires dans des groupes hiérar­chisés etde favoris­er la créa­tion col­lec­tive-col­lab­o­ra­tive de struc­tures d’ac­tions qui vont chang­er la manière dont le texte sera étudié. Testé auprès des étu­di­ants de l’U­ni­ver­sité espag­nole, @Note a sem­ble-t-il con­va­in­cu : ses util­isa­teurs ont noté sa flex­i­bil­ité et l’in­térêt de pou­voir créer des sché­mas d’ac­tiv­ité en fonc­tion des buts envis­agés.

Prochaines étapes du pro­jet : créer un espace de tra­vail mul­ti­lingues, con­necter @Note à d’autres bib­lio­thèques (Hathi Trust), per­me­t­tre aux étu­di­ants de con­stituer leurs pro­pres cat­a­logues et réu­tilis­er leurs anno­ta­tions dans des édi­tions cri­tiques, assur­er l’in­téropéra­bil­ité des don­nées mal­gré la diver­sité des normes en vigueur. 

Notes   [ + ]

1. L’autre grand nom, avec Jauss, de l’Ecole de Con­stance dont L’ap­pel du texte vient d’être réédité
2. Châtelain Jean-Marc, 1999, “Human­isme et cul­ture de la note”, Le Livre annoté, Revue de la Bib­lio­thèque nationale de France, p. 26–37.