QUOI
Saviez-vous que vous contribuez à la numérisation d’ouvrages anciens en vous connectant sur les sites web ?
POURQUOI
J’ai eu envie d’écrire cet article pour vous montrer que même les opérations informatiques quotidiennes et insignifiantes ne sont en fait pas insignifiantes… Vous avez sans doute déjà entendu le terme “CAPTCHA”. Celui-ci signifie “Completely Automated Public Turing test to tell Computers and Humans Apart” (soit “Test de Turing totalement automatisé pour distinguer les humains des machines” en Français). Vous savez, il s’agit d’un moyen pour authentifier, lorsque vous vous connectez sur un site, que vous êtes un humain, et non un robot (et donc d’éviter le spamming, le téléchargement massif de données qui affaiblirait le débit pour les autres utilisateurs, etc.).
L’idée du reCAPTCHA1 est d’utiliser l’authentification humaine sur les sites via la technologie du CAPTCHA pour répondre à un besoin qui n’a à première vue rien à voir, à savoir : OCRiser des livres anciens !!! (OCR pour “Optical Character Recognition” signifie la traduction en caractères “numériques” (ex : jeu de caractères UTF-8) de caractères imprimés sur papier ou numérisés en tant qu’image). En clair : transformer un vieux papier endommagé (et peut-être même écrit à la main) en un fichier informatique.
Effectivement, numériser les fonds anciens présente de nombreux avantages culturels (tout le monde peut accéder simultanément au même ouvrage quand bien même celui-ci n’existe qu’en un unique exemplaire papier, et la consultation de cet ouvrage ne le détériore pas…) et de ce fait, des opérations de numérisation de masse ont été entreprises depuis le début des années 2000.
Cependant, pour les fonds anciens, l’OCRisation automatique est compliquée : de fait les machines ont du mal à reconnaître les caractères imprimés, car ceux-ci ne sont pas réguliers (du fait de la détérioration du papier et de l’encre avec le temps)… un peu comme dans un CAPTCHA…
COMMENT
Côté utilisateur, les captchas se présentent souvent sous la forme d’une image contenant une série de caractères alphanumériques légèrement distordus, d’un champ texte dans lequel le visiteur du site doit taper la série de caractères présente dans l’image et d’un bouton permettant de valider la saisie manuelle de l’utilisateur. Sur l’image, les caractères sont suffisamment peu distordus pour permettre à un être humain de reconnaître ceux-ci, mais le sont suffisamment pour ne pas l’être par une machine. Côté administrateur du site, l’image est liée à sa version textuelle (l’information est enregistrée dans une base de données), et lorsqu’elle est soumise à l’utilisateur, le site compare la réponse de celui-ci avec la version textuelle en mémoire du CAPTCHA : si la comparaison est satisfaisante, le site autorise l’humain à s’y connecter; dans le cas contraire, un nouveau CAPTCHA est soumis à l’utilisateur.
L’idée de reCAPTCHA est somme toute d’une simplicité enfantine : faire traduire les fonds anciens… par les humains !!! lorsqu’ils s’authentifient en tant qu’êtres humains pour se connecter sur les sites web !!!
L’idée est rendue possible par le nombre très importants de sites web utilisant des CAPTCHAs et donc du nombre très important d’authentifications humaines quotidiennes, qui permet, littéralement, de traduire les fonds anciens mot à mot. Le mécanisme est le suivant : un reCAPTCHA est composé de deux mots : le premier est un CAPTCHA classique, permettant de savoir si l’entité faisant le test est humain ou non (il l’est s’il arrive à résoudre le CAPTCHA), le deuxième est l’image d’un mot tiré d’un livre ancien. Si l’entité a réussi à traduire le premier mot, elle est habilitée à se connecter au site, et la traduction qu’elle donne du deuxième mot est conservée en mémoire. Si plusieurs “humains” traduisent la même image de livre ancien de la même manière, leur traduction est “validée” et la numérisation du livre a avancé2.
CE QU’ON PEUT EN FAIRE
De cette manière, sur la seule année 2009, 20 ans d’archives du New York Times ont été numérisés3 avec une fiabilité supérieure à 99%.1
Voilà un bel exemple de collaboration homme-machine !
NOTES
1■ Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham et Manuel Blum, « reCAPTCHA: Human-Based Character Recognition via Web Security Measures », Science, vol. 321, no 5895, 12 septembre 2008, p. 1465-1468 [Article du journal Science sur reCAPTCHA]