reCAPTCHA : un système anti-spam qui numérise les livres

Vous avez sûrement déjà croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire. Mais saviez-vous que ce système permet de manière astucieuse de numériser des milliers de livres papier grâce à votre propre contribution ? En effet, sur les 2 mots que vous tapez, un seul est connu et vérifié.

L'autre n'est pas connu, mais en le proposant à des centaines d'internautes différents et en ayant toujours la même réponse de leur part, le système sait alors que l'association entre ce qui a été scanné et ce qui a été tapé par les internautes est correct. Et voilà comment on arrive à numériser des milliers d'ouvrages avec un système antispam ! L'OCR (système de reconnaissance des caractères automatique par informatique) n'est aujourd'hui pas assez au point pour être suffisamment fiable. En utilisant le cerveau humain, on arrive à de bien meilleurs résultats. Le slogan de la société (qui a été rachetée par Google) incarne bien le fonctionnement de ce système : "stop spam, read books".

Tous les commentaires (107)

CptCook

Ceci explique le fait que même si l on écrit mal l un des deux mots, notre saisie est parfois acceptée. Je comprend mieux du coup!

oliamed

Mais alors si cest pour les aider a numeriser des livres comment savent tils si on a mis les bonnes lettres ??? Busted

valdu14

je me disais justement que c'était étrange d'écrire des mots qui n'avait aucun sens tout les deux

earthlink

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Merci bien et l'anecdote est vraiment Bien JMCMB

RémyBo

Ha oui? Alors comment le site reconnaît il une erreur dans un captcha?

RodiiCann

Il y a quand meme des fois où les mots ne veulent rien dire !

kpz2580

Bravo ;) je me coucherai moin bête...

Jojo17

Giorgio a écrit : J ai pas compris le principe du deuxième mot... Sa veut dire que sur les deux mots yen à un qui sert à rien

lippemelanie

En effet, cette anecdote est très intéressante mais elle devrait être reformulée! J'ai relu plusieurs fois en me disant finalement que ce devait être quelque chose que je ne connaissais pas...C'est lisant les commentaires que j'ai compris que c'était la case de confirmation écrite en lettres bizarres à la fin d'un formulaire qui sert d'anti-robot....

boby974

RémyBo a écrit : Ha oui? Alors comment le site reconnaît il une erreur dans un captcha? par simple statique !! le mot inconnu est proposé à plusieurs centaines de personnes et la réponse qui est donnée le plus grand nombres de fois est considéré comme exacte. pour le mot connu je pense qu'il y a pas besoin d'explication.

Yless

Très bonne explication vb73

Leito

Pour la première fois sur SCMB, je n'ai rien compris!
Ce qui me rassure, c'est Fancat n'a pas compris non plus... Lol!
Bonne journée

ErzaScarlett

Giorgio a écrit : J ai pas compris le principe du deuxième mot... en fait quand il scanne par exemple "fancat n'a pas compris" il prend plusieurs lettres au hasard dans la phrase "fnapcoms" et qu'il te les fait ecrire a toi et a d'autres gens, il verifie comme ca que c'est bien les lettres qu'il pensait avoir scanne ;)

XAVI3R

Pour le premier captcha c'est simple des lettres connue de google sont proposer pour vérification et s'assurer qu'on est bien humain, par contre pour le second:

J'ai vraiment mis du temps à comprendre mais j'explique :
une page d'un livre est scanné celle ci est lus par un logiciel de détection de lettres pour les retranscrire sur l'ordinateur et puissent être lus sous word par exemple, cependant la détection des lettres et quelque chose de difficile pour un ordinateur car les lettre sont souvent comme on le vois dans les captcha difficile a lire donc ici google va demander au utilisateur de rentrer les lettre que eux il interprète en lisant celles proposer.
Par exemple:
le logiciel scan un mot, ce mot est alors découper pour chacune de ces lettres, exemple le mot "ordinateur" le scan va d'abord découper l'image en plusieurs images pour chaque lettre et les images ou il ne pourra pas reconnaitre la lettre il va alors nous les présenter ainsi on pourra lui dire a quelle lettre correspond chaque image, dans le scan de "ordinateur" il a n'a réussit à comprendre les 4 images des lettres (d n a u) il va alors nous montrer les 4 images des lettres et on va lui dire a quoi elles correspondent :)
Autre exemple possible ou le logiciel scan un mot et le demande en entier ici dans l'annectode "network" il va montrer l'image et on va lui dire ce qu'on lis comme mot..

Suite a un grand nombre de même réponses pour la correspondance des lettres et vus qu'on a réussis le premier captcha il en conclu que les images correspondent donc aux réponses fournis. ;)

J'ai fait long mais au moins c'est clair maintenant :D

aaa123

Leito a écrit : Pour la première fois sur SCMB, je n'ai rien compris!
Ce qui me rassure, c'est Fancat n'a pas compris non plus... Lol!
Bonne journée Xavi3r n'a pas non plus l'air d'avoir compris lol

Superpipol44

grompf a écrit : et si le deuxième mot est voili au lieu de voilà alors que le premier mot est correct? l'etre humain va taper voili pour que sa frappe corresponde !!!!
bizarre!
ne serait-ce pas plutot la correspondance et la lisibilité des lettres scannées (et non des mots) qui est utile a la machine? Tout a fait d'accord je me suis fait la même reflexion ! Sachant que le mot, mal retranscrit nous demande d'être recopié, en quoi corrigeons nous-le ?

Niobé

Je comprend mieux maintenant pourquoi quand j'arrivais pas à lire le 2ème mot et que je mettais n'importe quoi ça passais quand même... Grosse info :)

Rokk

Ca, c'est de la super anecdote. Maintenant je sais pourquoi il y a des mots complètement indéchiffrables dans ces foutus CAPTCHAS.

freddy630

triton35 a écrit : C en kele langue ???? si c'est dans ta langue en tout cas la société va faire faillite ...

gusters

Alors ce soir je me couche vraiment moins bête, j'avais aucune connaissance de ce procédé donc merci pour l'info.

Google est présent partout dans le domaine de l'informatique ...

Tous les commentaires (107)

Newsletter