reCAPTCHA : un système anti-spam qui numérise les livres

Proposé par
le

Vous avez sûrement déjà croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire. Mais saviez-vous que ce système permet de manière astucieuse de numériser des milliers de livres papier grâce à votre propre contribution ? En effet, sur les 2 mots que vous tapez, un seul est connu et vérifié.

L'autre n'est pas connu, mais en le proposant à des centaines d'internautes différents et en ayant toujours la même réponse de leur part, le système sait alors que l'association entre ce qui a été scanné et ce qui a été tapé par les internautes est correct. Et voilà comment on arrive à numériser des milliers d'ouvrages avec un système antispam ! L'OCR (système de reconnaissance des caractères automatique par informatique) n'est aujourd'hui pas assez au point pour être suffisamment fiable. En utilisant le cerveau humain, on arrive à de bien meilleurs résultats. Le slogan de la société (qui a été rachetée par Google) incarne bien le fonctionnement de ce système : "stop spam, read books". 


Tous les commentaires (105)

@Zdouble, j'ai pas compris a 100% mais juste l'idee et je trouve sa fabuleux

Posté le

android

(0)

Répondre

Je sais pas vous, mais moi les captchat ça m'énerve quand on doit actualiser 3 fois pour réussir à avoir un mot correcte. Maintenant je saurais que je peux taper n'importe quoi haha

maintenant je vais écrire sans exactitude le deuxième mots pour arrêter de me casser la tête :p

Posté le

android

(0)

Répondre

Wahou ! Moi qui est passionné d'informatique, je trouve cet idée surprenante en effet il fallait y penser !

Posté le

android

(0)

Répondre

a écrit : On est toute une armée de cobaye informatique! :o)) Le pire c'est que les vrais cobayes sont payés !

a écrit : G strictement rien compris!! Pourtant g relu deux fois Moi aussi j'ai relu 2 fois, et j'ai toujours pas compris ce que tu veux dire ...

a écrit : On devrait demander a être payé! Non mais on bosse gratis a l'insue de notre plein gré? Et les bouquins scannés, ils sont pas payant quand même? :) Effectivement, mais finalement puisque un seul mot sur les 2 est connu, vous ne pouvez taper que celui qui est connu. Ça va deux fois plus vite. Au début on se demande lequel s est puis ça vient avec l habitude.
On ne va pas travailler pour google quand même!

Posté le

android

(0)

Répondre

Cette anecdote m'angoisse... Sommes-nous manipulables à ce point, on nous trompe pour numeriser (parfois illegalement) des millions de livres ???

Posté le

android

(0)

Répondre

C'est extrêmement énervant les captcha grrrr j'evites des sites rien que pour ça

Jmcaumdt..(je me coucherais avec un mal de tête) ;)

J'avais lu sur leur site que ce n'était pas obligatoire. A mon avi, on peut en mettre partout sur son site (sans raison apparente) sans obliger la saisie des caractères affichés (ou si, si l'on est sadique).

Posté le

android

(0)

Répondre

a écrit : Mais si c'est l'utilisateur qui fait le travail de conversion, comment savoir que ça correspond bien? C'est étrange comme histoire... Le fait est que ça ne passe pas par un seul utilisateur c'est sur un échantillon représentatif de je suppose une voir plusieur centaines de personnes :)

Posté le

android

(1)

Répondre

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Merci beaucoup, nous voilà éclairés :)

a écrit : Ça a l'air intéressant mais j'ai rien compris... En bref comme la machine ne reconnaît pas les caractères et qu'ils ne sont pas sur d'un mot ils nous demande jentillement de décoder ce mots sans vraiment nous le demander sinon personne ne le ferait c'est une perte de temp !

a écrit : Cette anecdote m'angoisse... Sommes-nous manipulables à ce point, on nous trompe pour numeriser (parfois illegalement) des millions de livres ??? Ça t'angoisse toi de participer sans le savoir et avec un effort minime à la numérisation des livres, et contribuer ainsi à leur préservation ?

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Merci beaucoup Vb73, tu a changé la vision de ma vie ! ;)

Il y a un très bon documentaire concernant justement un très grand debat entre les droits d'auteurs qui interfère avec les copies "injuste" de Google

Posté le

android

(0)

Répondre

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Bah ... Ce soir JIMCB (j'irai me coucher bête) je ne saisi toujours pas :-( !

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Merci j y arrivais pas. Pourtant je suis pas mauvais en informatique. Idée de génie d utiliser les millions d utilisateurs internet

Posté le

android

(1)

Répondre