reCAPTCHA : un système anti-spam qui numérise les livres

Proposé par
le

Vous avez sûrement déjà croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire. Mais saviez-vous que ce système permet de manière astucieuse de numériser des milliers de livres papier grâce à votre propre contribution ? En effet, sur les 2 mots que vous tapez, un seul est connu et vérifié.

L'autre n'est pas connu, mais en le proposant à des centaines d'internautes différents et en ayant toujours la même réponse de leur part, le système sait alors que l'association entre ce qui a été scanné et ce qui a été tapé par les internautes est correct. Et voilà comment on arrive à numériser des milliers d'ouvrages avec un système antispam ! L'OCR (système de reconnaissance des caractères automatique par informatique) n'est aujourd'hui pas assez au point pour être suffisamment fiable. En utilisant le cerveau humain, on arrive à de bien meilleurs résultats. Le slogan de la société (qui a été rachetée par Google) incarne bien le fonctionnement de ce système : "stop spam, read books". 


Tous les commentaires (106)

a écrit : Je ne savais pas pour les livres, bien que j'avais remarqué la slogan mais j'ai une autre info, le mot inconnu du système est toujours le 1ere, c'est pour cela qu'il suffit de taper le 2ème mot pour que votre post (message ou autre) soit envoyé ;) À mon avis c'est aléatoire, sinon ça rendrait le travail des robots beaucoup plus facile

a écrit : Bien que j'ai lu cette annecdote et ses commentaires plusieurs fois je n'ai rien compris ! C'est simple
Tu as deux mots à entrer et généralement 1 veut vraiment dire quelque chose et c'est comme ça que des livres sont numérisés (pour êtres lus avec des liseuses par exemple)

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
C'est pour ça que dans mon esprit rebelle, je tape le premier mot juste et le deuxième je tape n'importe quoi. Essayez ça marche.

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Merci ton commentaire et plus compréhensible que l’anecdote...

Voilà comment on développe une " IA " ...