reCAPTCHA : un système anti-spam qui numérise les livres

Proposé par
le

Vous avez sûrement déjà croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire. Mais saviez-vous que ce système permet de manière astucieuse de numériser des milliers de livres papier grâce à votre propre contribution ? En effet, sur les 2 mots que vous tapez, un seul est connu et vérifié.

L'autre n'est pas connu, mais en le proposant à des centaines d'internautes différents et en ayant toujours la même réponse de leur part, le système sait alors que l'association entre ce qui a été scanné et ce qui a été tapé par les internautes est correct. Et voilà comment on arrive à numériser des milliers d'ouvrages avec un système antispam ! L'OCR (système de reconnaissance des caractères automatique par informatique) n'est aujourd'hui pas assez au point pour être suffisamment fiable. En utilisant le cerveau humain, on arrive à de bien meilleurs résultats. Le slogan de la société (qui a été rachetée par Google) incarne bien le fonctionnement de ce système : "stop spam, read books". 


Tous les commentaires (106)

a écrit : Bien que j'ai lu cette annecdote et ses commentaires plusieurs fois je n'ai rien compris ! En gros pour mettre des livres sur ebooks il faut retrouver les mot que des logiciels déchiffrent sur les livres papiers et quand le logiciel arrive pas a lire plutôt que de payer un mec pour le lire ils le mette en tant qu'anti spam et ils mettent un mot qu'ils connaissent pour savoir si c'est bien un homme qui déchiffre et ils mettent un mot qu'ils connaissent pas pour que ce soit nous qui le déchifrions puis pour être sûre ils comparent les réponses comme ça ils font des économies et ils évitent les spams
C'est ce qui est écrit en simplifié
PS : moi g compris que le commentaire de vb73 c'est l'anecdote qui n'est pas très claire

Posté le

android

(2)

Répondre

En gros des mec prennent du temps à inventer des sistèmes pour que Google les rachètent derrière en gros c comme si toi tu bossait et que c'était ton voisin qui était récompensé c'est super injuste et sa me donne un peu l'impression que Google n'as pas d'ingénieurs mais un gros compte en banque

Posté le

android

(0)

Répondre

a écrit : Pour le premier captcha c'est simple des lettres connue de google sont proposer pour vérification et s'assurer qu'on est bien humain, par contre pour le second:

J'ai vraiment mis du temps à comprendre mais j'explique :
une page d'un livre est scanné celle ci est lus par
un logiciel de détection de lettres pour les retranscrire sur l'ordinateur et puissent être lus sous word par exemple, cependant la détection des lettres et quelque chose de difficile pour un ordinateur car les lettre sont souvent comme on le vois dans les captcha difficile a lire donc ici google va demander au utilisateur de rentrer les lettre que eux il interprète en lisant celles proposer.
Par exemple:
le logiciel scan un mot, ce mot est alors découper pour chacune de ces lettres, exemple le mot "ordinateur" le scan va d'abord découper l'image en plusieurs images pour chaque lettre et les images ou il ne pourra pas reconnaitre la lettre il va alors nous les présenter ainsi on pourra lui dire a quelle lettre correspond chaque image, dans le scan de "ordinateur" il a n'a réussit à comprendre les 4 images des lettres (d n a u) il va alors nous montrer les 4 images des lettres et on va lui dire a quoi elles correspondent :)
Autre exemple possible ou le logiciel scan un mot et le demande en entier ici dans l'annectode "network" il va montrer l'image et on va lui dire ce qu'on lis comme mot..

Suite a un grand nombre de même réponses pour la correspondance des lettres et vus qu'on a réussis le premier captcha il en conclu que les images correspondent donc aux réponses fournis. ;)

J'ai fait long mais au moins c'est clair maintenant :D

Afficher tout
Merci je viens de tout comprendre grâce a toi :)

On travaille pour Google et on n'est pas payé? Inadmissible!

Sinon, on pourrait écrire n'importe quoi sur les mots non reconnus? :o

Posté le

android

(0)

Répondre

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Merci j'ai enfin compris

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Merci pour le commentaire, j'ai enfin compris!

Posté le

android

(0)

Répondre

Chapeau à celui qui a eu l'idée de créer ca c'est très ingénieux ! Sachant qu'on me met une captcha a chaque téléchargement j'ai bien du numériser trois quatre livres ^^

C est pour ça que defois je tape un mot en me disant : what the f**k !? Et que le captcha valide .

Posté le

android

(0)

Répondre

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Ah Ok, c'est le machin pour la sécurité... Content d'avoir contribué inconsciemment et de façon répété à la transmission future de notre savoir! C'est pas bête comme système, dommage que l'anecdote ne soit pas compréhensible(je l'ai lu plusieurs fois, fait des graphiques, des analyses de texte, des statistiques, mais elle est belle est bien incompréhensible...)

Posté le

android

(2)

Répondre

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Merci beaucoup j'avais rien compris ! ;)

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
En gros même si je lis "pomme" et que j'écris "cerise" ça va l'accepter car il n'attend pas une réponse "juste" mais un mot pour pouvoir comparer aux autres

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Ah d'accord. Et pourquoi ils créé pas un captcha auquel est associé une réponse et si la réponse n'est pas bonne ça ne passe pas?

Au passage c'est cool l'OCR mais c'est très approximatif (comme pas mal de service Google en fait) et interchange souvent les i et les l et les remplacé même des fois par des virgules.

Posté le

android

(0)

Répondre

a écrit : En gros même si je lis "pomme" et que j'écris "cerise" ça va l'accepter car il n'attend pas une réponse "juste" mais un mot pour pouvoir comparer aux autres Oui mais vu que tu seras le seul à avoir écris "cerise" et que le premier mot est connu et vérifié par l'OCR, c'est quand même acceptable.

Posté le

android

(0)

Répondre

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Merci !

Posté le

android

(0)

Répondre

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
Et la physique quantique est simple alors selon toi lol

Posté le

android

(0)

Répondre

a écrit : Ça a l'air intéressant mais j'ai rien compris... De ce que j'en ai compris, les mots qu'on voit et qu'on a à taper dans le formulaire sont extraits de livres papier. En le voyant et le tapant, ça permet de "valider" le mot qu'il y a sur la photo. Ainsi, en voyant la photo d'un mot, en le tapant (parce que, à priori, on sait lire), on numérise ainsi le mot. Si je me trompe, corrigez moi.

intéressant mais j'ai rien compris !! lol

Posté le

android

(0)

Répondre

a écrit : J ai pas compris le principe du deuxième mot... Je t'explique tu a 2 mots a déchiffrer. Le 1er est connu par le logiciel et il vérifie que tu n'est pas un robot. Pour le 2eme, ta réponse est enregistrée par le logiciel et sert a déchiffrer des bouquins grâce a un robot! Si la plupart des utilisateurs donnent la même réponse, les robots qui retranscrivent des livres se servent de leur réponse pour réécrire des bouquin papier sur des pc

Posté le

android

(2)

Répondre

a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans
des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Afficher tout
en gros on travail gratuitment.et est ce que c'est légale???

Posté le

windowsphone

(0)

Répondre