reCAPTCHA : un système anti-spam qui numérise les livres

sarah.delcuze

fancat a écrit : Bien que j'ai lu cette annecdote et ses commentaires plusieurs fois je n'ai rien compris ! En gros pour mettre des livres sur ebooks il faut retrouver les mot que des logiciels déchiffrent sur les livres papiers et quand le logiciel arrive pas a lire plutôt que de payer un mec pour le lire ils le mette en tant qu'anti spam et ils mettent un mot qu'ils connaissent pour savoir si c'est bien un homme qui déchiffre et ils mettent un mot qu'ils connaissent pas pour que ce soit nous qui le déchifrions puis pour être sûre ils comparent les réponses comme ça ils font des économies et ils évitent les spams
C'est ce qui est écrit en simplifié
PS : moi g compris que le commentaire de vb73 c'est l'anecdote qui n'est pas très claire

sarah.delcuze

En gros des mec prennent du temps à inventer des sistèmes pour que Google les rachètent derrière en gros c comme si toi tu bossait et que c'était ton voisin qui était récompensé c'est super injuste et sa me donne un peu l'impression que Google n'as pas d'ingénieurs mais un gros compte en banque

saphira89

XAVI3R a écrit : Pour le premier captcha c'est simple des lettres connue de google sont proposer pour vérification et s'assurer qu'on est bien humain, par contre pour le second:

J'ai vraiment mis du temps à comprendre mais j'explique :
une page d'un livre est scanné celle ci est lus par un logiciel de détection de lettres pour les retranscrire sur l'ordinateur et puissent être lus sous word par exemple, cependant la détection des lettres et quelque chose de difficile pour un ordinateur car les lettre sont souvent comme on le vois dans les captcha difficile a lire donc ici google va demander au utilisateur de rentrer les lettre que eux il interprète en lisant celles proposer.
Par exemple:
le logiciel scan un mot, ce mot est alors découper pour chacune de ces lettres, exemple le mot "ordinateur" le scan va d'abord découper l'image en plusieurs images pour chaque lettre et les images ou il ne pourra pas reconnaitre la lettre il va alors nous les présenter ainsi on pourra lui dire a quelle lettre correspond chaque image, dans le scan de "ordinateur" il a n'a réussit à comprendre les 4 images des lettres (d n a u) il va alors nous montrer les 4 images des lettres et on va lui dire a quoi elles correspondent :)
Autre exemple possible ou le logiciel scan un mot et le demande en entier ici dans l'annectode "network" il va montrer l'image et on va lui dire ce qu'on lis comme mot..

Suite a un grand nombre de même réponses pour la correspondance des lettres et vus qu'on a réussis le premier captcha il en conclu que les images correspondent donc aux réponses fournis. ;)

J'ai fait long mais au moins c'est clair maintenant :D

Afficher tout Merci je viens de tout comprendre grâce a toi :)

Lasdy

On travaille pour Google et on n'est pas payé? Inadmissible!

Sinon, on pourrait écrire n'importe quoi sur les mots non reconnus? :o

Suppr67

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Merci j'ai enfin compris

TheBery

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Merci pour le commentaire, j'ai enfin compris!

toniodlb

Chapeau à celui qui a eu l'idée de créer ca c'est très ingénieux ! Sachant qu'on me met une captcha a chaque téléchargement j'ai bien du numériser trois quatre livres ^^

Nothz

C est pour ça que defois je tape un mot en me disant : what the f**k !? Et que le captcha valide .

sebtkh

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Ah Ok, c'est le machin pour la sécurité... Content d'avoir contribué inconsciemment et de façon répété à la transmission future de notre savoir! C'est pas bête comme système, dommage que l'anecdote ne soit pas compréhensible(je l'ai lu plusieurs fois, fait des graphiques, des analyses de texte, des statistiques, mais elle est belle est bien incompréhensible...)

vs01

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Merci beaucoup j'avais rien compris ! ;)

SabiWinchester

Moomin a écrit : Ça a l'air intéressant mais j'ai rien compris... Moi non plus!!!!

H.Bekir

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout En gros même si je lis "pomme" et que j'écris "cerise" ça va l'accepter car il n'attend pas une réponse "juste" mais un mot pour pouvoir comparer aux autres

Jout12

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Ah d'accord. Et pourquoi ils créé pas un captcha auquel est associé une réponse et si la réponse n'est pas bonne ça ne passe pas?

Au passage c'est cool l'OCR mais c'est très approximatif (comme pas mal de service Google en fait) et interchange souvent les i et les l et les remplacé même des fois par des virgules.

Jout12

H.Bekir a écrit : En gros même si je lis "pomme" et que j'écris "cerise" ça va l'accepter car il n'attend pas une réponse "juste" mais un mot pour pouvoir comparer aux autres Oui mais vu que tu seras le seul à avoir écris "cerise" et que le premier mot est connu et vérifié par l'OCR, c'est quand même acceptable.

Chiseko

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Merci !

spinodino

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Et la physique quantique est simple alors selon toi lol

Voxntrain

Moomin a écrit : Ça a l'air intéressant mais j'ai rien compris... De ce que j'en ai compris, les mots qu'on voit et qu'on a à taper dans le formulaire sont extraits de livres papier. En le voyant et le tapant, ça permet de "valider" le mot qu'il y a sur la photo. Ainsi, en voyant la photo d'un mot, en le tapant (parce que, à priori, on sait lire), on numérise ainsi le mot. Si je me trompe, corrigez moi.

matys88

intéressant mais j'ai rien compris !! lol

valentin.72

Giorgio a écrit : J ai pas compris le principe du deuxième mot... Je t'explique tu a 2 mots a déchiffrer. Le 1er est connu par le logiciel et il vérifie que tu n'est pas un robot. Pour le 2eme, ta réponse est enregistrée par le logiciel et sert a déchiffrer des bouquins grâce a un robot! Si la plupart des utilisateurs donnent la même réponse, les robots qui retranscrivent des livres se servent de leur réponse pour réécrire des bouquin papier sur des pc

thedragon

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout en gros on travail gratuitment.et est ce que c'est légale???

Tous les commentaires (107)

Newsletter