reCAPTCHA : un système anti-spam qui numérise les livres

Eygletiere

@Zdouble, j'ai pas compris a 100% mais juste l'idee et je trouve sa fabuleux

Corey57415

Je sais pas vous, mais moi les captchat ça m'énerve quand on doit actualiser 3 fois pour réussir à avoir un mot correcte. Maintenant je saurais que je peux taper n'importe quoi haha

Xx-Smartz-xX

maintenant je vais écrire sans exactitude le deuxième mots pour arrêter de me casser la tête :p

jds78700

Wahou ! Moi qui est passionné d'informatique, je trouve cet idée surprenante en effet il fallait y penser !

Caméléon

bilal a écrit : On est toute une armée de cobaye informatique! :o)) Le pire c'est que les vrais cobayes sont payés !

Caméléon

ciya a écrit : G strictement rien compris!! Pourtant g relu deux fois Moi aussi j'ai relu 2 fois, et j'ai toujours pas compris ce que tu veux dire ...

miklegeek

chnoub a écrit : On devrait demander a être payé! Non mais on bosse gratis a l'insue de notre plein gré? Et les bouquins scannés, ils sont pas payant quand même? :) Effectivement, mais finalement puisque un seul mot sur les 2 est connu, vous ne pouvez taper que celui qui est connu. Ça va deux fois plus vite. Au début on se demande lequel s est puis ça vient avec l habitude.
On ne va pas travailler pour google quand même!

kiglize

Cette anecdote m'angoisse... Sommes-nous manipulables à ce point, on nous trompe pour numeriser (parfois illegalement) des millions de livres ???

chaoui69

C'est extrêmement énervant les captcha grrrr j'evites des sites rien que pour ça

benetnuts

Très ingénieux ce monsieur bravo !!!

pikar418

Jmcaumdt..(je me coucherais avec un mal de tête) ;)

Suppr98

J'avais lu sur leur site que ce n'était pas obligatoire. A mon avi, on peut en mettre partout sur son site (sans raison apparente) sans obliger la saisie des caractères affichés (ou si, si l'on est sadique).

Sangs

casimir a écrit : Mais si c'est l'utilisateur qui fait le travail de conversion, comment savoir que ça correspond bien? C'est étrange comme histoire... Le fait est que ça ne passe pas par un seul utilisateur c'est sur un échantillon représentatif de je suppose une voir plusieur centaines de personnes :)

joshwb

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Merci beaucoup, nous voilà éclairés :)

Ben-j42

Moomin a écrit : Ça a l'air intéressant mais j'ai rien compris... En bref comme la machine ne reconnaît pas les caractères et qu'ils ne sont pas sur d'un mot ils nous demande jentillement de décoder ce mots sans vraiment nous le demander sinon personne ne le ferait c'est une perte de temp !

joshwb

kiglize a écrit : Cette anecdote m'angoisse... Sommes-nous manipulables à ce point, on nous trompe pour numeriser (parfois illegalement) des millions de livres ??? Ça t'angoisse toi de participer sans le savoir et avec un effort minime à la numérisation des livres, et contribuer ainsi à leur préservation ?

BLACKMAT

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Merci beaucoup Vb73, tu a changé la vision de ma vie ! ;)

Velwin

Il y a un très bon documentaire concernant justement un très grand debat entre les droits d'auteurs qui interfère avec les copies "injuste" de Google

enjoylikefazy

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Bah ... Ce soir JIMCB (j'irai me coucher bête) je ne saisi toujours pas :-( !

rolefou

vb73 a écrit : C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus. Afficher tout Merci j y arrivais pas. Pourtant je suis pas mauvais en informatique. Idée de génie d utiliser les millions d utilisateurs internet

Tous les commentaires (107)

Newsletter