ReCAPTCHA技术

不得不说这是一个很好很有用的创意!

CAPTCHAs是一种恼人的技术,据资料统计,全球用户每天要完成1亿次 CAPTCHA 测试。ReCAPTCHA是 Carnegie Mellon 大学启动的一个项目,目的是借助 CATPTCHA 技术将那些残旧图书数字化,据估计,该技术每天可以完成160本书。

该项目目前已经在40000家网站上部署了 ReCAPTCHA 技术,ReCAPTCHA 的基本原理是,对光学字符识别(OCR)软件来说,它们的辨识能力是有限的,尤其是那些印刷不清晰的旧书或残书,而人类可以凭借自己的阅读经验,轻松识别 那些 OCR 无法识别的文字。对这样的文字,人类的识别成功率可以达到99%,而OCR软件只能达到80%。

ReCAPTCHA 结合了传统 OCR 与一个类似 Amazon’s Mechanical Turk 的系统。每个单词都先经过两个不同的 OCR 软件辨识,如果两个 OCR 识别结果不一致,该单词会被标志为“未识别”,这些未被识别的文字会被送入 ReCAPTCHA 系统,被制作成 CAPTCHA 文字让用户识别。

一般图形认证码系统都是只生成一个单词的,reCAPTCHA 生成的图片里面有两个单词,其中一个是机器生成的,有正确结果的单词,另一个则是扫描出来的有问题的单词,这个词没有正确结果。如果用户提交上来的结果里 面机器生成的那个是对的,那么系统就认为另外一个也很有可能是对的。一幅扫描图片展示给多个用户如果结果都是一样的,他就将这个结果作为最终校对结果。这样就实现了利用人力来分布式校对文稿的目的。

总体来说,ReCAPTCHA 实现了 99.1% 的成功率,这几乎是让一个人打字,另一个人在旁边辨认的成功率。ReCAPTCHA 技术目前基本上仍处于概念期,但开发者认为,该技术每天将能够辨认大约160本书。

该项目的精彩之处在于,它利用了那些本来是被浪费掉的人类的脑力。其它类似的项目也基于相同的思想,比如,fold.it,将蛋白质折叠计算转换成一个游戏,而 Google 的 Image Labeler 项目也是借助庞大的用户群的脑力完成对互联网中的图片的辨认。

CAPTCHA这个词最早是在2002年由卡内基梅隆大学的Luis von Ahn, Manuel Blum, Nicholas J.Hopper以及IBM的John Langford所提出。一种常用的CAPTCHA测试是让用户输入一个扭曲变形的图片上所显示的文字或数字,扭曲变形是为了避免被OCR之类的计算机程式自动辨识出图片上的文数字而失去效果。由于这个测试是由计算机来考人类,而不是标准图灵测试中那样由人类来考计算机,人们有时称CAPTCHA是一种反向图灵测试。

reCAPTCHA计划

via 至少我认为 » ReCAPTCHA技术.

9rivers: 有几点感想:
1. 这个想法很环保:在发明一项有价值的应用的同时,利用人们过剩的精力来共同完成另一件更有意义的事情。
2. 判断很聪明也很合理:两个词中如果你能正确识别其中一个,我也认为你有能力正确识别另一个,这正是这种测试的巧妙之处。
3. 其他附加判断:由于其中一个词是没有答案的,所以用户答错与否都可以通过验证,因此一个格外判断正确性的方法是必要的,这可以通过在服务器端统计相同答案的个数来大致判定答案的正确性
4. 应该发明更多的应用,充分利用人们日常不得不做的行为,产生更多“附加值”。例如fold@home等。关键点是:把需要大量人力参与才能完成的工作,变为有趣的或者不显著增加人们负担的应用,这个应用一定会成功!

本站 http://9rivers.linkka.com 从即日起正式采用 reCaptcha。

Share this:
Facebook Linkedin Twitter Digg Email

Leave a Reply