2007年5月27日 星期日

reCAPTCHA!

最近在CNET看到一件好玩的新聞,是關於reCAPTCHA這個計畫。去了這網站玩了一下,馬上陷入挑戰文字辨識能力的地獄,久久不能自拔!


這個就是reCAPTCHA的測試方塊,請大家玩玩看。




甚麼是reCAPTCHA呢,簡單說最近有種技術叫CAPTCHA,就是利用隨機產生的字串,轉換成有雜訊的圖片後要使用者輸入對應的文字以獲得認證的格式,通常用在論壇發言或留言,以避免機器人的垃圾廣告轟炸用,這個技術廣為人使用,非常成熟,幾乎可以做出目前視覺辨識機器人分辨不出的圖形來了。而這個技術的相反用途就是reCAPTCHA。

目前的網路時代,為了將人類的知識完全數位化,許多在電腦時代之前的文獻都要經過掃描的步驟才能儲存成電子文件。這種方式最大的缺點當然是體積龐大,因此有很多文字辨識軟體(OCR)就專門用在這種地方,但OCR也有可能遇到無法識別的字而亂譯,影響文獻的正確性。

reCAPTCHA就是利用人類使用者辨識能力的技術,在測驗方格中一次給予兩個經過扭曲的文字,要使用者填入答案,其中一個是電腦已知的,而另一個是OCR無法處理的文字,當使用者按下確定紐後伺服器檢查兩個答案,若對照組正確,則伺服器接受這個使用者的答案(這個機制防止來亂的使用者),而一個未被識別字將被至少三個不同的使用者輸入答案且都一致時才會將這個字歸入資料庫中。

這項計畫目前受測的對象是Internet Archive,請各位企鵝們一起響應這個造福整體人類的大計畫,有空就去那個網頁玩一下吧!

沒有留言: