Memory Hole: 利用人力幫忙Google掃描書籍！？

Google 顯然想針對一些（版權不是很清楚的）舊書掃描後放到Google Book上以後可以販賣，所以現在在國會的聽證會中積極爭取權利。
同時，Google在這幾天購買了一間名叫ReCapcha的公司。
所謂Capcha呢，就是在網頁上可以看到一些扭曲的字型讓使用者打進去，以便防止一些非人類使用者進入的網頁（例如在留言區用程式自動貼廣告）。

因為這已經在很多網站上都會執行這種安全檢查，這間ReCapcha公司就利用這個特點。

他們假設如果一個使用者可以認識一個扭曲的字串，就可以認識其他扭曲字串。所以，他們在需要輸入的地方放入“兩個”字串！
第一個是他們已知的字串，假設是'abc'這三個英文字母扭曲變形。
後面則放了一個從舊書或是報紙掃描出來的字，這些字可能因為書本太老舊而無法用電腦自動辨識，或是因為頁面彎曲而變形（像是書的中間沒辦法弄直得部份）。
當使用者將兩個都輸入後，ReCapcha檢查第一個是否正確（也就是說使用者是否正確打入'abc'!?)，如果正確的話他就假設你也看得懂第二個字，也就相信使用者輸入的第二個字是正確的。
利用這個方法，這間公司便可以解決掃描文件拆開成小片斷，放到每個使用這種安全檢查的網站，來幫忙辨識沒辦法完全自動辨識的文件！

這間公司的網頁上有一些例子

Posted via email from JY's 雜記

Memory Hole

2009年9月17日星期四

利用人力幫忙Google掃描書籍！？

沒有留言:

關於我自己

網誌存檔

2009年9月17日 星期四

利用人力幫忙Google掃描書籍！？

沒有留言:

2009年9月17日星期四