2009年9月17日 星期四

利用人力幫忙Google掃描書籍!?

Google 顯然想針對一些(版權不是很清楚的)舊書掃描後放到Google Book上以後可以販賣,所以現在在國會的聽證會中積極爭取權利。
同時,Google在這幾天購買了一間名叫ReCapcha的公司。
所謂Capcha呢,就是在網頁上可以看到一些扭曲的字型讓使用者打進去,以便防止一些非人類使用者進入的網頁(例如在留言區用程式自動貼廣告)。

 因為這已經在很多網站上都會執行這種安全檢查,這間ReCapcha公司就利用這個特點。

 他們假設如果一個使用者可以認識一個扭曲的字串,就可以認識其他扭曲字串。 所以,他們在需要輸入的地方放入“兩個”字串!
第一個是他們已知的字串,假設是'abc'這三個英文字母扭曲變形。
後面則放了一個從舊書或是報紙掃描出來的字,這些字可能因為書本太老舊而無法用電腦自動辨識,或是因為頁面彎曲而變形(像是書的中間沒辦法弄直得部份)。
當使用者將兩個都輸入後,ReCapcha檢查第一個是否正確(也就是說使用者是否正確打入'abc'!?),如果正確的話他就假設你也看得懂第二個字,也就相信使用者輸入的第二個字是正確的。
利用這個方法,這間公司便可以解決掃描文件拆開成小片斷,放到每個使用這種安全檢查的網站,來幫忙辨識沒辦法完全自動辨識的文件!

 這間公司的網頁上有一些例子

Posted via email from JY's 雜記

沒有留言: