核心提示:谷歌稱,它將使用光學字符識別(OCR)軟件讓網絡瀏覽者搜索以Adobe系統公司開發的PDF文件格式存儲的任何文件。谷歌針對網絡的這種OCR蠻力應用程序預計還能夠幫助谷歌的圖書搜索。
11月2日消息,谷歌很少在自己的搜索結果中包含掃描的文件,因為它沒有辦法確定這個內容的性質。但是,這種情況將發生變化。谷歌稱,它將使用光學字符識別(OCR)軟件讓網絡瀏覽者搜索以Adobe系統公司開發的PDF文件格式存儲的任何文件。
谷歌產品經理Evin Levey說,谷歌將利用這種技術把掃描的文件轉換為文本文件。這樣就可以對文件進行搜索、索引和返回為谷歌搜索查詢的答案。這是我們要讓全球的信息都能夠訪問和利用邁出的一小步,但是也是重要的一步。
谷歌針對網絡的這種OCR蠻力應用程序預計還能夠幫助谷歌的圖書搜索。這是谷歌2004年在法蘭克福圖書博覽會上發布的一個雄心勃勃的和有爭議的計劃。從那以后,谷歌以每天3000本圖書的速度掃描全球主要圖書館中的圖書。
雖然這個計劃最初引起了版權的擔心。但是,谷歌剛剛與美國作家協會和美國出版商協會就這個問題達成了和解。谷歌將能夠在美國擴大在線訪問數百萬有版權的圖書和其它書面內容。這個和解協議解決了挑戰谷歌數字化、搜索和顯示有版權的圖書中的部分內容的法律訴訟問題。允許谷歌在沒有版權擁有者批準的情況下與圖書館共享數字版本的圖書。
然而,由于網絡內容繼續成倍的增長,當前搜索引擎技術基于文本的性質顯然是不充分的。這是因為目前這一代搜索引擎只能找到有文本注釋的多媒體文件。文本注釋是一種費力的和耗費時間的過程。內容制作者經常忽略這個問題。
Adobe副總裁David Wadhwani解釋說,我們正在初步地與谷歌和雅虎合作以顯著改善網絡上豐富內容的搜索。我們打算擴大這種能力的應用,使所有的出版商、開發商和最終用戶受益。
>> 查看更多相似文章