根據New Scientist的報導,谷歌正以自動化的爬梳技術建置全球最豐富的知識資料庫Knowledge Vault,且計畫在下周於紐約舉行的「發(fā)現(xiàn)知識與資料采礦」(Knowledge Discovery and Data Mining)會議上發(fā)表。
以搜尋技術起家的谷歌現(xiàn)為全球最受歡迎的搜尋引擎,為了強化搜尋系統(tǒng)對關鍵字的處理能力并改善搜尋結果,谷歌在2012年發(fā)表了「知識圖表」(Knowledge Graph),這是一個以結構化知識為基礎的資料庫,汲取了來自Wikipedia、CIA的世界概觀(World Factbook),以及協(xié)作知識網站Freebase的內容,當時匯整了5億個條目及35億種的事實描述。
然而,以眾包模式聚集知識的速度太慢,使得谷歌決定自動化蒐集知識的程序,重新打造了Knowledge Vault,自動爬梳網路上的內容并利用機器學習把資訊集結成知識,迄今已取得16億種的事實描述。
雖然目前Knowledge Graph的知識內容仍多過Knowledge Vault,但谷歌期望藉由自動化蒐集與創(chuàng)造知識的Knowledge Vault成長速度將會大幅超越Knowledge Graph,使其成為全球最豐富的知識資料庫。
有了正確的知識庫將能最佳化使用者的搜尋結果,也可應用在諸如谷歌 Now等各種谷歌服務中,甚至是基於既有的知識與現(xiàn)象預測未來。