Changes between Version 1 and Version 2 of WebIndexing


Ignore:
Timestamp:
Jun 25, 2008, 4:31:45 PM (16 years ago)
Author:
sunny
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • WebIndexing

    v1 v2  
    2020 * 以上的字詞庫,例如:關鍵字a b代表2個字詞,它所對映到的網頁內容可能是a b/ab或是以其他字詞隔開的可能內容
    2121
     22== 【簡單的範例說明】 ==
     23 * 以下的範例會介紹當關鍵字與網頁內容對映關連整理出來之後,怎麼把這些對映建立到像是hypertable或hbase這種key-value mapping table的object stored當中,透過這樣的資料結構存放方式,在搜尋引擎當中如何發揮功效。[[br]]
     24下列這張表格是假設從網路上取得的模擬資料範例,真實的網址與網頁內容應該是較複雜的資料數據,為求簡化說明方式,我們以最簡單的a/b/c/d/e代表不同的關鍵字內容,01.htm-10.htm代表10份不同的網址。
     25 1. 虛擬網頁內容說明
     26||虛擬網址||虛擬網頁內容||
     27||01.htm||a b c d e||
     28||02.htm||a b c d||
     29||03.htm||a b c||
     30||04.htm||a b||
     31||05.htm||a||
     32||06.htm||b||
     33||07.htm||c||
     34||08.htm||d||
     35||09.htm||e||
     36||10.htm||b c||
     37
     38 2. 建立資料庫schema
     39以關鍵字為Rowkey,column family目前只建立一組取名url,虛擬網址就是column qualifier/key,虛擬網頁內容就是value,這樣一來只要查詢關鍵字,就可以立刻找出相關網址及網頁內容。
     40
     41||Rowkey||Column Family||Column Qualifier||Value||
     42||關鍵字||url(或其他名稱)||虛擬網址||虛擬網頁內容||
     43
     44 3. 建立多組關鍵字對映表[[br]]
     45
     46假設經過map reduce的數據處理之後,產生了多組關鍵字的對應關係資料表格,然後根據這份表格再把它匯入到hypertable或hbase當中,當作搜尋引擎的搜尋資料庫。
     47
     48  2.1 建立一組關鍵字對映表
     49
     50||關鍵字||虛擬網址||虛擬網頁內容||
     51||a||01.htm||a b c d e||
     52||a||02.htm||a b c d||
     53||a||03.htm||a b c||
     54||a||04.htm||a b||
     55||a||05.htm||a||
     56||b||01.htm||a b c d e||
     57||b||02.htm||a b c d||
     58||b||03.htm||a b c||
     59||b||04.htm||a b||
     60||b||06.htm||b||
     61||b||10.htm||b c||
     62||c||01.htm||a b c d e||
     63||c||02.htm||a b c d||
     64||c||03.htm||a b c||
     65||c||07.htm||c||
     66||c||10.htm||b c||
     67||d||01.htm||a b c d e||
     68||d||02.htm||a b c d||
     69||d||08.htm||d||
     70||e||01.htm||a b c d e||
     71||e||09.htm||e||
     72
     73 2.2 建立二組關鍵字對映表
     74
     75||關鍵字||虛擬網址||虛擬網頁內容||
     76||a b||01.htm||a b c d e||
     77||a b||02.htm||a b c d||
     78||a b||03.htm||a b c||
     79||a b||04.htm||a b||
     80||b c||01.htm||a b c d e||
     81||b c||02.htm||a b c d||
     82||b c||03.htm||a b c||
     83||b c||10.htm||b c||
     84
    2285== 【面臨的問題點】 ==
    2386 1. 應該挑選哪些字詞作為關鍵字,以及當關鍵字詞組數目一多起來的時候,Map Reduce程式的複雜度會隨之增加