Changes between Version 14 and Version 15 of waue/2010/0715


Ignore:
Timestamp:
Mar 23, 2011, 5:38:10 PM (14 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • waue/2010/0715

    v14 v15  
    4747 || $my_tomcat_dir || 原本被用來放nutch網頁(在tomcat內)的資料夾 || /opt/nutchez/tomcat ||
    4848
    49 == 選項:加入字典檔 ==
    50 
    51 將 IKAnalyzer3.1.6GA.jar 的 /org/wltea/analyzer/dic/ 資料夾內 ,放入你要得字典檔,可以參考同資料夾內的 main.dic
    5249
    5350== 修改程式碼 ==
     
    213210 * 中文分詞之後的結果並不會比較多,反而更少。但是精簡過後的搜尋結果才能提供更準確的搜尋內容。
    214211
     212== 選項:加入字典檔 ==
     213
     214 將 nutch-*.job 的檔案,用zip 工具解開,並將以下兩個檔案放入nutch-*.job 中即可
     215
     216 * IKAnalyzer.cfg.xml
     217{{{
     218#!text
     219<properties> 
     220        <comment>IK Analyzer</comment>
     221        <entry key="ext_dict">/mydic.dic</entry>
     222</properties>
     223}}}
     224
     225 * mydic.doc
     226{{{
     227#!text
     228國家高速
     229國家高速網路
     230國家高速網路與計算中心
     231}}}
     232
     233
    215234
    216235 == 資訊不正確或麻煩 ==
    217  * 接著將 build/classes 內的程式碼打包起來,建立nutch-1.0-ika.jar 函式庫
    218    * 補充:我有把預設的 nutch-site.xml 以及 nutch-default.xml放進去一起打包
    219 
     236 * 接著將 build/classes 內的程式碼打包起來,建立nutch-1.0-ika.jar 函式庫 (麻煩,根本不需要)
    220237{{{
    221238cd $nutch-1.0/build/classes
     
    224241}}}
    225242
    226  * 即使用原始的nutch所crawl下來的資料,將 重編後的nutch-1.0.jar nutch-1.0.job IKAnalyzer3.1.6 正確放到你原本的nutch搜尋網頁中,重新啟動tomcat後,也可直接享用有分詞的結果
     243 * 即使用原始的nutch所crawl下來的資料,將 重編後的nutch-1.0.jar nutch-1.0.job IKAnalyzer3.1.6 正確放到你原本的nutch搜尋網頁中,重新啟動tomcat後,也可直接享用有分詞的結果 (不正確)
     244
     245 * 將 IKAnalyzer3.1.6GA.jar 的 /org/wltea/analyzer/dic/ 資料夾內 ,放入你要得字典檔,可以參考同資料夾內的 main.dic (不正確,沒用)