Changes between Version 11 and Version 12 of waue/2010/0715


Ignore:
Timestamp:
Mar 22, 2011, 5:19:49 PM (13 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • waue/2010/0715

    v11 v12  
    173173   * build/ 目錄裡面的 nutch-job-1.0.job 就是重編後的核心
    174174
     175
     176
     177 == 開始使用 ==
     178
     179 * 最後,將nutch-job-1.0.jar複製到我的nutchez資料夾內取代使用
     180   * (下面的步驟小心的把原本的job作備份,也可以不用,改用新編出來的直接取代)
     181
     182{{{
     183cd $nutch-1.0/
     184mv $my_nutch_dir/nutch-1.0.job $my_nutch_dir/nutch-1.0-ori.job
     185cp build/nutch-1.0.job $my_nutch_dir/nutch-1.0-ika-waue-100715.job
     186ln -sf $my_nutch_dir/nutch-1.0-ika-waue-100715.job $my_nutch_dir/nutch-1.0.job
     187}}}
     188
     189 * 把nutch-1.0.war(原本nutch附的即可),解壓縮後放在你的tomcat目錄內(以下用 $my_tomcat_dir 代表我tomcat的實際目錄)的/webapps/ROOT/中,並且再把"IKAnalyzer3.1.6GA.jar"、新編的 "nutch-1.0.jar" 放進 $my_tomcat_dir/webapps/ROOT/WEB-INF/lib 還有 $my_nutch_dir/lib/ 內
     190
     191{{{
     192cd $nutch-1.0/
     193
     194cp $nutch-1.0/build/ $my_nutch_dir/lib/
     195
     196cd $my_tomcat_dir/webapps/ROOT/WEB-INF/lib
     197cp $nutch-1.0/build/nutch-1.0.jar ./
     198cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar ./
     199}}}
     200
     201 * 最後用nutch 的 crawl 抓取網頁,搜索的結果就是按ik分過的中文詞
     202
     203 = 完成 =
     204 * 爬取後的資料就會依照中文分詞來分。
     205
     206 * 中文分詞之後的結果並不會比較多,反而更少。但是精簡過後的搜尋結果才能提供更準確的搜尋內容。
     207
     208
     209 == 資訊不正確或麻煩 ==
    175210 * 接著將 build/classes 內的程式碼打包起來,建立nutch-1.0-ika.jar 函式庫
    176211   * 補充:我有把預設的 nutch-site.xml 以及 nutch-default.xml放進去一起打包
     
    182217}}}
    183218
    184  == 開始使用 ==
    185 
    186  * 最後,將nutch-job-1.0.jar複製到我的nutchez資料夾內取代使用
    187    * (下面的步驟小心的把原本的job作備份,也可以不用,改用新編出來的直接取代)
    188 
    189 {{{
    190 cd $nutch-1.0/
    191 mv $my_nutch_dir/nutch-1.0.job $my_nutch_dir/nutch-1.0-ori.job
    192 cp build/nutch-1.0.job $my_nutch_dir/nutch-1.0-ika-waue-100715.job
    193 ln -sf $my_nutch_dir/nutch-1.0-ika-waue-100715.job $my_nutch_dir/nutch-1.0.job
    194 }}}
    195 
    196  * 把nutch-1.0.war(原本nutch附的即可),解壓縮後放在你的tomcat目錄內(以下用 $my_tomcat_dir 代表我tomcat的實際目錄)的/webapps/ROOT/中,並且再把"IKAnalyzer3.1.6GA.jar"、新編的 "nutch-1.0.jar" 放進 $my_tomcat_dir/webapps/ROOT/WEB-INF/lib 還有 $my_nutch_dir/lib/ 內
    197 
    198 {{{
    199 cd $nutch-1.0/
    200 
    201 cp $nutch-1.0/build/ $my_nutch_dir/lib/
    202 
    203 cd $my_tomcat_dir/webapps/ROOT/WEB-INF/lib
    204 cp $nutch-1.0/build/nutch-1.0.jar ./
    205 cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar ./
    206 }}}
    207 
    208  * 最後用nutch 的 crawl 抓取網頁,搜索的結果就是按ik分過的中文詞
    209 
    210  = 完成 =
    211  * 爬取後的資料就會依照中文分詞來分。
    212219 * 即使用原始的nutch所crawl下來的資料,將 重編後的nutch-1.0.jar nutch-1.0.job IKAnalyzer3.1.6 正確放到你原本的nutch搜尋網頁中,重新啟動tomcat後,也可直接享用有分詞的結果
    213  * 中文分詞之後的結果並不會比較多,反而更少。但是精簡過後的搜尋結果才能提供更準確的搜尋內容。