Context Navigation

0715

Timestamp:: Mar 22, 2011, 5:19:49 PM (15 years ago)
Author:: waue
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

waue/2010/0715

-                      v11
+                      v12
    * build/ 目錄裡面的 nutch-job-1.0.job 就是重編後的核心
+ == 開始使用 ==
+ * 最後，將nutch-job-1.0.jar複製到我的nutchez資料夾內取代使用
+   * (下面的步驟小心的把原本的job作備份，也可以不用，改用新編出來的直接取代)
+{{{
+cd $nutch-1.0/
+mv $my_nutch_dir/nutch-1.0.job $my_nutch_dir/nutch-1.0-ori.job
+cp build/nutch-1.0.job $my_nutch_dir/nutch-1.0-ika-waue-100715.job
+ln -sf $my_nutch_dir/nutch-1.0-ika-waue-100715.job $my_nutch_dir/nutch-1.0.job
+}}}
+ * 把nutch-1.0.war（原本nutch附的即可），解壓縮後放在你的tomcat目錄內（以下用 $my_tomcat_dir 代表我tomcat的實際目錄）的/webapps/ROOT/中，並且再把"IKAnalyzer3.1.6GA.jar"、新編的 "nutch-1.0.jar" 放進 $my_tomcat_dir/webapps/ROOT/WEB-INF/lib 還有 $my_nutch_dir/lib/ 內
+{{{
+cd $nutch-1.0/
+cp $nutch-1.0/build/ $my_nutch_dir/lib/
+cd $my_tomcat_dir/webapps/ROOT/WEB-INF/lib
+cp $nutch-1.0/build/nutch-1.0.jar ./
+cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar ./
+}}}
+ * 最後用nutch 的 crawl 抓取網頁，搜索的結果就是按ik分過的中文詞
+ = 完成 =
+ * 爬取後的資料就會依照中文分詞來分。
+ * 中文分詞之後的結果並不會比較多，反而更少。但是精簡過後的搜尋結果才能提供更準確的搜尋內容。
+ == 資訊不正確或麻煩 ==
  * 接著將 build/classes 內的程式碼打包起來，建立nutch-1.0-ika.jar 函式庫
    * 補充：我有把預設的 nutch-site.xml 以及 nutch-default.xml放進去一起打包
 …
 }}}
- == 開始使用 ==
- * 最後，將nutch-job-1.0.jar複製到我的nutchez資料夾內取代使用
-   * (下面的步驟小心的把原本的job作備份，也可以不用，改用新編出來的直接取代)
-{{{
-cd $nutch-1.0/
-mv $my_nutch_dir/nutch-1.0.job $my_nutch_dir/nutch-1.0-ori.job
-cp build/nutch-1.0.job $my_nutch_dir/nutch-1.0-ika-waue-100715.job
-ln -sf $my_nutch_dir/nutch-1.0-ika-waue-100715.job $my_nutch_dir/nutch-1.0.job
-}}}
- * 把nutch-1.0.war（原本nutch附的即可），解壓縮後放在你的tomcat目錄內（以下用 $my_tomcat_dir 代表我tomcat的實際目錄）的/webapps/ROOT/中，並且再把"IKAnalyzer3.1.6GA.jar"、新編的 "nutch-1.0.jar" 放進 $my_tomcat_dir/webapps/ROOT/WEB-INF/lib 還有 $my_nutch_dir/lib/ 內
-{{{
-cd $nutch-1.0/
-cp $nutch-1.0/build/ $my_nutch_dir/lib/
-cd $my_tomcat_dir/webapps/ROOT/WEB-INF/lib
-cp $nutch-1.0/build/nutch-1.0.jar ./
-cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar ./
-}}}
- * 最後用nutch 的 crawl 抓取網頁，搜索的結果就是按ik分過的中文詞
- = 完成 =
- * 爬取後的資料就會依照中文分詞來分。
  * 即使用原始的nutch所crawl下來的資料，將 重編後的nutch-1.0.jar nutch-1.0.job IKAnalyzer3.1.6 正確放到你原本的nutch搜尋網頁中，重新啟動tomcat後，也可直接享用有分詞的結果
- * 中文分詞之後的結果並不會比較多，反而更少。但是精簡過後的搜尋結果才能提供更準確的搜尋內容。