Changes between Version 6 and Version 7 of waue/2010/0715


Ignore:
Timestamp:
Jul 16, 2010, 12:01:21 PM (14 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • waue/2010/0715

    v6 v7  
    4848
    4949 * 安裝必要工具(java 已經安裝)
     50
    5051{{{
    5152sudo apt-get install javacc unrar ant
     
    7980
    8081 * 編譯剛編出來的 NutchAnalysis.java
     82
    8183{{{
    8284vim $nutch-1.0/src/java/org/apache/nutch/analysis/NutchAnalysis.java
     
    8486
    8587   * 在第48行加入!ParseException:
     88
    8689{{{
    8790#!text
     
    9497}}}
    9598
    96  * 把 IKAnalyzer3.1.6GA.jar 放到lib文件夹
     99 * 下載 IKAnalyzer3.1.6GA.jar 解壓縮
    97100   * nutch 1.0 用的是 lucene 2.4.0  hadoop 0.19
    98101   * 因此ik分詞器最新僅能用 3.1.6ga (3.2.0GA 以上版本只支援lucene 2.9以上版本)
     
    103106mkdir ika
    104107unrar x ./IKAnalyzer3.1.6GA_AllInOne.rar ika/
     108}}}
     109
     110 * 分別放到以下三個資料夾
     111 || $nutch-1.0/lib/ || 用來重新編譯nutch ||
     112 || $my_nutch_dir/lib/ || 用來給 nutch 進行 crawl時所匯入函式庫 ||
     113 || $my_tomcat_dir/webapps/ROOT/WEB-INF/lib || 用來給網頁的搜尋介面使用的函式庫 ||
     114
     115{{{
    105116cp ika/IKAnalyzer3.1.6GA.jar lib/
    106 rm -rf IKAnalyzer3.1.6GA_AllInOne.rar ika/
     117cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar $my_nutch_dir/lib/
     118cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar $my_tomcat_dir/webapps/ROOT/WEB-INF/lib
    107119}}}
    108120
     
    135147
    136148 * 修改 build.xml,在 <include name="log4j-*.jar"/> 下(約195行),加入
     149
    137150{{{
    138151cd $nutch-1.0/
     
    147160 == 重編 nutch ==
    148161 * 重新編譯 nutch-1.0
     162
    149163{{{
    150164ant
     
    156170 * 接著將 build/classes 內的程式碼打包起來,建立nutch-1.0-ika.jar 函式庫
    157171   * 補充:我有把預設的 nutch-site.xml 以及 nutch-default.xml放進去一起打包
     172
    158173{{{
    159174cd $nutch-1.0/build/classes
     
    175190}}}
    176191
    177  * 把nutch-1.0.war重新生成的文件夾下lib中的nutch-1.0.jar,跟換成你新生成的 nutch-1.0.jar文件,還要放入ik分詞器的jar文件
    178  * 最後爬取,搜索的結果就是按ik分過的中文詞
    179 
    180 {{{
    181 cd $nutch-1.0/
    182 cp lib/IKAnalyzer3.1.6GA.jar $my_nutch_dir/lib/
     192 * 把nutch-1.0.war(原本nutch附的即可),解壓縮後放在你的tomcat目錄內(以下用 $my_tomcat_dir 代表我tomcat的實際目錄)的/webapps/ROOT/中,並且再把"IKAnalyzer3.1.6GA.jar"、新編的 "nutch-1.0.jar" 放進 $my_tomcat_dir/webapps/ROOT/WEB-INF/lib 還有 $my_nutch_dir/lib/ 內
     193
     194{{{
     195cd $nutch-1.0/
     196
     197cp $nutch-1.0/build/ $my_nutch_dir/lib/
     198
    183199cd $my_tomcat_dir/webapps/ROOT/WEB-INF/lib
    184 cp $nutch-1.0/build/nutch-1.0-ika.jar ./
     200cp $nutch-1.0/build/nutch-1.0.jar ./
    185201cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar ./
    186202}}}
     203
     204 * 最後用nutch 的 crawl 抓取網頁,搜索的結果就是按ik分過的中文詞
    187205
    188206 = 完成 =