Changes between Version 6 and Version 7 of waue/2010/0715
- Timestamp:
- Jul 16, 2010, 12:01:21 PM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
waue/2010/0715
v6 v7 48 48 49 49 * 安裝必要工具(java 已經安裝) 50 50 51 {{{ 51 52 sudo apt-get install javacc unrar ant … … 79 80 80 81 * 編譯剛編出來的 NutchAnalysis.java 82 81 83 {{{ 82 84 vim $nutch-1.0/src/java/org/apache/nutch/analysis/NutchAnalysis.java … … 84 86 85 87 * 在第48行加入!ParseException: 88 86 89 {{{ 87 90 #!text … … 94 97 }}} 95 98 96 * 把 IKAnalyzer3.1.6GA.jar 放到lib文件夹99 * 下載 IKAnalyzer3.1.6GA.jar 解壓縮 97 100 * nutch 1.0 用的是 lucene 2.4.0 hadoop 0.19 98 101 * 因此ik分詞器最新僅能用 3.1.6ga (3.2.0GA 以上版本只支援lucene 2.9以上版本) … … 103 106 mkdir ika 104 107 unrar x ./IKAnalyzer3.1.6GA_AllInOne.rar ika/ 108 }}} 109 110 * 分別放到以下三個資料夾 111 || $nutch-1.0/lib/ || 用來重新編譯nutch || 112 || $my_nutch_dir/lib/ || 用來給 nutch 進行 crawl時所匯入函式庫 || 113 || $my_tomcat_dir/webapps/ROOT/WEB-INF/lib || 用來給網頁的搜尋介面使用的函式庫 || 114 115 {{{ 105 116 cp ika/IKAnalyzer3.1.6GA.jar lib/ 106 rm -rf IKAnalyzer3.1.6GA_AllInOne.rar ika/ 117 cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar $my_nutch_dir/lib/ 118 cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar $my_tomcat_dir/webapps/ROOT/WEB-INF/lib 107 119 }}} 108 120 … … 135 147 136 148 * 修改 build.xml,在 <include name="log4j-*.jar"/> 下(約195行),加入 149 137 150 {{{ 138 151 cd $nutch-1.0/ … … 147 160 == 重編 nutch == 148 161 * 重新編譯 nutch-1.0 162 149 163 {{{ 150 164 ant … … 156 170 * 接著將 build/classes 內的程式碼打包起來,建立nutch-1.0-ika.jar 函式庫 157 171 * 補充:我有把預設的 nutch-site.xml 以及 nutch-default.xml放進去一起打包 172 158 173 {{{ 159 174 cd $nutch-1.0/build/classes … … 175 190 }}} 176 191 177 * 把nutch-1.0.war重新生成的文件夾下lib中的nutch-1.0.jar,跟換成你新生成的 nutch-1.0.jar文件,還要放入ik分詞器的jar文件 178 * 最後爬取,搜索的結果就是按ik分過的中文詞 179 180 {{{ 181 cd $nutch-1.0/ 182 cp lib/IKAnalyzer3.1.6GA.jar $my_nutch_dir/lib/ 192 * 把nutch-1.0.war(原本nutch附的即可),解壓縮後放在你的tomcat目錄內(以下用 $my_tomcat_dir 代表我tomcat的實際目錄)的/webapps/ROOT/中,並且再把"IKAnalyzer3.1.6GA.jar"、新編的 "nutch-1.0.jar" 放進 $my_tomcat_dir/webapps/ROOT/WEB-INF/lib 還有 $my_nutch_dir/lib/ 內 193 194 {{{ 195 cd $nutch-1.0/ 196 197 cp $nutch-1.0/build/ $my_nutch_dir/lib/ 198 183 199 cd $my_tomcat_dir/webapps/ROOT/WEB-INF/lib 184 cp $nutch-1.0/build/nutch-1.0 -ika.jar ./200 cp $nutch-1.0/build/nutch-1.0.jar ./ 185 201 cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar ./ 186 202 }}} 203 204 * 最後用nutch 的 crawl 抓取網頁,搜索的結果就是按ik分過的中文詞 187 205 188 206 = 完成 =