| 175 | |
| 176 | |
| 177 | == 開始使用 == |
| 178 | |
| 179 | * 最後,將nutch-job-1.0.jar複製到我的nutchez資料夾內取代使用 |
| 180 | * (下面的步驟小心的把原本的job作備份,也可以不用,改用新編出來的直接取代) |
| 181 | |
| 182 | {{{ |
| 183 | cd $nutch-1.0/ |
| 184 | mv $my_nutch_dir/nutch-1.0.job $my_nutch_dir/nutch-1.0-ori.job |
| 185 | cp build/nutch-1.0.job $my_nutch_dir/nutch-1.0-ika-waue-100715.job |
| 186 | ln -sf $my_nutch_dir/nutch-1.0-ika-waue-100715.job $my_nutch_dir/nutch-1.0.job |
| 187 | }}} |
| 188 | |
| 189 | * 把nutch-1.0.war(原本nutch附的即可),解壓縮後放在你的tomcat目錄內(以下用 $my_tomcat_dir 代表我tomcat的實際目錄)的/webapps/ROOT/中,並且再把"IKAnalyzer3.1.6GA.jar"、新編的 "nutch-1.0.jar" 放進 $my_tomcat_dir/webapps/ROOT/WEB-INF/lib 還有 $my_nutch_dir/lib/ 內 |
| 190 | |
| 191 | {{{ |
| 192 | cd $nutch-1.0/ |
| 193 | |
| 194 | cp $nutch-1.0/build/ $my_nutch_dir/lib/ |
| 195 | |
| 196 | cd $my_tomcat_dir/webapps/ROOT/WEB-INF/lib |
| 197 | cp $nutch-1.0/build/nutch-1.0.jar ./ |
| 198 | cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar ./ |
| 199 | }}} |
| 200 | |
| 201 | * 最後用nutch 的 crawl 抓取網頁,搜索的結果就是按ik分過的中文詞 |
| 202 | |
| 203 | = 完成 = |
| 204 | * 爬取後的資料就會依照中文分詞來分。 |
| 205 | |
| 206 | * 中文分詞之後的結果並不會比較多,反而更少。但是精簡過後的搜尋結果才能提供更準確的搜尋內容。 |
| 207 | |
| 208 | |
| 209 | == 資訊不正確或麻煩 == |
184 | | == 開始使用 == |
185 | | |
186 | | * 最後,將nutch-job-1.0.jar複製到我的nutchez資料夾內取代使用 |
187 | | * (下面的步驟小心的把原本的job作備份,也可以不用,改用新編出來的直接取代) |
188 | | |
189 | | {{{ |
190 | | cd $nutch-1.0/ |
191 | | mv $my_nutch_dir/nutch-1.0.job $my_nutch_dir/nutch-1.0-ori.job |
192 | | cp build/nutch-1.0.job $my_nutch_dir/nutch-1.0-ika-waue-100715.job |
193 | | ln -sf $my_nutch_dir/nutch-1.0-ika-waue-100715.job $my_nutch_dir/nutch-1.0.job |
194 | | }}} |
195 | | |
196 | | * 把nutch-1.0.war(原本nutch附的即可),解壓縮後放在你的tomcat目錄內(以下用 $my_tomcat_dir 代表我tomcat的實際目錄)的/webapps/ROOT/中,並且再把"IKAnalyzer3.1.6GA.jar"、新編的 "nutch-1.0.jar" 放進 $my_tomcat_dir/webapps/ROOT/WEB-INF/lib 還有 $my_nutch_dir/lib/ 內 |
197 | | |
198 | | {{{ |
199 | | cd $nutch-1.0/ |
200 | | |
201 | | cp $nutch-1.0/build/ $my_nutch_dir/lib/ |
202 | | |
203 | | cd $my_tomcat_dir/webapps/ROOT/WEB-INF/lib |
204 | | cp $nutch-1.0/build/nutch-1.0.jar ./ |
205 | | cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar ./ |
206 | | }}} |
207 | | |
208 | | * 最後用nutch 的 crawl 抓取網頁,搜索的結果就是按ik分過的中文詞 |
209 | | |
210 | | = 完成 = |
211 | | * 爬取後的資料就會依照中文分詞來分。 |