Changes between Version 14 and Version 15 of waue/2010/0715
- Timestamp:
- Mar 23, 2011, 5:38:10 PM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
waue/2010/0715
v14 v15 47 47 || $my_tomcat_dir || 原本被用來放nutch網頁(在tomcat內)的資料夾 || /opt/nutchez/tomcat || 48 48 49 == 選項:加入字典檔 ==50 51 將 IKAnalyzer3.1.6GA.jar 的 /org/wltea/analyzer/dic/ 資料夾內 ,放入你要得字典檔,可以參考同資料夾內的 main.dic52 49 53 50 == 修改程式碼 == … … 213 210 * 中文分詞之後的結果並不會比較多,反而更少。但是精簡過後的搜尋結果才能提供更準確的搜尋內容。 214 211 212 == 選項:加入字典檔 == 213 214 將 nutch-*.job 的檔案,用zip 工具解開,並將以下兩個檔案放入nutch-*.job 中即可 215 216 * IKAnalyzer.cfg.xml 217 {{{ 218 #!text 219 <properties> 220 <comment>IK Analyzer</comment> 221 <entry key="ext_dict">/mydic.dic</entry> 222 </properties> 223 }}} 224 225 * mydic.doc 226 {{{ 227 #!text 228 國家高速 229 國家高速網路 230 國家高速網路與計算中心 231 }}} 232 233 215 234 216 235 == 資訊不正確或麻煩 == 217 * 接著將 build/classes 內的程式碼打包起來,建立nutch-1.0-ika.jar 函式庫 218 * 補充:我有把預設的 nutch-site.xml 以及 nutch-default.xml放進去一起打包 219 236 * 接著將 build/classes 內的程式碼打包起來,建立nutch-1.0-ika.jar 函式庫 (麻煩,根本不需要) 220 237 {{{ 221 238 cd $nutch-1.0/build/classes … … 224 241 }}} 225 242 226 * 即使用原始的nutch所crawl下來的資料,將 重編後的nutch-1.0.jar nutch-1.0.job IKAnalyzer3.1.6 正確放到你原本的nutch搜尋網頁中,重新啟動tomcat後,也可直接享用有分詞的結果 243 * 即使用原始的nutch所crawl下來的資料,將 重編後的nutch-1.0.jar nutch-1.0.job IKAnalyzer3.1.6 正確放到你原本的nutch搜尋網頁中,重新啟動tomcat後,也可直接享用有分詞的結果 (不正確) 244 245 * 將 IKAnalyzer3.1.6GA.jar 的 /org/wltea/analyzer/dic/ 資料夾內 ,放入你要得字典檔,可以參考同資料夾內的 main.dic (不正確,沒用)