Context Navigation

← Previous Change
Wiki History
Next Change →

0801

Timestamp:: Oct 19, 2011, 5:22:33 PM (15 years ago)
Author:: waue
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

waue/2011/0801

-                      v10
+                      v11
+ * 修改中文分詞錯誤
+問題描述：
+由於Nutch不是原生支持中文的，開發者沒有考慮到中文的分詞會存在token的交叉重疊的情況，導致在根據用戶輸入查詢串的token獲取頁面summary時出現:StringIndexOutOfBoundsException的異常。比如：「教育方針」可能出現這樣的分詞「教育方針」、「教育」、「方針」，這幾個token就交叉重疊了。
+錯誤重現:
+java.lang.RuntimeException: java.util.concurrent.ExecutionException: java.lang.StringIndexOutOfBoundsException: String index out of range: -4   at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:316)
+修改：
+nutch/src/plugin/summary-basic/src/java/org/apache/nutch/summary/basic/BasicSummarizer.java
+{{{
+#!java
+...(no. 181)...
+        // fix begin
+          Token t = tokens[j];
+          if (highlight.contains(t.term())) {
+            excerpt.addToken(t.term());
+            if( offset < t.startOffset() ){
+              excerpt.add(new Fragment(text.substring(offset, t.startOffset())));
+              excerpt.add(new Highlight(text.substring(t.startOffset(),t.endOffset())));
+            }
+            if( offset >= t.startOffset() ){
+              if( offset < t.endOffset() ){
+                excerpt.add(new Highlight(text.substring(offset,t.endOffset())));
+              }
+            }
+            offset = Math.max(offset, t.endOffset());
+            endToken = Math.min(j + sumContext, tokens.length);
+          }
+          j++;
+        } //while
+        // fix over
+}}}
+{{{
+#!java
+...(no. 181)...
+if(j<tokens.length){
+if(offset< tokens[j].endOffset()){
+excerpt.add(new Fragment(text.substring(offset,tokens[j].endOffset())));
+}
+}
+}}}
  * 重新編譯 nutch 並產生 nutch-job-1.2.job