wiki:NTUOSS160412/HW1

Version 11 (modified by jazz, 9 years ago) (diff)

--

◢ <實作七> | <回課程大綱> ▲ | > ◣

作業

  • 題目:請參考 hadoop_labs/lab009 改成逆向索引(Reverse Index)。使 ReverseIndex 執行之結果為「"關鍵字"\t"檔案名稱(用逗點隔開)"」型態。
  • 參考步驟:
    Here is the reference steps:
    ~$ mkdir hw1_input
    ~$ echo "I like NTU course" > hw1_input/input1
    ~$ echo "I like NTU course and we enjoy this course" > hw1_input/input2
    ~$ hadoop fs -put hw1_input hw1_input
    ~$ hadoop jar WordCount.jar hw1_input hw1_out
    ~$ hadoop fs -cat hw1_out/part-r-00000
    
  • 參考結果應該為:(路徑不限)
    The reference result should be as following:(no limitation for the format of "path")
    I	input1,input2
    NTU	input2,input1
    and	input2,
    course	input1,input2,input2
    enjoy	input2,
    like	input1,input2
    this	input2
    we	input2
    
  • 繳交期限:2016年5月2日(一) 上午 11:59
  • 繳交方式:將原始碼與報告以附件方式寄至 jazzwang@… (1) 程式原始碼一份:以 ${學號}.zip 方式壓縮與命名 (2) 報告一份:以 ${學號} 命名。
  • 提示:
    Hint:
    • 請將 Mapper 輸出、Reducer 輸入輸出的 (Key,Value) 由原本的 (Text, IntWritable) 改成 (Text, Text)
    • Replace (Key,Value) pair from (Text, IntWritable) to (Text, Text)
    • 與 context.getInputSplit() 以及 org.apache.hadoop.mapreduce.lib.input.FileSplit 有關
  • 配分比例:
    • 標準題原始碼 Source Code:80%
    • 報告 Report :20%
      • 參考內容入下:Reference Items should be shown in your report
      • 封面 Cover : 姓名、學號 ( Your Name and ID )
      • 執行結果 The result of your program