Changes between Version 13 and Version 14 of waue/2009/0402


Ignore:
Timestamp:
Apr 2, 2009, 2:43:56 PM (15 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • waue/2009/0402

    v13 v14  
    111111
    112112== archieve ==
     113 * archieve就是把資料壓縮成一個檔案,在壓縮的過程中,還會將被壓縮的目錄結構紀錄在index與masterindex內。
     114 * 由於每個上傳上去的檔案都被放在一個block中,因此我的input資料夾內共有四個檔,但是每個檔都會佔用一個block,用此方法就可以按照整個打包大小來分配共用去多少個block數。
    113115 * hadoop archive -archiveName name <src>* <dest>
    114116{{{
     
    122124...略
    123125}}}
     126
     127 * 看har裡面的檔案結構
     128{{{
     129$ bin/hadoop dfs -lsr /user/waue/output/foo.har
     130}}}
     131 * 看har內檔案的內容
     132{{{
     133$ bin/hadoop dfs -cat /user/waue/output/foo.har/part-0
     134}}}
     135
     136 * ps: 官方文件介紹的 hadoop dfs -lsr har:///user/hadoop/output/foo.har 會出現錯誤!
     137{{{
     138#!sh
     139lsr: could not get get listing for 'har:/user/waue/output/foo.har/user/waue' : File: har://hdfs-gm1.nchc.org.tw:9000/user/waue/output/foo.har/user/waue/input does not exist in har:///user/waue/output/foo.har
     140
     141}}}
     142
     143== distCp ==
     144 * 是用於大規模集群內部和集群之間拷貝的工具
     145 * 使用Map/Reduce實現文件分發,錯誤處理和恢復,以及報告生成
     146 * 舉例為:
     147{{{
     148hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo
     149}}}
     150?? 然而8020 port 在機器上沒有開,且不是應該檔案會均勻散佈在每個節點上嗎?怎麼還會知道nn1的節點上有這個檔要複製到nn2呢?