wiki:waue/2011/0930
製作詞庫法
應用於 crawlzilla

取得詞庫

  • 取得 gcin 程式碼
  • 取得 lib-chuing (酷音) 程式碼

將兩個檔的字典檔找出

grep -r "台" *
  • 結果可找到
gcin tsi.src
酷音 tsin.src

整理

  • 略掉不需要的格式,如原本:
口腔疱疹 ㄎㄡ3 ㄑㄧㄤ ㄆㄠ4 ㄓㄣ3 0
騜驅 ㄏㄨㄤ2 ㄑㄩ 0
用針刺 ㄩㄥ4 ㄓㄣ ㄘ4 0
硬擠 ㄧㄥ4 ㄐㄧ3 0
流竄 ㄌㄧㄡ2 ㄘㄨㄢ4 0
牙周囊袋 ㄧㄚ2 ㄓㄡ ㄋㄤ2 ㄉㄞ4 0
水星 ㄕㄨㄟ3 ㄒㄧㄥ 0
烘碗機 ㄏㄨㄥ ㄨㄢ3 ㄐㄧ 0
黑臉白臉 ㄏㄟ ㄌㄧㄢ3 ㄅㄞ2 ㄌㄧㄢ3 0
很耗電 ㄏㄣ3 ㄏㄠ4 ㄉㄧㄢ4 0
  • 指令整理
awk 'BEGIN {FS=" "} {print $1 }' tsin.txt > waue.dic
awk 'BEGIN {FS=" "} {print $1 }' tsi.txt >> waue.dic

  • 結果
口腔疱疹
騜驅
用針刺
硬擠
流竄
牙周囊袋
水星
烘碗機
黑臉白臉
很耗電
  • 略過重複
龜茲
龜茲
龜裂
龜裂
龜裂
龜速
龜鑑
龜頭
龜頭
龜鱉
龝
龞
龠
龡
龡
龢
龣
龣
龤
龥
sort -u waue_sort.dic > waue_sort_u.dic
龜茲
龜裂
龜速
龜鑑
龜頭
龜鱉
龝
龞
龠
龡
龢
龣
龤
龥
  • 過濾掉單字
for i in $(cat ./waue_sort_u.dic) ;do Leng=$(expr length "$i"); if [ $Leng -gt 3 ];then echo $i >> new_waue.dic ;fi  ;done
龜茲
龜裂
龜速
龜鑑
龜頭
龜鱉
  • 新中文分詞檔完成

new_waue.dic

Last modified 13 years ago Last modified on Sep 30, 2011, 5:18:07 PM

Attachments (1)

Download all attachments as: .zip