製作詞庫法
應用於 crawlzilla
取得詞庫
- 取得 gcin 程式碼
- 取得 lib-chuing (酷音) 程式碼
將兩個檔的字典檔找出
grep -r "台" *
- 結果可找到
gcin tsi.src 酷音 tsin.src
整理
- 略掉不需要的格式,如原本:
口腔疱疹 ㄎㄡ3 ㄑㄧㄤ ㄆㄠ4 ㄓㄣ3 0 騜驅 ㄏㄨㄤ2 ㄑㄩ 0 用針刺 ㄩㄥ4 ㄓㄣ ㄘ4 0 硬擠 ㄧㄥ4 ㄐㄧ3 0 流竄 ㄌㄧㄡ2 ㄘㄨㄢ4 0 牙周囊袋 ㄧㄚ2 ㄓㄡ ㄋㄤ2 ㄉㄞ4 0 水星 ㄕㄨㄟ3 ㄒㄧㄥ 0 烘碗機 ㄏㄨㄥ ㄨㄢ3 ㄐㄧ 0 黑臉白臉 ㄏㄟ ㄌㄧㄢ3 ㄅㄞ2 ㄌㄧㄢ3 0 很耗電 ㄏㄣ3 ㄏㄠ4 ㄉㄧㄢ4 0
- 指令整理
awk 'BEGIN {FS=" "} {print $1 }' tsin.txt > waue.dic awk 'BEGIN {FS=" "} {print $1 }' tsi.txt >> waue.dic
- 結果
口腔疱疹 騜驅 用針刺 硬擠 流竄 牙周囊袋 水星 烘碗機 黑臉白臉 很耗電
- 略過重複
龜茲 龜茲 龜裂 龜裂 龜裂 龜速 龜鑑 龜頭 龜頭 龜鱉 龝 龞 龠 龡 龡 龢 龣 龣 龤 龥
sort -u waue_sort.dic > waue_sort_u.dic
龜茲 龜裂 龜速 龜鑑 龜頭 龜鱉 龝 龞 龠 龡 龢 龣 龤 龥
- 過濾掉單字
for i in $(cat ./waue_sort_u.dic) ;do Leng=$(expr length "$i"); if [ $Leng -gt 3 ];then echo $i >> new_waue.dic ;fi ;done
龜茲 龜裂 龜速 龜鑑 龜頭 龜鱉
- 新中文分詞檔完成
new_waue.dic
Last modified 13 years ago
Last modified on Sep 30, 2011, 5:18:07 PM
Attachments (1)
- new_waue.dic (1.1 MB) - added by waue 13 years ago.
Download all attachments as: .zip