{{{ #!html
製作詞庫法
應用於 crawlzilla
}}} [[PageOutline]] = 取得詞庫 = * 取得 gcin 程式碼 * 取得 lib-chuing (酷音) 程式碼 將兩個檔的字典檔找出 {{{ grep -r "台" * }}} * 結果可找到 || gcin || tsi.src || || 酷音 || tsin.src || = 整理 = * 略掉不需要的格式,如原本: {{{ #!text 口腔疱疹 ㄎㄡ3 ㄑㄧㄤ ㄆㄠ4 ㄓㄣ3 0 騜驅 ㄏㄨㄤ2 ㄑㄩ 0 用針刺 ㄩㄥ4 ㄓㄣ ㄘ4 0 硬擠 ㄧㄥ4 ㄐㄧ3 0 流竄 ㄌㄧㄡ2 ㄘㄨㄢ4 0 牙周囊袋 ㄧㄚ2 ㄓㄡ ㄋㄤ2 ㄉㄞ4 0 水星 ㄕㄨㄟ3 ㄒㄧㄥ 0 烘碗機 ㄏㄨㄥ ㄨㄢ3 ㄐㄧ 0 黑臉白臉 ㄏㄟ ㄌㄧㄢ3 ㄅㄞ2 ㄌㄧㄢ3 0 很耗電 ㄏㄣ3 ㄏㄠ4 ㄉㄧㄢ4 0 }}} * 指令整理 {{{ awk 'BEGIN {FS=" "} {print $1 }' tsin.txt > waue.dic awk 'BEGIN {FS=" "} {print $1 }' tsi.txt >> waue.dic }}} * 結果 {{{ #!text 口腔疱疹 騜驅 用針刺 硬擠 流竄 牙周囊袋 水星 烘碗機 黑臉白臉 很耗電 }}} * 略過重複 {{{ #!text 龜茲 龜茲 龜裂 龜裂 龜裂 龜速 龜鑑 龜頭 龜頭 龜鱉 龝 龞 龠 龡 龡 龢 龣 龣 龤 龥 }}} {{{ sort -u waue_sort.dic > waue_sort_u.dic }}} {{{ #!text 龜茲 龜裂 龜速 龜鑑 龜頭 龜鱉 龝 龞 龠 龡 龢 龣 龤 龥 }}} * 過濾掉單字 {{{ for i in $(cat ./waue_sort_u.dic) ;do Leng=$(expr length "$i"); if [ $Leng -gt 3 ];then echo $i >> new_waue.dic ;fi ;done }}} {{{ #!text 龜茲 龜裂 龜速 龜鑑 龜頭 龜鱉 }}} * 新中文分詞檔完成 new_waue.dic