{{{
#!html
<div style="text-align: center; color:#151B8D"><big style="font-weight: bold;"><big><big>
crawlzilla 2.0 工作項目
</big></big></big></div> <div style="text-align: center; color:#7E2217"><big style="font-weight: bold;"><big>
新架構設計　與　新功能
</big></big></div>
}}}
[[PageOutline]]

 = 架構改變 =
 == 專案發行 ==
原本架構：

 * crawlzilla-package.tar.gz 
 * carwlzilla-install.tar.gz 

舊的安裝與更新方法是，下載 crawlzilla-package.tar.gz （140M）下來更新，然而一旦修改此 package 檔，則需要重新上傳，造成伺服器與更新時間太頻繁。

註：sourceforge 目前上傳速度約為 ~　11k　（慢到會哭），下載還要等檔案都　mirror 到全球站台後，檔案才不會有問題。

新架構希望能達到以下目的

 * 方便更新到 sourceforge.net 
 * 更新較頻繁的檔可以越小越好

目前架構：

 || nutch-1.2-tomcat-6.0-BaseLite-p0.tar.gz || 原本的 apache-nutch-1.2 與 apache-tomcat-6.0 但刪除 doc/, src/, .job, .jar  || 54.0 M || 
 || nutch-1.2-IKAnalyzer-p0.tar.gz  || 放入 中文分詞後更改的 .jar, .job 與 IKAnalyzer.lib  || 49.7 M || 
 || nutch-1.2-WebDefault-p0.tar.gz || 修改過得 nutch 的搜尋網頁介面：tomcat/webapps/default/ || 36.4M || 
 || carwlzilla-install.tar.gz || 含有 crawlzilla 的 main, war, ; 針對 {conf/ , bin/} 的 nutch-patch , tomcat-patch || 0923版= 9.5M  || 

 == 網頁 MVC ==
所有　crawlzilla.war 內的　jsp , javabean, servlet 　作統籌規劃，確實MVC

 == svn ==
 crawlzilla web

 = 系統 = 

 == 搜尋本機及FTP文件檔案 == 
 == 抓取動態網頁的可行性 == 
 == 簡化安裝流程　== 
 * 分別為安裝及設定 
 == 加入資料庫格式 == 
增加系統效能
 * SQL-lite
 * json
...
 == 增量爬取 == 
 * 其實等於 recrawl
 == IDB merge　== 
 * mergecrawl 



 = 網頁 =

 == 網頁管理頁面重新設計 == 

網頁管理頁面重新設計，不再套用現成版面，並提供客製化CSS樣板

 == 客製化中文分詞詞庫 == 
客製化中文分詞詞庫採線上即時編輯OR匯入檔案的方式，找詞庫

 == Nutch 搜尋UI ==
 * Nutch 搜尋UI替換為crawlzilla自有設計版面
 * 加入該　索引庫統計資訊

 == autocomplete搜尋關鍵字 == 
於nutch 的搜尋介面上能自動提示與統計　關鍵字
 == 手機版網頁 == 
 * crawlzilla 手機版
 == Hadoop網頁操作頁面 == 
 * 嘗試過，但需要 改寫 hadoop 的 jsp ，並導入 jetty ，最後用 ant 打包
 == IDB 匯入/匯出 == 
 * 再網頁上新增按鈕將 IDB 打包給使用者下載
 * 網頁上新增功能讓使用者　將　IDB 上傳
 = 文件 = 

 == 開發者文件(參考Gray提供之樣板) == 
 == 安裝及使用教學文件 == 

 = 推廣 = 

 == 尋找新的使用者 == 

 = 技術 = 

 == HTML5 + CSS3 + JS == 
 * [http://inspectelement.com/html5portfolio/#portfolio html 5 + css 3 ：step by step 教學（英文）]
 * [http://lilaccreative.com/ demo ]
 * [http://special-christina.blogspot.com/2011/01/35html5.html 35個歐美HTML5網站欣賞]

 == Nutch 功能 == 
 * SQLite
 * hadoop程式碼
 * 非同步網頁
    * Servlet 3.0之非同步處理機制與非同步事件聆聽器
    * Servlet/JSP Gossip: 簡介 AsyncContext
    * Servlet的版本對照
 * Nutch + HBase : long term