{{{ #!html
crawlzilla 2.0 工作項目
新架構設計 與 新功能
}}} [[PageOutline]] = 架構改變 = == 專案發行 == 原本架構: * crawlzilla-package.tar.gz * carwlzilla-install.tar.gz 舊的安裝與更新方法是,下載 crawlzilla-package.tar.gz (140M)下來更新,然而一旦修改此 package 檔,則需要重新上傳,造成伺服器與更新時間太頻繁。 註:sourceforge 目前上傳速度約為 ~ 11k (慢到會哭),下載還要等檔案都 mirror 到全球站台後,檔案才不會有問題。 新架構希望能達到以下目的 * 方便更新到 sourceforge.net * 更新較頻繁的檔可以越小越好 目前架構: || nutch-1.2-tomcat-6.0-BaseLite-p0.tar.gz || 原本的 apache-nutch-1.2 與 apache-tomcat-6.0 但刪除 doc/, src/, .job, .jar || 54.0 M || || nutch-1.2-IKAnalyzer-p0.tar.gz || 放入 中文分詞後更改的 .jar, .job 與 IKAnalyzer.lib || 49.7 M || || nutch-1.2-WebDefault-p0.tar.gz || 修改過得 nutch 的搜尋網頁介面:tomcat/webapps/default/ || 36.4M || || carwlzilla-install.tar.gz || 含有 crawlzilla 的 main, war, ; 針對 {conf/ , bin/} 的 nutch-patch , tomcat-patch || 0923版= 9.5M || == 網頁 MVC == 所有 crawlzilla.war 內的 jsp , javabean, servlet  作統籌規劃,確實MVC == svn == crawlzilla web = 系統 = == 搜尋本機及FTP文件檔案 == == 抓取動態網頁的可行性 == == 簡化安裝流程 == * 分別為安裝及設定 == 加入資料庫格式 == 增加系統效能 * SQL-lite * json ... == 增量爬取 == * 其實等於 recrawl == IDB merge == * mergecrawl = 網頁 = == 網頁管理頁面重新設計 == 網頁管理頁面重新設計,不再套用現成版面,並提供客製化CSS樣板 == 客製化中文分詞詞庫 == 客製化中文分詞詞庫採線上即時編輯OR匯入檔案的方式,找詞庫 == Nutch 搜尋UI == * Nutch 搜尋UI替換為crawlzilla自有設計版面 * 加入該 索引庫統計資訊 == autocomplete搜尋關鍵字 == 於nutch 的搜尋介面上能自動提示與統計 關鍵字 == 手機版網頁 == * crawlzilla 手機版 == Hadoop網頁操作頁面 == * 嘗試過,但需要 改寫 hadoop 的 jsp ,並導入 jetty ,最後用 ant 打包 == IDB 匯入/匯出 == * 再網頁上新增按鈕將 IDB 打包給使用者下載 * 網頁上新增功能讓使用者 將 IDB 上傳 = 文件 = == 開發者文件(參考Gray提供之樣板) == == 安裝及使用教學文件 == = 推廣 = == 尋找新的使用者 == = 技術 = == HTML5 + CSS3 + JS == * [http://inspectelement.com/html5portfolio/#portfolio html 5 + css 3 :step by step 教學(英文)] * [http://lilaccreative.com/ demo ] * [http://special-christina.blogspot.com/2011/01/35html5.html 35個歐美HTML5網站欣賞] == Nutch 功能 == * SQLite * hadoop程式碼 * 非同步網頁 * Servlet 3.0之非同步處理機制與非同步事件聆聽器 * Servlet/JSP Gossip: 簡介 AsyncContext * Servlet的版本對照 * Nutch + HBase : long term