wiki:crawlzilla-2.0

Context Navigation

crawlzilla 2.0 工作項目

新架構設計　與　新功能

架構改變
系統
網頁
文件
1. 開發者文件(參考Gray提供之樣板)
2. 安裝及使用教學文件
推廣
1. 尋找新的使用者
技術
1. HTML5 + CSS3 + JS
2. Nutch 功能

架構改變

專案發行

原本架構：

crawlzilla-package.tar.gz
carwlzilla-install.tar.gz

舊的安裝與更新方法是，下載 crawlzilla-package.tar.gz （140M）下來更新，然而一旦修改此 package 檔，則需要重新上傳，造成伺服器與更新時間太頻繁。

註：sourceforge 目前上傳速度約為 ~　11k　（慢到會哭），下載還要等檔案都　mirror 到全球站台後，檔案才不會有問題。

新架構希望能達到以下目的

方便更新到 sourceforge.net
更新較頻繁的檔可以越小越好

目前架構：

nutch-1.2-tomcat-6.0-BaseLite?-p0.tar.gz 原本的 apache-nutch-1.2 與 apache-tomcat-6.0 但刪除 doc/, src/, .job, .jar 54.0 M
nutch-1.2-IKAnalyzer-p0.tar.gz 放入中文分詞後更改的 .jar, .job 與 IKAnalyzer.lib 49.7 M
nutch-1.2-WebDefault?-p0.tar.gz 修改過得 nutch 的搜尋網頁介面：tomcat/webapps/default/ 36.4M
carwlzilla-install.tar.gz 含有 crawlzilla 的 main, war, ; 針對 {conf/ , bin/} 的 nutch-patch , tomcat-patch 0923版= 9.5M

網頁 MVC

所有　crawlzilla.war 內的　jsp , javabean, servlet 　作統籌規劃，確實MVC

svn

crawlzilla web

系統

搜尋本機及FTP文件檔案

抓取動態網頁的可行性

簡化安裝流程

分別為安裝及設定

加入資料庫格式

增加系統效能

SQL-lite
json

...

增量爬取

其實等於 recrawl

IDB merge

mergecrawl

網頁

網頁管理頁面重新設計

網頁管理頁面重新設計，不再套用現成版面，並提供客製化CSS樣板

客製化中文分詞詞庫

客製化中文分詞詞庫採線上即時編輯OR匯入檔案的方式，找詞庫

Nutch 搜尋UI

Nutch 搜尋UI替換為crawlzilla自有設計版面
加入該　索引庫統計資訊

autocomplete搜尋關鍵字

於nutch 的搜尋介面上能自動提示與統計　關鍵字

手機版網頁

crawlzilla 手機版

Hadoop網頁操作頁面

嘗試過，但需要改寫 hadoop 的 jsp ，並導入 jetty ，最後用 ant 打包

IDB 匯入/匯出

再網頁上新增按鈕將 IDB 打包給使用者下載
網頁上新增功能讓使用者　將　IDB 上傳

文件

開發者文件(參考Gray提供之樣板)

安裝及使用教學文件

推廣

尋找新的使用者

技術

HTML5 + CSS3 + JS

Nutch 功能

SQLite
hadoop程式碼
非同步網頁
- Servlet 3.0之非同步處理機制與非同步事件聆聽器
- Servlet/JSP Gossip: 簡介 AsyncContext?
- Servlet的版本對照
Nutch + HBase : long term

Last modified 13 years ago Last modified on Oct 14, 2011, 3:25:47 PM

Download in other formats:

Plain Text

nutch-1.2-tomcat-6.0-BaseLite?-p0.tar.gz	原本的 apache-nutch-1.2 與 apache-tomcat-6.0 但刪除 doc/, src/, .job, .jar	54.0 M
nutch-1.2-IKAnalyzer-p0.tar.gz	放入中文分詞後更改的 .jar, .job 與 IKAnalyzer.lib	49.7 M
nutch-1.2-WebDefault?-p0.tar.gz	修改過得 nutch 的搜尋網頁介面：tomcat/webapps/default/	36.4M
carwlzilla-install.tar.gz	含有 crawlzilla 的 main, war, ; 針對 {conf/ , bin/} 的 nutch-patch , tomcat-patch	0923版= 9.5M