Changes between Initial Version and Version 1 of crawlzilla-2.0


Ignore:
Timestamp:
Oct 14, 2011, 3:25:47 PM (13 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • crawlzilla-2.0

    v1 v1  
     1{{{
     2#!html
     3<div style="text-align: center; color:#151B8D"><big style="font-weight: bold;"><big><big>
     4crawlzilla 2.0 工作項目
     5</big></big></big></div> <div style="text-align: center; color:#7E2217"><big style="font-weight: bold;"><big>
     6新架構設計 與 新功能
     7</big></big></div>
     8}}}
     9[[PageOutline]]
     10
     11 = 架構改變 =
     12 == 專案發行 ==
     13原本架構:
     14
     15 * crawlzilla-package.tar.gz
     16 * carwlzilla-install.tar.gz
     17
     18舊的安裝與更新方法是,下載 crawlzilla-package.tar.gz (140M)下來更新,然而一旦修改此 package 檔,則需要重新上傳,造成伺服器與更新時間太頻繁。
     19
     20註:sourceforge 目前上傳速度約為 ~ 11k (慢到會哭),下載還要等檔案都 mirror 到全球站台後,檔案才不會有問題。
     21
     22新架構希望能達到以下目的
     23
     24 * 方便更新到 sourceforge.net
     25 * 更新較頻繁的檔可以越小越好
     26
     27目前架構:
     28
     29 || nutch-1.2-tomcat-6.0-BaseLite-p0.tar.gz || 原本的 apache-nutch-1.2 與 apache-tomcat-6.0 但刪除 doc/, src/, .job, .jar  || 54.0 M ||
     30 || nutch-1.2-IKAnalyzer-p0.tar.gz  || 放入 中文分詞後更改的 .jar, .job 與 IKAnalyzer.lib  || 49.7 M ||
     31 || nutch-1.2-WebDefault-p0.tar.gz || 修改過得 nutch 的搜尋網頁介面:tomcat/webapps/default/ || 36.4M ||
     32 || carwlzilla-install.tar.gz || 含有 crawlzilla 的 main, war, ; 針對 {conf/ , bin/} 的 nutch-patch , tomcat-patch || 0923版= 9.5M  ||
     33
     34 == 網頁 MVC ==
     35所有 crawlzilla.war 內的 jsp , javabean, servlet  作統籌規劃,確實MVC
     36
     37 == svn ==
     38 crawlzilla web
     39
     40 = 系統 =
     41
     42 == 搜尋本機及FTP文件檔案 ==
     43 == 抓取動態網頁的可行性 ==
     44 == 簡化安裝流程 ==
     45 * 分別為安裝及設定
     46 == 加入資料庫格式 ==
     47增加系統效能
     48 * SQL-lite
     49 * json
     50...
     51 == 增量爬取 ==
     52 * 其實等於 recrawl
     53 == IDB merge ==
     54 * mergecrawl
     55
     56
     57
     58 = 網頁 =
     59
     60 == 網頁管理頁面重新設計 ==
     61
     62網頁管理頁面重新設計,不再套用現成版面,並提供客製化CSS樣板
     63
     64 == 客製化中文分詞詞庫 ==
     65客製化中文分詞詞庫採線上即時編輯OR匯入檔案的方式,找詞庫
     66
     67 == Nutch 搜尋UI ==
     68 * Nutch 搜尋UI替換為crawlzilla自有設計版面
     69 * 加入該 索引庫統計資訊
     70
     71 == autocomplete搜尋關鍵字 ==
     72於nutch 的搜尋介面上能自動提示與統計 關鍵字
     73 == 手機版網頁 ==
     74 * crawlzilla 手機版
     75 == Hadoop網頁操作頁面 ==
     76 * 嘗試過,但需要 改寫 hadoop 的 jsp ,並導入 jetty ,最後用 ant 打包
     77 == IDB 匯入/匯出 ==
     78 * 再網頁上新增按鈕將 IDB 打包給使用者下載
     79 * 網頁上新增功能讓使用者 將 IDB 上傳
     80 = 文件 =
     81
     82 == 開發者文件(參考Gray提供之樣板) ==
     83 == 安裝及使用教學文件 ==
     84
     85 = 推廣 =
     86
     87 == 尋找新的使用者 ==
     88
     89 = 技術 =
     90
     91 == HTML5 + CSS3 + JS ==
     92 * [http://inspectelement.com/html5portfolio/#portfolio html 5 + css 3 :step by step 教學(英文)]
     93 * [http://lilaccreative.com/ demo ]
     94 * [http://special-christina.blogspot.com/2011/01/35html5.html 35個歐美HTML5網站欣賞]
     95
     96 == Nutch 功能 ==
     97 * SQLite
     98 * hadoop程式碼
     99 * 非同步網頁
     100    * Servlet 3.0之非同步處理機制與非同步事件聆聽器
     101    * Servlet/JSP Gossip: 簡介 AsyncContext
     102    * Servlet的版本對照
     103 * Nutch + HBase : long term
     104