wiki:jazz/crawlzilla-dev

Version 5 (modified by jazz, 12 years ago) (diff)

--

Crawlzilla 2.0

  • 近期發現的 Bug / 缺點
    • install 程式不支援無線網卡
    • 升級/反安裝 -> 舊的資料如何保存或移植延續?!(Stateless)
    • Recrawl 進行時必須保留原本的 CrawlDB,等完成後才覆蓋掉。
  • 想法:
    • 套件化(分離 Nutch, Lucene, Hadoop 的部份) - 預設用單機版
    • 與 Solr 結合 -> 與 ElasticSearch 結合?!
    • 與 Carrot2 結合? 搜尋結果分群分類(Search Clustering)
  • 套件相依:
    • bc
      480:      large16=$(echo "$JAVA_version >= 1.6" | bc)
      
    • dialog
    • expect
    • lsb_release
      ./install: line 593: expect: command not found
      ./install: line 968: lsb_release: command not found