wiki:adherelinux/cocluster

Version 4 (modified by adherelinux, 14 years ago) (diff)

--

A partitioning based algothim to fuzzy co-cluster documents and words =

這篇文章主要是看完作者Wiliam-Chandra Thjhi,Lihui Chen 所寫下翻譯的

  • introduction

在資料檢索中,文件的分類是個很重要的過程.他的應用包括新一代Web,目錄,查詢的擴展,視覺化的收尋.
儘管他是重要的但檢索文件尚未達到充分的發揮.有些問題仍然存在著,例如在練習過程的精確度,缺乏的分群解釋,
對於雜訊很敏感.而目前許多優越的計算以發展來對付這些問題.

處理低的精確度是由於高的維度,數個子空間的分群演算法,包括各種維度簡化的技術像是矩陣的分解,特徵分類或雙分群,
和項目的修剪的技術已在(F;orian et al.,2002)介紹過了.彈性的分類演算法已提出而穫得不確定的邊界條件.因此
改善去描述分類的解釋.一些重要的方法如fuzzy(Friedman et al,2004)和粗略集合(Lingras and West,2004;
Lingras er al,2004)的分類演算法,這兩篇論文而分類是分別表示為fuzzy集合與粗略的集合.特徵值選取技術已可以
去除資料的雜訊.有些進階文件的分群技術包括神經網路分群,機率,分佈分群,和片語基礎分群.在這篇文章,我們有興趣是
一個特別的模糊雙分群.

藉著執行雙分群,文件與文字是同時分類成數個分群.每一個雙分群是由一對高度相關文件分群與文字分群所構成.雙分群提供一些
如維度的減少,文件分群的解釋,和精準度的改善.

Attachments (30)

Download all attachments as: .zip