雙聚類是一種數據挖掘技術,它通過同時分配矩陣的行和列將信息分類到矩陣中,其核心是效率,與單一聚類方法相比,允許計算機在較短的時間內篩選和排序大量數據。雙聚類只是一類特定數據挖掘技術的總稱;有許多不同的算法可以歸...
雙聚類是一種數據挖掘技術,它通過同時分配矩陣的行和列將信息分類到矩陣中,其核心是效率,與單一聚類方法相比,允許計算機在較短的時間內篩選和排序大量數據。雙聚類只是一類特定數據挖掘技術的總稱;有許多不同的算法可以歸入這一類,包括塊聚類、格子模型,耦合的雙向聚類和相關的雙向聚類。

數據挖掘需要大量的數據,例如從一家公司傾倒的信息;要理解雙聚類的重要性,首先要了解數據挖掘的一般概念大量的數據——比如從公司的主數據庫中轉儲的信息——并對其進行分類,以確定趨勢和其他有用的模式。這種類型的分析可以用來確定那些不經意間研究就不明顯的模式,例如消費者購買趨勢和股票市場波動。數據挖掘可以由人類分析員手動進行,也可以使用某種數據挖掘算法以電子方式進行;這就是雙聚類發揮作用的地方Biclustering是一種數據挖掘技術,它通過同時分配矩陣的行和列來將信息分類到矩陣中,進行分析的計算機將嘗試將相關的信息片段相互分類。這個過程被稱為"聚類"。聚類允許計算機通過識別兩個或多個信息之間的關聯來靈活運用其人工智能,把它們放在一個矩陣中。通常,矩陣的行或列都被填充,但一次只能有一個。雙聚類通過使計算機同時填充行和列來消除這一限制。這提高了聚類過程的效率,但可能導致不同的排列矩陣取決于所使用的特定算法。例如,一臺計算機在行中排列具有恒定匹配值的事物,而將具有恒定匹配值的事物排列在列中的計算機將使用完全相同的值生成不同外觀的矩陣。沒有一種"正確"的方法來聚類數據;這完全取決于進行數據挖掘的個人的特殊情況和偏好。