什么是相關聚類(Correlation Clustering)？

關聯聚類是在數據庫和其他大型數據源上進行的，將相似的數據集組合在一起，同時也提醒用戶不同的數據集。這可以在某些圖形中完美地完成，另一些則會遇到錯誤，因為很難區分相似和不相似的數據。在后者的情況下，相關聚類有助于...

關聯聚類是在數據庫和其他大型數據源上進行的，將相似的數據集組合在一起，同時也提醒用戶不同的數據集。這可以在某些圖形中完美地完成，另一些則會遇到錯誤，因為很難區分相似和不相似的數據。在后者的情況下，相關聚類有助于自動減少錯誤。這通常用于數據挖掘，或搜索笨拙的數據以尋找相似性。不相似的數據通常會被刪除，數據挖掘是在特定信息塊中檢測模式的過程當使用相關聚類函數時，它會根據用戶的指令搜索數據，用戶會告訴程序要搜索什么，當找到時，將數據放在哪里。這通常適用于非常大的數據源，當手動搜索數據不可能或花費太多時間時。可以是完美的聚類，也可以是不完美的聚類完美的集群是理想的場景，這意味著只有兩種類型的數據，一種是用戶正在尋找的，而另一種是不需要的。所有正的或需要的數據都放在一個集群中，而另一個數據則被刪除或移動。在這種情況下，沒有混亂，一切都很完美大多數復雜的圖不允許完美的聚類，而是不完美的。例如，一個圖有三個變量：X，Y和Z。X，Y是相似的，X，Z是相似的，而Y，Z是不同的。然而，這三個變量的聚類非常相似，這是不可能有完美的相關聚類。程序將努力使正相關的數量最大化，但這仍然需要用戶手動搜索。在數據挖掘中，尤其是在處理大數據集時，相關聚類是用來將相似的數據與相似的數據進行分組，例如，如果一個企業為一個大型網站或數據庫挖掘數據，只想知道某一個方面，那么就需要花費很長的時間來搜索該方面的所有數據。通過使用聚類公式，將數據將被留作適當的分析。不同的信息僅根據用戶的指示進行處理。用戶可以選擇將不同的數據發送到不同的群集，因為這些信息可能對其他項目有用，如果不需要這些數據，只是在浪費內存，那么就會拋出不同的信息。在不完全的聚類中，有些不相似的信息可能不會被拋出，因為它與用戶要查找的數據非常相似

發表于 2020-07-30 20:25
閱讀 ( 1797 )
分類：電腦網絡

什么是相關聚類(Correlation Clustering)？

你可能感興趣的文章

相關問題

0 條評論

作家榜 ?

推薦文章