關聯聚類是在數據庫和其他大型數據源上進行的,將相似的數據集組合在一起,同時也提醒用戶不同的數據集。這可以在某些圖形中完美地完成,另一些則會遇到錯誤,因為很難區分相似和不相似的數據。在后者的情況下,相關聚類有助于...
關聯聚類是在數據庫和其他大型數據源上進行的,將相似的數據集組合在一起,同時也提醒用戶不同的數據集。這可以在某些圖形中完美地完成,另一些則會遇到錯誤,因為很難區分相似和不相似的數據。在后者的情況下,相關聚類有助于自動減少錯誤。這通常用于數據挖掘,或搜索笨拙的數據以尋找相似性。不相似的數據通常會被刪除,數據挖掘是在特定信息塊中檢測模式的過程當使用相關聚類函數時,它會根據用戶的指令搜索數據,用戶會告訴程序要搜索什么,當找到時,將數據放在哪里。這通常適用于非常大的數據源,當手動搜索數據不可能或花費太多時間時。可以是完美的聚類,也可以是不完美的聚類完美的集群是理想的場景,這意味著只有兩種類型的數據,一種是用戶正在尋找的,而另一種是不需要的。所有正的或需要的數據都放在一個集群中,而另一個數據則被刪除或移動。在這種情況下,沒有混亂,一切都很完美大多數復雜的圖不允許完美的聚類,而是不完美的。例如,一個圖有三個變量:X,Y和Z。X,Y是相似的,X,Z是相似的,而Y,Z是不同的。然而,這三個變量的聚類非常相似,這是不可能有完美的相關聚類。程序將努力使正相關的數量最大化,但這仍然需要用戶手動搜索。在數據挖掘中,尤其是在處理大數據集時,相關聚類是用來將相似的數據與相似的數據進行分組,例如,如果一個企業為一個大型網站或數據庫挖掘數據,只想知道某一個方面,那么就需要花費很長的時間來搜索該方面的所有數據。通過使用聚類公式,將數據將被留作適當的分析。不同的信息僅根據用戶的指示進行處理。用戶可以選擇將不同的數據發送到不同的群集,因為這些信息可能對其他項目有用,如果不需要這些數據,只是在浪費內存,那么就會拋出不同的信息。在不完全的聚類中,有些不相似的信息可能不會被拋出,因為它與用戶要查找的數據非常相似
-
發表于 2020-07-30 20:25
- 閱讀 ( 1409 )
- 分類:電腦網絡