數據挖掘使用對大量數據進行操作的相對大量的計算能力來確定數據點之間的規律性和聯系。采用統計學技術的算法,機器學習和模式識別用于自動搜索大型數據庫。數據挖掘也稱為數據庫中的知識發現(KDD)。 垃圾郵件過濾可以被...
數據挖掘使用對大量數據進行操作的相對大量的計算能力來確定數據點之間的規律性和聯系。采用統計學技術的算法,機器學習和模式識別用于自動搜索大型數據庫。數據挖掘也稱為數據庫中的知識發現(KDD)。

垃圾郵件過濾可以被視為數據挖掘的一種形式。
人工智能,數據挖掘是一個可以應用于許多不同活動的總括術語,數據挖掘最常用于確定趨勢的方向和預測未來。它被用來建立模型和決策支持系統,為人們提供他們可以使用的信息。數據挖掘在反恐斗爭中扮演著前線角色。它被認為是用來確定9/11事件的領導者攻擊。

數據挖掘過程中收集的信息通常以圖表或圖表的形式呈現。
數據挖掘者是使用諸如"近鄰"之類的技術的統計學家模型,
k-均值聚類,
holdout method,
k-fold cross validation,the
leave one-out method等等。回歸技術被用來減去不相關的模式,只留下有用的信息。
Bayesian一詞在該領域經常出現,一類推理技術,通過結合先驗概率和基于條件事件的概率來預測未來事件的可能性垃圾郵件過濾可以說是數據挖掘的一種形式,它自動將相關信息從一片混亂的網絡釣魚嘗試和偉哥廣告中帶到水面。
決策樹用于過濾成堆的數據。在決策樹中,所有數據都通過入口節點,它面臨一個過濾器,根據數據的特性將數據分成流。例如,關于消費者行為的數據很可能會根據人口統計因素進行過濾。數據挖掘主要不是關于花哨的圖形和可視化技術,而是利用它們來顯示它發現的東西可以從視覺上而不是口頭上吸收更多的統計信息,如果在正確的背景下使用,這種呈現形式會非常具有說服力和強大的功能。
隨著我們的文明越來越飽和,傳感器大量分布在我們的本地環境中,我們會不經意地發現可能遺漏的東西數據挖掘將讓我們在過去的數據基礎上糾正這些錯誤并發現新的見解,從而為我們的數據存儲帶來更大的收益。