文本挖掘是利用計算機技術對文本文檔進行篩選以進行研究和分析的過程,通常被認為與數據挖掘過程非常相似,但是,文本挖掘依賴于特殊的編程來查找未分類的文本并找到意義或模式,而不是分析預先分類的數據庫信息,文本挖掘在科...
文本挖掘是利用計算機技術對文本文檔進行篩選以進行研究和分析的過程,通常被認為與數據挖掘過程非常相似,但是,文本挖掘依賴于特殊的編程來查找未分類的文本并找到意義或模式,而不是分析預先分類的數據庫信息,文本挖掘在科學、市場營銷和數據組織等領域有著廣泛的應用

文本挖掘技術允許計算機在文本中發現有用的趨勢,以一種可以揭示新事實或允許專家發現的方式呈現數據。將單詞組織成語言所涉及的復雜程度對計算機來說太過復雜了,但是科學家們一直在努力改進這類程序。已經開發出許多方法,讓科學家們識別短語并發現文本的事實。這通常與完全破譯意思不同,但是它允許實現許多相同目標的快捷方式,文本挖掘利用了其中的一些技術,并且隨著這種技術的改進,文本挖掘通常也會得到改進專家使用文本信息分析主要是對書面文件進行研究。大量的書面數據可能很難分析,因為需要大量的時間。計算機可以更快地閱讀這些文本,但他們無法理解文本挖掘技術使計算機能夠在文本中發現有用的趨勢,以一種可以揭示新事實或允許專家進行發現的方式呈現數據。這項技術的一個應用就是市場調查。專家可以分析產品名稱的搜索結果,并讓程序查找表達用戶情感的短語。通過這種方式,他們可以非常詳細地了解人們對他們產品的真實感受。他們也可以簡單地查找他們的產品,看看哪些短語最常出現,這可能有助于他們就如何取悅顧客提出新的想法挖掘文本的另一個用途是分析類似主題的科學論文,尋找新的趨勢或協議。這使得一些科學家能夠做出預測性假設,這些假設在蛋白質分析等領域已經被證明是有用的應用程序最終可能會提供意想不到的發現。一個叫做數據挖掘的過程實際上與文本挖掘非常相似,但它通常不那么復雜,因為它依賴于已經被格式化成類別的文本。例如,該軟件可以在數據庫中瀏覽求職者的所有信息,尋找趨勢。文本挖掘對計算機來說更困難,因為純文本比具有類別的數據更難分析。