臟數據(Dirty data 是一個術語,用于描述過時、不完整或不準確的任何類型的電子數據。此類數據可能是由于數據輸入錯誤、未能定期更新數據或甚至多次輸入同一數據而創建的。有時,不正確的數據只不過是電子文檔文本中標點...
臟數據(Dirty data是一個術語,用于描述過時、不完整或不準確的任何類型的電子數據。此類數據可能是由于數據輸入錯誤、未能定期更新數據或甚至多次輸入同一數據而創建的。有時,不正確的數據只不過是電子文檔文本中標點符號的錯誤。在其他情況下,臟數據可能是有意誤導的信息,例如試圖修改會計記錄以向投資者和其他人呈現特定的圖像。

在數據庫中發現的錯誤可能是由于輸入數據時的人為錯誤造成的在大多數情況下,臟數據在任何類型的數據庫中的積累都是無意的。在數據庫中輸入新信息的個人可能會拼錯單詞,遺漏對理解文本意圖很重要的標點符號,或者無法遵循一種特定的格式策略。在這種情況下,更正錯誤信息是一個相對簡單的過程,只需要修改不正確的文本并保存更改。企業有時通過在輸入數據后校對數據并進行必要的更新來管理此過程

企業有時通過在輸入數據后校對數據并進行必要的更新來管理對不準確數據的更正由于在信息更改時未能更新現有記錄,也可能會出現臟數據。例如,如果在給定客戶發生人事變動時,銷售人員未能更新客戶文件,則這些文件將不再準確,并被視為臟文件。與更正拼寫和標點錯誤一樣,花時間刪除過時的信息并用當前數據替換它有助于提高數據庫的整體可用性。有些情況下,故意創建臟數據。公司可能會選擇省略特定的從數據庫中獲取的信息,以便對財務狀況產生特定的看法,例如突出顯示某一特定時期的創收額,但選擇不輸入與同期已收收入額有關的數據。在這類臟數據中,所顯示的信息是準確的是的,但被認為是不完整的。對于某些類型的臟數據,決策可能是不花時間和精力進行更正。當不正確的數據不會對業務正常運行的能力產生任何影響,或者不會造成任何重大困難時,這種情況很常見。這意味著,幾乎任何維護某種類型數據庫的實體都可能至少一些骯臟的數據和其他信息混雜在一起,這些信息是最新和準確的。