數據集成是將多個數據源合并為一個數據源。這種做法通常非常耗時且涉及面廣,因為不同的數據源可能彼此不兼容。電子表格上不同的列名這樣簡單的事情就足以要求重新設置日期格式。這種過程最常見的情況是兩個組開始時沒...
數據集成是將多個數據源合并為一個數據源。這種做法通常非常耗時且涉及面廣,因為不同的數據源可能彼此不兼容。電子表格上不同的列名這樣簡單的事情就足以要求重新設置日期格式。這種過程最常見的情況是兩個組開始時沒有連接,但在獨立工作后放在一起。數據集成由于免費數據源和在線數據庫的普及,成為一個更重要的話題。數據集成是將多個數據源合并為一個數據源。數據集成的數據部分幾乎可以是任何內容,只要它存儲在計算機系統中。數據的實際內容很少像數據存儲的方式。大多數情況下,數據保存在數據庫中,有組織的信息系統。這些系統包含獨特的條目和字段,允許用戶快速查找信息。任何數據集成過程中最大的障礙是數據本身。在許多情況下,當數據剛建立時,沒有將數據集與另一個數據集合并的意圖。這意味著即使兩個數據集可能引用同一個數據集,它們也是完全不兼容的。幾乎任何事物都會使數據庫不兼容。例如字段順序或列寬等簡單的表示方式,這足以防止一個簡單的合并。當數據明顯不同時,例如一個數據庫包含的信息或多或少,合并就要困難得多。比任何其他情況都更需要數據集成的兩種情況是在商業和研究領域。在商業界,合并部門或公司需要將以前分開的信息合并到一個單一的結構中這種形式的整合通常是非常困難的,除非最初的研究小組使用類似的軟件和具有相似的信息目標。當數據整合是為了研究目的而進行時,通常會變得更為順利。當一個研究人員將自己的信息交給另一個研究人員時,雙方通常都在研究相同的過程。這意味著他們將使用類似的方法來編目和存儲數據。過去,數據集成是數據研究的一個相對較小的領域,但自21世紀初以來,這種情況已經發生了變化。隨著免費在線數據庫變得越來越流行和準確,企業正爭先恐后地以可共享的格式獲取信息,這使得它們既可以以公共形式發布信息,又可以將知名公共接口的私有版本集成到自己的系統中
-
發表于 2020-08-07 04:19
- 閱讀 ( 1757 )
- 分類:電腦網絡