當前位置:名人名言大全網 - 經典說說 - 數據倉庫過程

數據倉庫過程

首先,標準化數據倉庫過程

標準化的操作流程是避免操作失誤的有效手段。以此為基礎,分析了航空物探數據存儲過程中數據質量檢查的內容和方法,總結出9項系統檢查和5項拓撲檢查(表5-5)。考慮到在數據存儲過程中,需要賦予數據采集者對數據庫數據的編輯和刪除權限(以便編輯錄入的錯誤數,刪除導入的不正確數據),在編輯或刪除數據庫數據時,可能會對存檔數據進行錯誤的編輯或刪除,破壞存檔數據的完整性和正確性等。,提出了檢查存儲在航空地球物理數據庫中的數據質量的標準化過程(圖5-2)。

表5-5傳入數據系統檢查和拓撲檢查

1)創建項目,即在數據入庫前創建壹個項目,根據項目導入或錄入數據。

2)入庫前的系統檢查。導入或錄入的入庫數據必須通過系統的入庫前檢查(數據唯壹性、數據類型、漏項檢查),才能保存到館藏庫中。

3)數據進入館藏庫後,入庫後必須經過系統檢查。如果空間數據必須進行拓撲檢查,將會與原始數據文件逐字節進行比較,然後進行手動檢查。

4)人工檢查和人工復核:對工程剖面數據、空間要素數據(圖形和屬性)、文本數據、地圖數據和可制成地圖的對象數據進行人工檢查和人工復核。檢驗方法為人工對比。這種方法勞動強度大,檢查人員要有強烈的責任感去發現錯誤。人工檢查和人工審核的工作內容是壹樣的。系統要求人工檢查和人工審核必須由不同人員完成,加強數據檢查,盡量排除人為因素造成的誤差。

圖5-2規範化數據倉庫過程

5)系統歸檔檢查,用於檢查入庫數據的非空字段。系統歸檔檢查通過後,可以將入庫數據歸檔保存在數據庫中。

經過測試,數據入庫工作嚴格按照數據入庫流程進行。航空地球物理數據庫中的數據與存儲前的原始數據文件的壹致性可以達到100%。

該過程將入庫數據與數據庫數據分離,建立數據采集數據庫(簡稱“采集數據庫”),並將待入庫的數據臨時存儲在采集數據庫中。入庫數據在采集庫中進行各種質量檢查和編輯操作,或刪除操作,直至符合數據入庫質量要求,並歸檔入數據庫(除數據庫管理員外其他用戶無權編輯或刪除錄入數據庫的數據),保證了數據庫數據的壹致性和完整性,為航空物探數據庫整體質量的提高提供了保障。

第二,規則化數據檢查方法

50年來,航空物探取得了大量的基礎數據和成果數據,在基礎地學研究、油氣資源評價等領域發揮了越來越重要的作用。人們越來越重視利用航空物探數據解決遇到的地質問題,同時也想了解所用數據的來源、質量等信息(如測量年代、測量方法、儀器精度、飛行高度、定位精度、數據處理方法等。)來評價問題解決的可信度。這正是這個信息系統的構建者想要提供給用戶的。歷史已經成為既成事實,很多與數據質量相關的信息,比如數字記錄之前的測量儀器精度、飛行高度、很多物品的定位精度,現在都有了。

過去的不足證明了現在的進步,尊重歷史,盡力適應未來的技術發展才是本次信息系統建設的目的。因此,根據數據的實際情況,提出了入庫數據有效性檢查的正則化方法,解決了不同年份信息不完全數據的質量檢查問題。

按照慣例,每個數據庫表中需要校驗的字段的有效性校驗碼直接寫在軟件代碼中。

航空物探信息系統的建設

本系統采用正則化方法對入庫數據進行檢查。數據庫結構設計完成後,為每個數據庫表中的每個字段制定入庫數據正確性的檢查規則,建立動態檢查規則表,針對不同的檢查規則編寫檢查函數,從數據庫中獲取待檢查數據庫字段的檢查規則,對入庫數據進行檢查。正則化方法的代碼實現示例如下:

航空物探信息系統的建設

系統校驗采用傳統校驗方式,代碼量約為15345行(表5-6)。代碼開發工作量大,靈活性差,不利於後期的代碼維護和擴展。例如,在添加表或表校驗字段後,需要修改和編譯代碼。而本系統中正則化方法的代碼只有495行(表5-6),僅為傳統檢驗方法代碼的3.22%,且添加表格或給表格添加檢驗字段後無需修改代碼。用戶在存儲數據時,可以根據實際需要直接修改檢驗規則表。

表5-6系統檢查兩種實現方式代碼量對比表