在了解數據倉庫的概念之前,我們需要先來理解一些相關 基礎概念。
(1) ETL ( Extract/Transformation/Load, 清洗/轉換/加載):用戶從數據源抽取出所需的數據,經過數據清洗、轉換,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。
(2)元數據:關于數據的數據,指在數據倉庫建設過程中所產生的有關數據源定義,目標定義,轉換規則等相關的關鍵數據。同時元數據還包含關于數據含義的商業信息。典型的元數據包括:數據倉庫表的結構、數據倉庫表的屬性、數據倉庫的源數據(記錄系統)、從記錄系統到數據倉庫的映射、數據模型的規格說明、抽取日志和訪問數據的公用例行程序等。
(3)粒度:數據倉庫的數據單位中保存數據的細化或綜合程度的級別。細化程度越高,粒度級就越小;相反,細化程度越低,粒度級就越大。
(4)分割:結構相同的數據被分成多個數據物理單元。任何給定的數據單元屬于且僅屬于一個分割。
(5)數據集市:小型的,面向部門或工作組級數據倉庫。
(6) ODS (Operation Data Store,操作數據存儲):能支持企業日常的全局應用的數據集合,是不同于DB的一種新的數據環境, 是DW打展后得到的一個混合形式。四個 基本特點:面向主題的、 集成的、可變的、當前或接近當前的。
(7)數據模型:邏輯數據結構,包括由數據庫管理系統為有效進行數據庫處理提供的操作和約束;用于表示數據的系統。
(8)人工關系:在決策支持系統環境中用于表示參照完整性的一種 設計技術。
傳統的數據庫技術在聯機事務處理中獲得了成功,但是無法滿足隨著市場競爭的加劇而帶來的管理人員對決策分析數據提供的要求。傳統的數據庫系統中缺乏決策分析所需的大量歷史數據信息,因為傳統的數據庫一般只保 留當前或近期的數據信息。為了滿足中高層管理人員預測、決策分析的需要,在傳統數據庫的基礎上產生了能夠滿足預測、決策分析需要的數據環境 數據倉庫。
數據倉庫是一個面向主題的、 集成的、非易失的、且隨時間變化的數據集合,用于支持管理決策。
大眾觀點的數據倉庫的體系結構如圖1-8所示。
(1)數據源:是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。內部信息包括存放于關系型數據庫管理系統中的各種業務處理數據和各類文檔數據。外部信息包括各類法律法規、市場信息和競爭對手的信息等。
(2)數據的存儲與管理:是整個數據倉庫系統的核心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別于傳統數據庫,同時也決定了其對外部數據的表現形式。要決定采用什么產品和技術來建立數據倉庫的核心,則需要從數據倉庫的技術特點著手分析。針對現有各業務系統的數據,進行抽取、清理,并有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市)。
(3) OLAP服務器:對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發現趨勢。其具體實現可以分為: ROLAP、MOLAP和HOLAP。ROLAP基本數據和聚合數據均存放在RDBMS之中; MOLAP基本數據和聚合數據均存放于多維數據庫中: HOLAP基本數據存放于RDBMS之中,聚合數據存放于多維數據庫中。
(4)前端工具:主要包括各種查詢工具、報表工具、分析工具、數據挖掘工具以及各種基于數據倉庫或數據集市的應用開發工具。其中數據分析工具主要針對OLAP服務器,報表工具、數據挖掘工具主要針對數據倉庫。
關于我們 | About zj123 |法律聲明 | 友情鏈接 | 建議留言 | 網站地圖 | 聯系我們 | 最新資訊
客服:0571-87896971 客服傳真:0571-87298208 543059767
1091140425
中國電子商務網站百強 © 2002-2012 zj123.com All Rights Reserved
浙ICP備11047537號-1