Kiến trúc kho dữ liệu phân tán bao gồm sự kết hợp của hai khái niệm cơ bản là sự tích hợp(Intergration) các thành phần dữ liệu và sự phân tán (Distribution) thông qua các thành phần của mạng như hình 2.3:
Hình 2.3. Tích hợp và phân tán dữ liệu
Kho dữ liệu phân tán (Distributed Data Warehouse - DDW) có thể được định nghĩa như là sự tích hợp logic của một tập các chia sẻ dữ liệu của các dữ liệu được phân tán về mặt vật lý qua các node của một mạng máy tính. Thuật ngữ toàn cục (Global) và cục bộ (Local) thường được sử dụng khi nói về một hệ thống phân tán để phân biệt khi đề cập đến vị trí đơn (single site) [11].
Ví dụ, cơ sở dữ liệu cục bộ (Local Database) tham chiếu đến cơ sở dữ liệu được lưu tại một nơi xác định trong mạng (Datamart), trong khi kho dữ liệu phân tán toàn cục tham chiếu tới tích hợp logic của tất cả các cơ sở dữ liệu cục bộ trên một kho dữ liệu phân tán. Lưu ý rằng DDW là khái niệm ảo.
Kho dữ liệu phân tán có hai kiến trúc chính là kho dữ liệu phân tán thuần nhất và kho dữ liệu phân tán không thuần nhất.
2.2.1. Kho dữ liệu phân tán thuần nhất (Homogenous distributed data warehouses )
Kho dữ liệu phân tán thuần nhất là kho dữ liệu mà trong đó tất cả các kho dữ liệu cục bộ (DM) ở các nơi (Site) đều phải dùng chung một hệ quản trị CSDL [11].
Ví dụ trong một Hệ thống CSDL phân tán thuần nhất của Oracle thì tất cả các Database đều phải là Oracle Database.
Hình 2.4. Kho dữ liệu phân tán thuần nhất
Kiến trúc phân tán thuần nhất có một số ưu điểm sau:
- Do tất cả các DM đều dùng chung DBMS nên công tác quản trị dễ dàng hơn. Người quản trị không cần biết kỹ năng quản trị trong tất cả các DBMS khác nhau như DB2, SQL SERVER,...
- Công tác chuyển đổi dữ liệu không đòi hỏi cao vì tất tất cả các DM dùng chung cấu trúc dữ liệu và các ràng buộc dữ liệu.
- Nhiệm vụ tích hợp dữ liệu từ các nguồn trở nên đơn giản và dễ quản lý
- Thời gian đáp ứng các truy vấn nhanh (rapid response times)Tuy nhiên, kho dữ liệu phân tán thuần nhất thích hợp nhất đối với những hệ thống xây dựng mới và có chiến lược từ trước, đối với các hệ thống kế thừa dữ liệu từ các nguồn đã có công việc chuyển đối và tích hợp dữ liệu mất rất nhiều thời gian và phức tạp.
2.2.2.Kho dữ liệu phân tán không thuần nhất (Heterogenous distributed data warehouses )
Kho dữ liệu phân tán không thuần nhất là kho dữ liệu mà trong đó các kho dữ liệu cục bộ (DM) ở các nơi (Site) trong mạng có thể không cùng chung hệ quản trị CSDL [11].
Ví dụ trong một Hệ thống CSDL phân tán không đồng nhất của Oracle thì phải có ít nhất Database là Non- Oracle Database
Hình 2.5. Kho dữ liệu phân tán không thuần nhất
Kiến trúc phân tán không thuần nhất có một số ưu điểm sau:
- Kế thừa được các nguồn dữ liệu từ các DM đã tồn tại
- Thích hợp cho các hệ thống xây dựng trên cơ sở mở rộng hệ thống đã có vì trên thực tế các đơn vị thường bắt đầu với các DM nhỏ cho các phòng ban, sau đó phát triển thành kho dữ liệu lớn hơn cho toàn công ty.
- Tính tự trị CSDL caoTuy nhiên, hệ thống phân tán không thuần nhất gặp khó khăn trong việc tích hợp, chuyển đổi dữ liệu cũng như công tác quản trị dữ liệu vì mỗi DBMS có cấu trúc dữ liệu, ràng buộc, cách thức truy vấn, bảo mật dữ liệu khác nhau.
2.3. MÔ HÌNH PHÂN TÁN KHO DỮ LIỆU
2.3.1.Kho dữ liệu cục bộ (Data Mart)
Kho dữ liệu cục bộ (Data Mart - DM) là CSDL có những đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành [10]. Datamart là kho dữ liệu hướng chủ đề. Các DM có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằng việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra các DM.
a. Data mart phụ thuộc (Dependent Data Mart): Chứa những dữ liệu được lấy từ DW và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của Datamart [11] .
Hình 2.6. Data Mart phụ thuộc (Dependent data mart)
b. Data mart độc lập (Independent Data Marts)
Không giống như Data Mart phụ thuộc, Data mart độc lập được xây dựng trước DW và dữ liệu được trực tiếp lấy từ các nguồn khác nhau [11].
Một số đặc điểm của của data mart độc lập:
- Tính Tự trị về dữ liệu cao
- Được sử dụng cho việc phân tích hỗ trợ quyết định theo mục đích chung.
- Có thể dựa vào bất kỳ kỹ thuật nào.( như quan hệ, hướng đối tượng, phân tán, hay phân cấp)
- Chứa cả dữ liệu tóm lược và chi tiết
Hình 2.7. Data mart độc lập (Independent Data Marts)
Kết quả của những thử thách đối với kho dữ liệu tập trung là xây dựng một kiến trúc mới để chia sẻ những mục tiêu hỗ trợ quyết định của những người đi trước. Loại kho dữ liệu phân tán này tập trung tiếp cận vào các data mart, được xây dựng nhanh chóng bằng kỹ thuật phân tán phân cấp. Data mart mang lại lợi ích đáng kể mà không sợ phải chi phí cao và giảm nguy cơ rủi ro cho dự án kho dữ liệu của công ty. Các tổ chức có thể phát triển nhanh các ứng dụng hỗ trợ quyết định có thể thay đổi và phát triển khi nhu cầu kinh doanh cần thay đổi và phát triển [7].Xây dựng kho dữ liệu (Data Warehousing) không phải là một sản phẩm mà là một quá trình kĩ thuật thu thập, quản lí và khai thác dữ liệu một cách hợp lí từ nhiều nguồn khác nhau, để thiết lập một kho dữ liệu là tập hợp các dữ liệu hợp nhất phản ánh chi tiết một phần hay toàn bộ công tác nghiệp vụ của một tổ chức [10].