zen_nhok

New Member
Link tải luận văn miễn phí cho ae Kết Nối
Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu : Luận văn ThS Công nghệ thông tin: 1.01.10
Nghiên cứu công nghệ kho dữ liệu, giải pháp tích hợp và tận dụng các nguồn dữ liệu có sẵn để tạo thành kho, các khái niệm cơ bản của kho dữ liệu, các kiểu kho dữ liệu, mô hình và kiến trúc kho dữ liệu. Nghiên cứu phương pháp khai thác kho dữ liệu - xử lý phân tích trực tuyến OLAP, sử dụng mô hình khối dữ liệu đa chiều để xây dựng và lưu trữ dữ liệu đã tổng hợp phục vụ cho việc khai thác được nhanh chóng và thuận tiện. Ứng dụng lý thuyết đã nghiên cứu để xây dựng kho dữ liệu thương mại điện tử và các khối dữ liệu đa chiều để phân tích, xử lý và lưu trữ các dữ liệu tổng hợp. Nghiên cứu cách khai thác thông tin trong khối dữ liệu đa chiều bằng cách tạo lập và thực hiện truy vấn trên khối, hiển thị kết quả phân tích nhiều hình thức trực quan, sinh động, uyển chuyển nhằm hỗ trợ có hiệu quả cho công tác quản lý, điều hành của ban lãnh đạo
Luận văn ThS. Công nghệ thông tin -- Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội, 2007
CÁC THUẬT NGỮ VIẾT TẮT........................................................5
MỞ ĐẦU............................................................................................6
CHƯƠNG 1. KHO DỮ LIỆU ...........................................................9
1.1 TỔNG QUAN VỀ KHO DỮ LIỆU (DATAWAREHOUSE)................... 9
1.1.1 SỰ RA ĐỜI VÀ PHÁT TRIỂN CÔNG NGHỆ KHO DỮ LIỆU ....... 9
1.1.2 KHO DỮ LIỆU LÀ GÌ?................................................................... 11
1.1.3 MÔ HÌNH CHUNG CỦA CÔNG NGHỆ KHO DỮ LIỆU.............. 12
1.1.4 ĐẶC TÍNH CỦA DỮ LIỆU TRONG KHO DỮ LIỆU.................... 13
1.1.5 PHÂN BIỆT DW VỚI NHỮNG HỆ CƠ SỞ DỮ LIỆU TÁC
NGHIỆP .................................................................................................... 14
1.1.6 MỘT SỐ KHÁI NIỆM CƠ BẢN..................................................... 15
1.1.6.1 KHO DỮ LIỆU CỤC BỘ - DATAMART................................. 15
1.1.6.2 KHO DỮ LIỆU TÁC NGHIỆP, CƠ SỞ DỮ LIỆU THAO TÁC16
1.1.6.3 KHO DỮ LIỆU ẢO................................................................... 18
1.2 CÁC KIỂU DỮ LIỆU............................................................................ 18
1.2.1 DỮ LIỆU NGHIỆP VỤ ................................................................... 18
1.2.2 DỮ LIỆU NGHIỆP VỤ PHI CẤU TRÚC ....................................... 19
1.2.3 SIÊU DỮ LIỆU (METADATA )..................................................... 19
1.3 KIẾN TRÚC DỮ LIỆU DW .................................................................. 20
1.3.1 KIẾN TRÚC THAM CHIẾU CƠ BẢN VÀ MỘT SỐ NGUYÊN LÝ
HOẠT ĐỘNG CỦA KHO DỮ LIỆU ........................................................ 20
1.3.1.1 KHỐI CÁC NGUỒN DỮ LIỆU ................................................. 21
1.3.1.2 KHỐI TẠO DỰNG KHO DỮ LIỆU ......................................... 21
1.3.1.3 KHỐI TẠO DỰNG DATA MART ........................................... 22
1.3.1.4 KHỐI TRUY NHẬP VÀ SỬ DỤNG......................................... 22
1.3.1.5 LỚP QUẢN LÝ DỮ LIỆU ........................................................ 23
1.3.1.6 LỚP QUẢN LÝ SIÊU DỮ LIỆU .............................................. 23
1.3.1.7 LỚP CHUYỂN TẢI DỮ LIỆU.................................................. 23
1.3.1.8 LỚP KẾT CẤU HẠ TẦNG....................................................... 23
1.3.2 KIẾN TRÚC LOGIC CỦA DW ...................................................... 24
1.4 MÔ HÌNH DỮ LIỆU ............................................................................. 25
1.4.1 NỀN TẢNG CỦA VIỆC HÌNH THÀNH MÔ HÌNH ...................... 25
1.4.2 SƠ ĐỒ HÌNH SAO - STAR SCHEMA ........................................... 26
1.4.3 SƠ ĐỒ HÌNH TUYẾT RƠI - SNOWFLAKE.................................. 28
1.4.4 SƠ ĐỒ KẾT HỢP............................................................................ 29
1.5 KẾT LUẬN CHƯƠNG 1........................................................................ 29
CHƯƠNG 2......................................................................................31
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP ................................31
2.1 TỔNG QUAN VỀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN ...................... 31
2.2 ĐỊNH NGHĨA OLAP ............................................................................. 32
2.3 MÔ HÌNH CƠ SỞ DỮ LIỆU DẠNG KHỐI .......................................... 33
2.3.1 TỔNG QUAN................................................................................... 33
2.3.2 ĐỊNH NGHĨA KHỐI....................................................................... 34
2.3.3 LÁT CẮT ........................................................................................ 34
2.3.4 KHOÁ CỦA KHỐI ......................................................................... 35
2.3.5 HIỂN THỊ KHỐI TRÊN MÀN HÌNH MÁY TÍNH......................... 36
2.4 KIẾN TRÚC KHỐI OLAP .................................................................... 38
2.4.1 KHỐI (CUBE)................................................................................. 38
2.4.2 CHIỀU (DIMENSION) ................................................................... 39
2.4.3 CÁC ĐƠN VỊ ĐO LƯỜNG............................................................. 40
2.4.4 CÁC PHÂN HOẠCH (PARTITIONS)............................................ 40
2.5 SỰ PHÂN LOẠI OLAP........................................................................ 40
2.5.1 MOLAP (MULTIDIMENSIONAL OLAP)...................................... 40
2.5.2 ROLAP (RELATIONAL OLAP) .................................................... 43
2.5.3 HOLAP (HYBRID OLAP) .............................................................. 43
2.6 KẾT LUẬN CHƯƠNG 2....................................................................... 46
CHƯƠNG 3......................................................................................47
PHÂN TÍCH THIẾT KẾ.................................................................47
KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ...................................47
3.1. GIỚI THIỆU CHUNG VỀ HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ..... 47
3.1.1 TỔNG QUAN................................................................................... 47
3.1.2 CÁC THÀNH PHẦN CHÍNH CỦA HỆ THỐNG THƯƠNG MẠI
ĐIỆN TỬ................................................................................................... 47
3.2. PHƯƠNG PHÁP LUẬN XÂY DỰNG KHO DỮ LIỆU........................ 49
3.2.1 PHƯƠNG PHÁP LUẬN CHUNG................................................... 49
3.2.2 PHƯƠNG PHÁP THIẾT KẾ TRUYỀN THỐNG............................ 49
3.2.3 PHÂN TÍCH CÓ CẤU TRÚC .......................................................... 50
3.2.4 PHƯƠNG PHÁP LUẬN XÂY DỰNG KHO DỮ LIỆU.................. 52
3.2.4.1 XÁC ĐỊNH CÁC YÊU CẦU ..................................................... 52
3.2.4.2 GIAI ĐOẠN MÔ TẢ ................................................................. 52
3.2.4.3 GIAI ĐOẠN XÂY DỰNG KHO................................................ 52
3.2.4.4 GIAI ĐOẠN NHẬP VÀ QUẢN TRỊ DỮ LIỆU......................... 53
3.3 ĐÔI NÉT VỀ CÔNG CỤ THỰC HIỆN................................................ 53
3.3.1 HỆ QUẢN TRỊ CSDL SQL SERVER............................................. 53
3.3.2 BỘ CÔNG CỤ MICROSOFT SQL SERVER ................................. 54
3.3.3 NGÔN NGỮ TRUY VẤN ĐA CHIỀU MDX ................................. 54
3.3.3.1 KHÁI QUÁT CHUNG ............................................................... 54
3.3.3.2 SO SÁNH SỰ KHÁC NHAU GIỮA NGÔN NGỮ SQL VÀ
NGÔN NGỮ MDX ................................................................................ 56
3.4 PHÂN TÍCH, THIẾT KẾ KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ .. 57
3.4.1 NHÌN LẠI HỆ THỐNG THIẾT KẾ OLTP....................................... 57
3.4.1.1 PHÂN TÍCH DỊCH VỤ MUA BÁN HÀNG HOÁ HỮU HÌNH
VÀ PHI VẬT THỂ................................................................................. 59
3.4.1.2 PHÂN TÍCH DỊCH VỤ MUA BÁN MỘT SỐ DỊCH VỤ DU
LỊCH...................................................................................................... 61
3.4.2 PHÂN TÍCH HỆ THỐNG KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ
.................................................................................................................. 62
3.4.2.1 PHÂN TÍCH CÁC CHỨC NĂNG ............................................. 63
3.4.2.2 PHÂN TÍCH VỀ DỮ LIỆU....................................................... 65
3.4.2.3 XÁC ĐỊNH CÁC BẢNG SỰ KIỆN (FACT TABLE -FT) VÀ
CÁC BẢNG CHIỀU (DIMENSION TABLE) CỦA KHO DỮ LIỆU .... 66
3.4.3 THIẾT KẾ HỆ THỐNG ................................................................... 67
3.5 KẾT LUẬN CHƯƠNG 3........................................................................ 72
CHƯƠNG 4......................................................................................74
XÂY DỰNG KHO DỮ LIỆU TMĐT VÀ ......................................74
GIẢI PHÁP XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP...........74
4.1 TRÍCH CHỌN, XỬ LÝ, NẠP DỮ LIỆU VÀO KHO ............................. 74
4.1.1 TỔ CHỨC HỆ THỐNG.................................................................... 74
4.1.2 THU THẬP VÀ TẠO LẬP DỮ LIỆU CHO KHO DỮ LIỆU.......... 75
4.1.2.1 TRÍCH CHỌN, CHUYỂN TẢI VÀ NẠP DỮ LIỆU .................. 75
4.1.2.2 LỌC, TINH CHẾ DỮ LIỆU ...................................................... 75
4.1.2.3 THẨM ĐỊNH VÀ CHUYỂN ĐỔI DỮ LIỆU............................. 76
4.1.2.4 TÍCH HỢP DỮ LIỆU................................................................. 76
4.1.2.5 TẢI DỮ LIỆU VÀO KHO ......................................................... 76
4.2 XÂY DỰNG CÁC KHỐI VÀ CHIỀU CHO GIẢI PHÁP OLAP ........ 77
4.2.1 TIẾN TRÌNH TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU..... 77
4.2.2 XÂY DỰNG CÁC KHỐI OLAP..................................................... 78
4.2.2.1 KHỐI (CUBE)........................................................................... 78
4.2.2.2 CHIỀU (DIMENSION) .............................................................. 80
4.2.2.3 CÁC ĐƠN VỊ ĐO LƯỜNG (MEASURE) ................................ 81
4.2.2.4 CÁC PHÂN HOẠCH (PARTITION)......................................... 82
4.2.2.5 KHỐI ẢO................................................................................... 82
4.3 PHÂN TÍCH VÀ HIỂN THỊ DỮ LIỆU .................................................. 82
4.3.1 HIỂN THỊ DỮ LIỆU CỦA KHỐI .................................................... 82
4.3.2 TRUY VẤN DỮ LIỆU..................................................................... 83
4.4. CÀI ĐẶT MINH HOẠ .......................................................................... 83
4.4.1 TẠO KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ............................. 83
4.4.1.1 TẠO LẬP BẢNG CHIỀU .......................................................... 83
4.4.1.2 TẠO BẢNG SỰ KIỆN............................................................... 85
4.4.2 TẠO KHỐI....................................................................................... 89
4.5 KẾT LUẬN CHƯƠNG 4 ................................................................. 102
KẾT LUẬN ....................................................................................104
TÀI LIỆU THAM KHẢO.............................................................107
1. Đặt vấn đề
Trong thời đại của nền kinh tế tri thức mà chúng ta đang sống, mọi hoạt
động của chúng ta muốn đạt hiệu quả cao thì nhất thiết phải có được thông tin,
tri thức cần thiết một cách nhanh chóng và chính xác. Thông tin có thể có được
ở mọi nơi, mọi thời điểm và từ nhiều dạng khác nhau.
Mục tiêu của các tổ chức, các xí nghiệp là phải phục vụ tốt theo yêu cầu
của khách hàng, giành được ưu thế trong cạnh tranh để phát triển. Để có thể
quản lý được các hoạt động của xí nghiệp, người quản lý không chỉ cần biết cái
gì đang xảy ra mà còn phải biết được lý do tại sao. Trong giai đoạn xử lý dữ liệu
tự động nhờ những kỹ thuật của công nghệ thông tin, các xí nghiệp đã xây dựng
được nhiều ứng dụng để trả lời nhanh các câu hỏi "Những cái gì đã xảy ra?".
Các hệ thống thông tin hiện tại sẽ giúp cho các nhà quản lý hiểu được "tại sao
những điều đó lại xảy ra?" và để giành được lợi thế trong cạnh tranh, đáp ứng
yêu cầu thay đổi thường xuyên của người sử dụng thì các xí nghiệp phải đoán
biết được "Những gì có thể sẽ xảy ra tiếp theo?". Để có thể trả lời những câu hỏi
trên thì cần có các phương pháp, công cụ để tổ chức, xử lý khai thác tốt dữ liệu.
Những mục tiêu trên không dễ gì có được bởi vì dữ liệu ngày một nhiều,
lưu trữ ở nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng
phi cấu trúc. Người sử dụng thường xuyên gặp phải những khó khăn như:
không tìm thấy hay không lấy ra được dữ liệu cần thiết, không thể hiểu và sử
dụng được dữ liệu tìm thấy, tổng hợp dữ liệu rất khó khăn và chậm chạm, mất
nhiều thời gian, v.v..
Ngày nay, Internet đã mở ra nhiều khả năng và triển vọng cho các doanh
nghiệp, cung cấp cho chúng ta nhiều phạm trù thông tin phong phú, rất cần thiết
cho các hoạt động. WWW cung cấp đủ các thông tin về mọi lĩnh vực của xã hội
loài người, từ các công trình nghiên cứu, kết quả học tập, thông tin quảng cáo,
du lịch, thương mại điện tử,v.v...Tuy nhiên, một vấn đề đặt ra là làm thế nào để
tổ chức, khai thác được những khối lượng dữ liệu lớn và đa dạng đó.
Sự phát triển nhanh chóng của Internet không chỉ cung cấp cho chúng ta
một lượng thông tin lớn mà Internet ngày càng gắn liền với nhiều hoạt
thêm một số trường khoá đại diện, sau khi thực hiện các thao tác chuyển đổi thì
các trường khóa thay mặt này sẽ được chuyển vào kho.
Quá trình chuyển dữ liệu vào bảng BANHANG_FACT được thực hiện
như sau:
- Chuyển dữ liệu của các hệ tác nghiệp vào bảng BanHang_Source:
Insert into [DW_TMDT].dbo.[BanHang_Source] (MaDonHang, MaKH,
MaSP, MaNCC, NgayThang, TenPTTT, MaNganHang, SoLuong,
DonGia,ThanhTien)
Select a.OrderNo, a.CustomerID, b.ProductID, b.CompanyID,
a.OrderDate, a.SettleMode, a.BankCode, b.Quantity, b.UnitPrice,
b.SubTotal
From [TMDT].dbo.[Order] a, [TMDT].dbo.[OrderDetail] b Where
a.OrderNo=b.OrderNo
- So sánh dữ liệu trong bảng BanHang_Source và BanHang_Temp để tìm
ra những bản ghi mới và đưa vào bảng BanHang_Staging:
Insert into BanHang_Staging (MaDonHang, MaKH, MaSP, MaNCC,
NgayThang, TenPTTT, MaNganHang, SoLuong, DonGia,ThanhTien)
Select MaDonHang, MaKH, MaSP, MaNCC, NgayThang, TenPTTT,
MaNganHang, SoLuong, DonGia,ThanhTien
From BanHang_Source Where MaDonHangNot In (Select MaDonHang
From BanHang_Temp)
Tại bảng BanHang_Staging, ta sẽ thực hiện các thao tác biến đổi và
chuyển hoá dữ liệu cho phù hợp cấu trúc dữ liệu trong kho, cập nhật khoá đại
diện cho các bảng chiều. Dữ liệu được chuyển tới DW sau khi mọi thao tác đã
được thực hiện.
- Cập nhật khoá thay mặt cho bảng BanHang_Staging, ví dụ với chiều thời
gian và chiều cách thanh toán:
+ Cập nhật khoá thay mặt cho chiều thời gian:
4.4.2 Tạo khối
Sau khi xác định được các khối cần tạo để phục vụ cho mục đích hỗ trợ ra
quyết định. Chúng ta sẽ tiến hành việc xây dựng khối. Các khối được tạo tuỳ
thuộc vào yêu cầu của người sử dụng dữ liệu. Đối với công việc quản lý thương
mại điện tử, một số yêu cầu thông tin để hỗ trợ việc ra quyết định cho các chiến
lược thường cần là:
- Số lượng hàng bán ra, số tiền thu được của các sản phẩm, các nhóm sản
phẩm theo khu vực khách hàng, theo nhà cung cấp và theo thời gian.
- Số lượng khách đã mua hàng của từng nhà cung cấp theo khu vực và
theo thời gian
- Tổng số tiền đã thu được đối với các sản phẩm theo từng nhà cung cấp
trong các giai đoạn khác nhau.
- Số tiền đã thanh toán theo các loại hình thanh toán khác nhau đối với
mỗi nhà cung cấp hàng theo thời gian.
- Số tiền đã tham gia giao dịch theo khách hàng, nhóm khách hàng (theo
khu vực, theo thành phần khách hàng, theo giới tính) trong mỗi giai đoạn khác
nhau.
Với mỗi thông tin được yêu cầu, ta cần tạo một khối tương ứng để thực
hiện công việc tính toán trước. Dữ liệu tổng hợp sẽ được xử lý và lưu sẵn trong
các khối, khi cần ta thực hiện truy vấn và trả lời các yêu cầu được nhanh chóng
hơn.
Phần sau đây sẽ minh hoạ các thao tác để tạo một khối hoàn chỉnh và hiển
thị dữ liệu của khối. Khối được chọn thay mặt mô tả cho thao tác tạo khối là khối
phân tích "Số loại sản phẩm, số lượng bán ra, số tiền thu được và giá trị trung
bình theo loại sản phẩm, theo khu vực, theo nhà cung cấp và theo thời gian", ta
đặt tên khối cho này là Ban_Hang. Khối Ban_Hang có thể được dùng để trả
lời cho các câu hỏi có dạng như: "Siêu thị Intimex đã bán được bao nhiêu sản
phẩm và số lượng của từng loại cụ thể cho các khách hàng tại địa bàn Hà Nội
trong quý 1 năm 2003?" hay "Trong mỗi quý của năm 2004, mỗi nhà cung cấp
đã bán được bao nhiêu sản phẩm ở mỗi tỉnh, con số cụ thể cho từng loại sản
phẩm của từng nhà cung cấp?", v.v...
Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 
Last edited by a moderator:

Các chủ đề có liên quan khác

Top