Khai phá luật kết hợp với Microsoft Association Rule
Nguyễn Văn Chức - chuc1803@gmail.com
Khai phá luật kết hợp (Association Rule Discovery) là kỹ thuật rất quan trọng trong lĩnh vực khai phá dữ liệu. Mục đích của việc khai phá luật kết hợp là tìm ra các mối quan hệ, sự kết hợp hay mối tương quan giữa các đối tượng trong khối lượng lớn dữ liệu (xem thêm về luật kết hợp tại http://bis.net.vn/forums/t/382.aspx).
Bài viết này giới thiệu công cụ Microsoft Association Rule trong việc xây dựng mô hình phát hiện luật kết hợp.
Mô tả dữ liệu sử dụng trong mô hình:
Dữ liệu dùng để xây dựng mô hình phát hiện luật kết hợp là kho dữ liệu AdventureWorksDW của công ty sản xuất xe đạp Adventure Works. Mô hình sử dụng 2 view chứa dữ liệu về bán hàng (xe đạp) của công ty là vAssocSeqOrders và vAssocSeqLineItems. Cấu trúc 2 views như sau:
vAssocSeqOrders
vAssocSeqLineItems
Cũng như qui trình xây dựng các Data Mining Model khác, qui trình xây dựng mô hình khai phá luật kết hợp với BIDS theo 3 bước sau:
· Tạo một Mining Model structure
· Hiệu chỉnh model
· Khai phá dữ liệu từ Model
Tạo một Mining Model structure
Trước tiên, tạo một Analysis Services Project với tên “Association Rule Model” và tạo kết nối dữ liệu, tạo một Data Source và Data Source view gồm dữ liệu là 2 views là vAssocSeqOrders và vAssocSeqLineItems (Xem cách tạo mới Data Source và Data Source View trong BIDS tại http://bis.net.vn/forums/t/458.aspx).
1. Trong cửa sổ Solution Explorer, right-click Mining Structures, click New Mining Structure.
2. Click Next
3. Click From existing relational database or data warehouse, click Next.
4. Trong mục What data mining technique do you want to use?, chọn Microsoft Association Rules.
5. Click Next.
6. Trong mục Select data source view chọn Adventure Works DW
7. Chọn Case là vAssocSeqOrders và Nested là vAssocSeqLineItems, lick Next.
8. Thiết chọn các thuộc tính Key, Input và Predictable cho mô hình như sau:
9. Click Next
10. Click Next
11. Đặt tên cho Mining Structures và Click Finish
Màn hình Mining Models như sau:
Hiệu chỉnh tham số cho mô hình:
Trong cửa sổ Mining Models, bấm phím phải chuột vào Microsoft_Association_Rules và chọn Set Algorithm Parameters và thiết lập giá trị 2 tham số MINIMUM_PROBABILITY là 0.1 và MINIMUM_SUPPORT là 0.01 như sau:
Thực hiện Mining Models
Sau khi hiệu chỉnh các tham số của Mining Models, bấm F5 để thực hiện mô hình
Khám phá Mining Models
Kết quả của Microsoft Association Rules thể hiện trong Tab Mining Models Viewer bởi 3 nội dung chính là Itemsets, Rules, và Dependency Net
Itemsets: Itemsets cho biết các thông tin quan trọng của luật kết hợp như Support (độ hỗ trợ của luật kết hợp), Size (Số items trong Itemsets). Để hiển thị các Itemsets có chứa một item nào đó (ví dụ mẫu xe Mountain-200) thì nhập Mountain-200 trong ô Filter Itemset.
Hình trên với Itemsets có Support là 710 gồm 2 items đó là Mountain-200 và Sport-100 có nghĩa là trong tất cả các giao dịch thì có 710 giao dịch trong đó khách hàng mua loại xe Mountain-200 thì cũng mua loại xe Sport-100.
Rules Tab: Phần này trình bày các luật kết hợp được phát hiện bởi mô hình. Các thông tin về luật kết hợp bao gồm:
Probability: Cho biết xác suất xảy ra của luật.
Importance: Đo lường tính hữu dụng của luật, giá trị này càng cao thì luật kết hợp càng tốt.
Rules: Phần này thể hiện các luật kết hợp dạng x==>Y
Các luật này cho biết sự kết hợp giữa các items trong cở sở dữ liệu giao dịch. Chẳn hạn luật kết hợp thứ 2 cho bạn biết rằng nếu một khách hàng nào đó mua các sản phẩm là xe đẹp model Mountain-200 và Water Bottle thì người đó luôn mua sản phẩm Mountain Bottle Cage với xác suất 100%.
Dependency Net (Mạng phụ thuộc):
Sử dụng Dependency Net cho phép bạn hiểu được sự tác động của các items khác nhau trong Model. Mỗi Node trong Dependency Net thể hiện một Item, bằng cách chọn một item bạn sẽ thấy được các items khác được xác định bởi Item đã chọn (hoặc dùng để xác định Item đã chọn) trong model.
Bạn có thể kéo thanh trượt (Slile) bên phải để xem các mức độ kết hợp (mạnh hay yếu) giữ các Items trong model.
Trong Dependency Net, nếu chọn Node Mountain bottle Cage ta sẽ thấy rằng Item Mountain bottle Cage có thể được dự đoán bởi 2 items khác đó là water bottle và Mountain-200 hoặc Mountain bottle Cage được dùng để dự đoán 2 Items water bottle và Mountain-200 (Dấu mũi tên 2 chiều, xem hình dưới).
Điều này có nghĩa là những sản phẩm này có khả năng được mua cùng nhau. Nếu khách hàng nào đó mua xe đạp thì có khả năng họ mua kẹp để bình đựng nước và bình đựng nước. Các thông tin này có thể giúp cho bộ phận bán hàng đặt các sản phẩm có khả năng mua cùng nhau cạnh nhau để giúp cho khách hàng khỏi mất công tìm kiếm cũng như xây dựng các chiến lược marketing hiệu quả (chẳn hạn không nên khuyến mãi cùng lúc các hằng thường được mua cùng nhau).
All comments please send to chucnv@ud.edu.vn. Thank you and Welcome!