Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft
Nguyễn Văn Chức – chuc1803@gmail.com
BIDS là công cụ cho phép tổ chức quản lý và khai thác kho dữ liệu (Xử lý phân tích trực tuyến) cũng như xây dựng các mô hình khai phá dữ liệu rất dễ sử dụng và hiệu quả của Microsoft. (Xem bài viết về Phân tích OLAP với BIDS tại http://bis.net.vn/forums/p/450/826.aspx#826). Bài viết này giới thiệu khả năng xây dựng các mô hình khai phá dữ liệu của BIDS.
BIDS cho phép triển khai các mô hình khai phá dữ liệu sau:
Micorosft Decision Tree (Cây quyết định)
Microsoft Clustering (Phân cụm)
Micorosoft Naive Bayes(Phân lớp với Bayes Rules)
Micorosoft Time Series (Chuỗi thời gian)
Micorosoft Association (Luật kết hợp)
Micorsoft Sequence Clustering (Phân tích chuỗi)
Microsoft Neural Network (Mạng Neural)
Micorsoft Linear Regression(Hồi qui tuyến tính)
Micorsoft Logistics Regression(Hồi qui logistics)
Qui trình Xây dựng mô hình khai phá dữ liệu với BIDS như sau :
· Tạo mới 1 project (Analysis Services Project)
· Tạo một Data Source
· Tạo một Data Source View
· Tạo một Mining model structure.
· Tạo các Mining models.
· Khai thác Mining models.
· Kiểm tra độ chính xác của Mining Models.
· Sử dụng Mining Models để dự đoán.
(Qui trình tạo mới Analysis Services Project, Data Source, Data Source View được giới thiệu chi tiết trong bài Phân tích OLAP với BIDS, xem tại : http://bis.net.vn/forums/p/450/826.aspx#826)
Mô tả dữ liệu và mục tiêu khai phá dữ liệu
Cơ sở dữ liệu được sử dụng để minh họa trong bài viết này có tên là AdventureWorksDW, đây là kho dữ liệu của công ty Adventure Works chuyên sản xuất xe đạp. Cơ sở dữ liệu mẫu này có sẵn khi bạn cài SQL Server. Mục đích của việc xây dựng các mô hình khai phá dữ liệu nhằm để phân loại khách hàng, tìm ra các khách hàng tiềm năng cũng như dự đoán được khách hàng nào có thể mua sản phẩm của công ty Adventure Works giúp cho bộ phận Marketing xây dựng các chiến lược quảng cáo, tiếp thị nhằm mở rộng thị trường, tìm kiếm khách hàng, mở rộng kinh doanh.
Sau đây mô tả chi tiết từng bước quá trình xây dựng mô hình khai phá dữ liệu với BIDS
1. Khởi động SQL Server Business Intelligence Development Studio tạo 1 project mới có tên “SQL_DM”
2. Tạo Data Source kết nối đến CSDL AdventureWorksDW
3. Tạo một Data Source View (Trong Data Source view chọn dữ liệu lấy từ View có tên “vTargetMail”
4. Tạo một Mining Model Structure
Trong cửa sổ Solution Explorer, bấm phải chuột trên mục Mining Structures chọn New Mining Structure. Bấm Next và chọn From existing relational database or data warehouse và bấm Next và chọn Decision tree
Bấm Next và chọn Data Source View đã tạo AdventureWorksDW. Bấm Next và chọn Case là vTargetMail và bấm Next. Chọn khóa là CustomerKey.
Chọn Cột cần dự doán (Predictable) là BikeBuyer và các cột dùng để dự đoán (input) gồm:
Age
|
YearlyIncome
|
Region
|
CommuteDistance
|
HouseOwnerFlag
|
TotalChildren
|
EnglishEducation
|
LastName
|
|
EnglishOccupation
|
MaritalStatus
|
|
FirstName
|
NumberCarsOwned
|
|
Gender
|
NumberChildrenAtHome
|
|
Chú ý: Sau khi chọn thuộc tính predictable, bạn chỉ cần nhấn nút Suggest thì hệ thống đề nghị cho bạn các thuộc tính Input tính liên quan đến thuộc tính predictable đã chọn.
Bấm Next và bấm nút Detect để xác định nội dung và kiểu dữ liệu của các thuộc tính được sử dụng trong model.
Bấm Next và đặt tên cho model là Decision Tree và bấm Finish
Màn hình của Mining Structure như sau:
Hiệu chỉnh Mô hình
Khi tạo một Mining Structure ban đầu chỉ có một mô hình khai phá dữ liệu dựa trên kỹ thuật Decision Tree, trong phần này chúng ta có thể sử dụng các kỹ thuật khai phá dữ liệu khác để đạt được mục đích nghiên cứu cũng như so sánh hiệu quả khai phá dữ liệu của các mô hình để chọn ra mô hình tốt nhất. Ở đây ta sử dụng thêm 2 mô hình nữa là Microsoft Naïve Bayes model và Microsoft Clustering model.
Tạo Microsoft Clustering model
1. Click Mining Structures tab.
2. Right-click Targeted Mailing và click New Mining Model.
3. Ở mục Model Name, gõ tên mô hình (ở đây là Clustering)
4. Ở mục Algorithm Name, chọn Microsoft Clustering.
5. Click OK.
Tương tự, tạo thêm một Naïve Bayes model trong Mining Structures
Thực thi (deploy) Mining Models
Sau khi đã định nghĩa Mining Structures và các Mining Models như trên, bây giờ bạn phải thực thi các models bằng cách bấm F5
Mining Structures và 3 Mining Models là Decision Tree, Clustering và Naïve Bayes được tạo ra và Deploy thành công như sau:
Sau khi thực thi các Models đã xây dựng, bạn có thể kiểm tra kết quả, độ chính xác cũng như việc sử dụng các Mining Models này cho việc dự đoán các dữ liệu chưa biết bằng các tab: Mining Model Viewer (xem kết quả), Mining Accuracy Chart (kiểm tra tính chính xác), Mining Model Prediction (Dùng để dự đoán).
Decision Tree Model:
Clustering Model
Naïve Bayes Model (Dependence Network)
Attribute Discrimination
Sử dụng Attribute Discrimination Tab để khám phá mối quan hệ giữa các giá trị rời rạc của biến dự đoán (Predictable Variable) và giá trị của các thuộc tính khác. Thuộc tính dự đoán Bike Buyer trong ví dụ này chỉ có 2 giá trị là 1 (mua) và 0 (không mua), hình trên cung cấp thông tin những khách hàng không sở hữu xe hơi (Number Cars Owned =0) có xu hướng mua xe đạp và những người sở hữu 2 xe hới có xu hướng không mua xe đạp
Attribute Profile
Độ chính xác của Mining Models
Kiểm tra độ chính xác của các models để biết khả năng dữ đoán chính xác của các mining models bằng Tab Mining Accuracy Chart. Phương pháp kiểm tra này sử dụng Test data (là dữ liệu được tách ra từ training dataset ban đầu và Test data không được dùng vào quá trình quá trình xây dựng model. Có nghĩa là một mẫu dữ liệu thuộc test data thì không xuất hiện trong Training Dataset). BIDS vẽ thêm mô hình lý tưởng (Ideal Model, mô hình mà dự đoán đúng 100% các mẫu) để dễ dàng so sánh hiệu quả dự đoán của các Mining models. Hai công cụ chính để mô tả độ chính xác của các Mining models mà BIDS dùng là Lift chart và Classification Matrix
Chọn tab Mining Accuracy Chart và chọn Case Table
Lift Chart tương ứng với 3 Mining Models
Classifiaction Matrix tương ứng với 3 Mining Models
Dựa vào Lift Chart hay Classification Matrix, ta thấy rằng Decision Tree Model có khả năng dự đoán chính xác cao nhất (80%), sau đó là Naïve Bayes Model (67%) và cuối cùng là Clustering Model (63%).
Sử dụng mô hình để dự đoán
Sau khi chọn được mô hình phù hợp (tốt nhất), bước tiếp theo là sử dụng mô hình đó cho việc dự đoán. Bạn có thể sử dụng ngôn ngữ DMX để thiết lập các quyery cho dự đoán.
Các bước sử dụng model để dự đoán như sau:
Giả sử ta sử dụng mô hình Decision Tree (Mô hình có dự đoán chính xác cao nhất trong 3 Mining models đã xây dựng) để dự đoán khả năng khách hàng mua xe đạp như sau:
Trong Tab Mining Model Prediction, chọn Select case table, chọn vTargetMail
Chọn Decision Tree trong mục Select Model Và thiết kế một prediction Query như sau:
Để xem kết quả của dự đoán, chọn mục Result ở góc trên bên trái của của sổ thiết kế Prediction Query. Kết quả như sau
Các cột CustomerKey, BikeBuyer, và Expression được dùng để xác định khách hàng nào tiềm năng (có khả năng mua sản phẩm - ở đây là xe đạp). Và xác suất của các dự đoán chính xác. Bộ phận Marketing có thể sử dụng kết quả này để xây dựng chiến dịch quảng cáo, tiếp cận khách hàng của mình (chẳn hạn quyết định gởi email quảng cáo cho nhóm khách hàng nào), cũng như đề xuất các chiến dịch khuyến mãi, quảng cáo phù hợp với từng nhóm khách hàng để đạt được lợi nhuận cao nhất.
Bài viết này nhằm giới thiệu sơ lượt công cụ xây dựng các Mining Models với BIDS của SQL SERVER, không tập trung nào việc giải thích ý nghĩa kết quả của Mining Models. BIDS là công cụ rất tốt trong việc xây dựng các Mining Models bởi tính dễ sử dụng, tính trực quan cao nên dễ hiểu và dễ giải thích kết quả của mô hình (đây là yêu cầu rất quan trọng đối với việc xây dựng các Mining Models). Ngoài ra BIDS lấy dữ liệu từ các hệ quản trị cơ sở dữ liệu quan hệ nên việc thu thập dữ liệu cho Mining Models rất thuận tiện.
All comments please send to chucnv@ud.edu.vn. Thank you and Welcome