ỨNG DỤNG NEURAL NETWORK KHAI PHÁ DỮ LIỆU VỚI SQL
SERVER ANALYSIS SERVICES
chuc1803@gmail.com
Mạng Neuron nhân tạo (Artificial Neural
Network- ANN) là mô hình xử lý thông tin được mô phỏng dựa trên hoạt động của
hệ thống thần kinh của sinh vật, bao gồm số lượng lớn các Neuron được gắn kết
để xử lý thông tin. ANN giống như bộ não con người, được học bởi kinh nghiệm
(thông qua huấn luyện), có khả năng lưu giữ những kinh nghiệm hiểu biết (tri
thức) và sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết
(unseen data).
Các ứng dụng của mạng Neuron được sử dụng
trong rất nhiều lĩnh vực như điện, điện tử, kinh tế, quân sự,… để giải quyết
các bài toán có độ phức tạp và đòi hỏi có độ chính xác cao như điều khiển tự
động, khai phá dữ liệu, nhận dạng,…
Xem
thêm về kỹ thuật Neural Network tại đây: http://bis.net.vn/forums/t/482.aspx
Bài
viết này hướng dẫn triển khai khai phá dữ liệu bằng kỹ thuật Neural Network với
SQL Server Analysis Services.
Mô tả yêu cầu:
Một
công ty kinh doanh xe đạp thể thao muốn lập một chiến dịch email marketing, hiện
tại trong kho dữ liệu khách hàng họ có 10.000 khách hàng để gởi email quảng
cáo. Vấn đề là làm sao để nâng cao hiệu quả của chiến dịch marketing. Trong điều
kiện hạn chế về kinh phí nên họ chỉ có thể thực hiện chiến dịch email Marketing
cho khoảng 30% trong số 10000 khách hàng đã có. Vì vậy, họ sử dụng kỹ thuật
khai phá dữ liệu để tìm ra những khách hàng có khả năng mua xe đạp để gởi email
(thay vì phải chọn ngẫu nhiên các khách hàng để gởi email)
Dữ liệu về khách
hàng của công ty đang có như sau: (10000 dòng)
Download Data Source tại ĐÂY
Tạo
Analysis Project có tên : NeuralNetworkExample
Trong Solution Explorer tạo Data Source
Tiếp tục tạo Data Source Views như sau:
Tạo Mining Structure chọn Neural Network như sau:
Chọn bảng dữ liệu
cho mô hình
Thiết
lập key, input và Predict cho mô hình như sau:
Điều chỉnh cấu
trúc của các cột dữ liệu trong Data Source
Xác định % dữ liệu
để Training và Testing Model
Project Data Mining:
Kết quả sau khi Deploy mô hình:
Dựa
vào kết quả của mô hình ta có thể dễ dàng nhận ra đặc điểm của khách hàng có khả
năng qua xe đạp hoặc không. Chẳng hạn theo kết quả trên thì những khách hàng có
thu nhập hàng năm vào khoảng 78.000 – 153.000 hoặc những khách hàng chưa có trẻ
con thường có xu hướng mua xe đạp còn những khách hàng có 3 hoặc 4 con thì có
xu hướng không mua xe đạp.... Dựa vào những tri thức này, bộ phận marketing có
thể chọn ra những khách hàng tiềm để thực hiện chiến dịch email marketing hiệu
quả.
Sử dụng mô hình Neural
Network để dự đoán.
Giả sử có thông tin về khách hàng như sau:
Khách
hàng là nữ (Gender = Female); 27 tuổi
(Age =27); chưa có xe hơi (Cars =0);
chưa có con (Children =0); khoảng cách từ nhà đến nơi làm việc dưới 1 dặm
(commute distance =0-1 Miles); học vấn cấp 3 (Education = High School); đã có
nhà (Home Owner = Yes); chưa kết hôn (Marital Status = Single); nghề nghiệp quản
lý (Occupation = Management); thu nhập hằng năm khoảng 120000 (Yearly Income=
120000)
Để dự đoán khả
năng khách hàng này có mua xe đạp không, trong Tab Mining Model Prediction thiết
kế truy vấn dự đoán như sau:
Kết quả dự đoán cho thấy khả năng khách
hàng này mua xe đạp là gần 70%