THỰC
HIỆN HỒI QUI TUYẾN TÍNH VỚI SQL SERVER ANALYSIS SERVICES
chuc1803@gmail.com
Hồi qui là mô hình dự đoán được sử dụng rất phổ biến
trong phân tích dữ liệu (xem thêm về hồi qui tại đây: http://bis.net.vn/forums/t/722.aspx
Bài viết này giới thiệu cách triển khai mô hình hồi
qui tuyến tính với công cụ SQL Server Analysis Services.
Giả sử để nghiên cứu sự phụ thuộc của kết quả thi
môn toán của kỳ thi SAT vào thời gian học chuẩn bị cho việc thi (giờ). Người ta thu thập dữ liệu
như sau:
Scatter plot mô tả mối quan hệ giữa Math Score và
Hour Spend
Tạo Analysis Project có tên LinearRegressionModel
Trong của sổ Solution Explorer tạo một Data Source
như sau:
Tạo tiếp Data Source Views như sau:
Trong cửa sổ Solution
Explorer tạo mới Data Mining structure hồi qui tuyến tính như sau:
Chọn bảng dữ liệu cho Model
Thiết lập các tham số cho mô hình hình qui tuyến
tính: biến độc lập (input), biến phụ thuộc (Predict), Khóa (Key)
Chọn dữ liệu để test mô hình. Dữ liệu để xây dựng (training)
và kiểm tra (testing) mô hình có thể dùng chung 1 data set và thông thường dữ
liệu để test model là 30%. Nếu dữ liệu để test model trong 1 data set khác hoặc
muốn dùng 100% dữ liệu để training model thì để testing data bằng 0.
Kết quả sau khi Deploy mô hình
Nhắc lại mô hình hồi qui tuyến tính đơn như sau:
Mô hình hồi qui tuyến tính mô tả sự phụ thuộc của kết
quả môn toán kỳ thi SAT vào thời gian học (giờ) như sau:
Math
SAT Score = 353.284+25.314*Hour Spent Studying
Hoặc: Math SAT Score = 592.501+25.314*(Hours Spent Studying-9.450)
Sử
dụng mô hình để dự đoán
Giả sử một người có thời gian chuẩn bị cho kỳ thi là 15 giờ thì
theo mô hình hồi qui đã xây dựng, họ kỳ vọng đạt được bao nhiêu điểm toán kỳ thi SAT. Ta làm như sau:
Trong Tab Mining Model Prediction chọn Select Case
Table, chọn Input Table như sau:
Right Click vào Input Table chọn SingletonQuery để
thiết kế truy vấn dự đoán
Thiết kế truy vấn dự đoán điểm toán cho số
giờ học chuẩn bị cho kỳ thi là 15 giờ như sau:
Kết quả truy vấn (Chọn Result góc trên trái của của
sổ thiết kế truy vấn)
So sánh với kết quả thực hiện hồi qui tuyến tính với
hàm tính hệ số chặn (Intercept) và hàm tính độ dốc (Slope) trong Excel. Kết quả
như sau:
XEM VIDEO HƯỚNG DẪN Ở ĐÂY