Hồi
qui Logistic với SQL Server Analysis Services
chuc1803@gmail.com
Hồi qui logistic là kỹ thuật để phân
tích mối liên hệ giữa biến độc lập với biến phụ thuộc là biến nhị phân (có 2 trạng
thái| giá trị) được phát triển bởi David R. Cox vào những năm 1958 và ngày càng
được ứng dụng rộng rãi.
Bài viết này giới thiệu cách thực hiện hồi
qui Logistic với SQL Server Analysis
Services
Mô tả tình huống ứng dụng: Xây dựng mô hình dự đoán giới tính
(Gender: Male|Female) dựa vào 2 thông số là độ dài của tóc (Hair Length: Short,
Medium, Long) và chiều cao (Height: tính bằng cm).
Chú ý: Gender là biến phụ thuộc,
Hair Length và Height là biến độc lập. Hair Length có kiểu dữ liệu rời rạc
(discrete) và Height có kiểu liên tục (continuous).
Dữ
liệu minh họa gồm 100 quan sát như sau:
Mở SQL Server Data Tools, tạo Analyis Project có
tên LogisticRegression
Tạo
DataSource kết nối với CSDL SQL Server
Tạo
DataSource Views
Tạo Mining Structure chọn Logistic Regression như sau:
Chọn bảng dữ liệu cho mô hình
Thiết lập key,
input và Predict cho mô hình như sau:
Thiể
lập kiểu dữ liệu cho các biến độc lập và phụ thuộc của model
Chọn dữ liệu để test mô hình. Dữ liệu để
xây dựng (training) và kiểm tra (testing) mô hình có thể dùng chung 1 data set
và thông thường dữ liệu để test model là 30%. Nếu dữ liệu để test model trong 1
data set khác hoặc muốn dùng 100% dữ liệu để training model thì để testing data
bằng 0.
Đặt tên cho Model
Kết
quả sau khi thực thi mô hình như sau (bấm F5 hoặc chọn Deploy):
Kết
quả của mô hình cho thấy:
Nếu chiều cao trong khoảng :145.517 cm đến
163.436cm thì giới tính là nữ (Female)
Nếu chiều cao trong khoảng :177.066 cm đến
192.612cm thì giới tính là nam (Male)
Nếu tóc ngắn (Hair Length = Short) thì
giới tính là Nam và tóc dài (Hair Length = Long) thì giới tính là Nữ.