Phân lớp dữ liệu
bằng cây quyết định với Python
chuc103@gmail.com,
bis.net.vn
Cây quyết định (Decision Tree) là kỹ thuật
phân lớp dữ liệu được sử dụng phổ biến trong khai phá dữ liệu bởi tính đơn giản,
dễ hiểu và hiệu quả. (xem thêm về cây quyết định ở đây: http://bis.net.vn/forums/p/378/661.aspx)
Bài
viết này minh họa cách sử dụng Python để phân lớp dữ liệu
Mục đích bài toán: Dựa vào kết quả chạy quảng cáo trên 3 kênh truyền thông Youtube, facebook và Newspaper của một công ty sau 200 lượt chạy quảng cáo, xây dựng mô hình dự báo bằng cây quyết định để dự báo kết quả của hoạt động marketing của công ty. (Download Dataset tại
đây)
Mô tả dataset:
Dữ liệu về kết quả chạy quảng cáo trên 3 kênh truyền thông của một công ty, gồm
4 cột và 200 dòng như sau:
Step
1:
Load các thư viện và đọc dữ liệu từ file
Excel:
Step
2. Thống
kê mô tả dữ liệu
Step
3.
Visualize the dataset
Step
4.
Rời rạc hóa dữ liệu, chuyển dữ liệu trong cột sales từ liên tục sang rời rạc gồm
3 giá trị: Low, Medium và High
Step
5.
Xóa cột sales
Step
6.
Chuẩn bị dữ liệu để huấn luyện mô hình (train|test split): 70% training set và
xây dựng mô hình cây quyết định.
Step
7.
Các tham số đánh giá mô hình cây quyết định
Step
8.
Hiệu suất của mô hình và sử dụng mô hình để dự đoán
Step
9.
Đánh giá mức độ ảnh hưởng của các thuộc tính
Step
10.
Visualize cây quyết định