Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Phân lớp dữ liệu bằng cây quyết định với Python

Bài cuối 05-28-2020 07:22 PM của chucnv. 0 trả lời.
Trang 1 trong số 1 (1 nội dung)
Sắp xếp bài viết: Trước Tiếp theo
  • 05-28-2020 07:22 PM

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Phân lớp dữ liệu bằng cây quyết định với Python

    Phân lớp dữ liệu bằng cây quyết định với Python

    chuc103@gmail.com, bis.net.vn

    Cây quyết định (Decision Tree) là kỹ thuật phân lớp dữ liệu được sử dụng phổ biến trong khai phá dữ liệu bởi tính đơn giản, dễ hiểu và hiệu quả. (xem thêm về cây quyết định ở đây: http://bis.net.vn/forums/p/378/661.aspx)

    Bài viết này minh họa cách sử dụng Python để phân lớp dữ liệu

    Mục đích bài toán: Dựa vào kết quả chạy quảng cáo trên 3 kênh truyền thông Youtube, facebook và Newspaper của một công ty sau 200 lượt chạy quảng cáo, xây dựng mô hình dự báo bằng cây quyết định để dự báo kết quả của hoạt động marketing của công ty. (Download Dataset tại đây)

    Mô tả dataset: Dữ liệu về kết quả chạy quảng cáo trên 3 kênh truyền thông của một công ty, gồm  4 cột và 200 dòng như sau:


    Step 1: Load các thư viện và đọc dữ liệu từ file Excel:


    Step 2.  Thống kê mô tả dữ liệu


    Step 3. Visualize the dataset



    Step 4. Rời rạc hóa dữ liệu, chuyển dữ liệu trong cột sales từ liên tục sang rời rạc gồm 3 giá trị: Low, Medium và High


    Step 5. Xóa cột sales


    Step 6. Chuẩn bị dữ liệu để huấn luyện mô hình (train|test split): 70% training set và xây dựng mô hình cây quyết định.


    Step 7. Các tham số đánh giá mô hình cây quyết định


    Step 8. Hiệu suất của mô hình và sử dụng mô hình để dự đoán


    Step 9. Đánh giá mức độ ảnh hưởng của các thuộc tính



    Step 10. Visualize cây quyết định


     
    • Điểm chủ đề: 20
Trang 1 trong số 1 (1 nội dung)
Powered by Community Server (Commercial Edition), by Telligent Systems