Sử dụng Lift Chart để đánh giá hiệu quả các mô hình khai phá dữ liệu
Nguyễn Văn Chức – chuc.nv@due.edu.vn
Ta biết rằng để đánh giá hiệu quả của các mô hình khai phá dữ liệu (Data Mining Models – DMM), chúng ta có thể căn cứ vào rất nhiều tiêu chí như tính chính xác (Accuracy), tính ổn định (Reliability), tính hữu dụng (Usefulness). Trong đó, tính chính xác là tiêu chí được đánh giá đầu tiên bởi tầm quan trọng của nó đối với các DMM. Để đánh giá tính chính xác của các DMM người ta thường căn cứ vào 2 công cụ là Confusion Matrix và Lift Chart. Trong khi Confusion Matrix biểu diễn kết quả dự đoán của DMM dưới dạng ma trận so sánh giữa kết quả dự đoán của mô hình với kết quả thực sự của Testing Data (xem bảng sau) thì Lift Chart cho phép mô tả tính chính xác của DMM dưới dạng trực quan, và cung cấp nhiều thông tin về kết quả của nhiều DMM hơn cùng lúc, giúp ta so sánh và chọn ra mô hình tốt nhất dễ dàng hơn (Xem hình dưới). Bài viết này giới thiệu cách sử dụng Lift Chart trong việc đánh giá các DMM. Chú ý rằng Lift Chart chỉ sử dụng cho các DMM dự đoán các giá trị rời rạc của biến dự đoán, vì vậy không thể sinh Lift Chart khi sử dụng mô hình dự đoán các biến liên tục như Regression hay Time Series.
Xem thêm về Confusion Matrix để đánh giá DMM ở đây: http://bis.net.vn/forums/t/366.aspx
Lift Chart
Đặt vấn đề:
Giả sử bộ phận Marketing của công ty sản xuất và kinh doanh xe đạp Adventure Work muốn triển khai một chiến dịch quảng cáo qua Email. Căn cứ vào chiến dịch quảng cáo qua Email trước đây, họ biết rằng tỷ lệ khách hàng trả lời Email là 10%. Hiện tại trong Database của công ty có 10000 khách hàng, vì vậy nếu theo tỷ lệ phản hồi trước đây thì nếu gởi email cho tất cả 10000 khách hàng thì họ mong muốn nhận được 1000 phản hồi.
Tuy nhiên, vấn đề là công ty không có đủ kinh phí để gởi email cho tất cả 10000 khách hàng trong Database, họ chỉ có thể gởi email cho 5000 khách hàng. Vậy phòng Marketing có 2 lựa chọn:
- Chọn ngẫu nhiên 5000 khách hàng trong database để gởi email quảng cáo
- Sử dụng một Mining model để chọn ra 5000 khách hàng trong database người có khả năng trả lời email nhiều nhất.
Trong trường hợp chọn ngẫu nhiên 5000 khách hàng, phòng Marketing chỉ hy vọng nhận được 500 phản hồi từ khách hàng (theo tỷ lệ phản hồi 10%). Tuy nhiên nếu sử dụng một Mining Model để chọn ra 5000 khách hàng để gởi email thì họ có thể hy vọng nhận được số phản hồi lớn hơn 500 (thậm chí nếu lý tưởng có thể nhận được số phản hồi là 1000) vì mining Model chọn ra những khách hàng có khả năng trả lời email cao nhất để gởi quảng cáo. Đường dự đoán của mô hình sẽ nằm giữa đường chọn ngẫu nhiên (Random Guessing) và lý tưởng (Ideal). Nếu đường dự đoán của mô hình càng gần với đường lý tưởng (càng được nâng lên so với đường Random vì vậy gọi là Lift) thì càng tốt.
Các loại Lift Chart:
Có 2 loại Lift Chart đó là Lift Chart trong đó có xác định giá trị của thuộc tính dự đoán và Lift Chart không xác định giá trị của thuộc tính dự đoán.
Lift Chart thứ nhất: Lift Chart khi xác định giá trị cụ thể của thuộc tính dự đoán
Giả sử trong mô hình cây quyết định dự đoán khả năng mua xe đạp của khách hàng đã xây dựng (xem tại đây :http://bis.net.vn/forums/t/458.aspx), trong Lift Chart thuộc tính dự đoán là BikeBuyer (Mua xe đạp, có 2 giá trị là 1:mua và 0: không mua), nếu ta chọn giá trị cho BikeBuyer là 1 cho Lift Chart có nghĩa Lift Chart thể hiện khả năng dự đoán của mô hình cho các khách hàng có khả năng mua xe đạp.
Trong Lift Chart, trục x biểu diễn phần trăm của Test data set sử dụng để so sánh với kết quả dự đoán, trục y biểu diễn phần trăm của giá trị dự đoán.
Trong hình trên:
A : Lift cho Unfiltered Model (Mô hình đối với toàn bộ dữ liệu)
B: Đường chéo (bule line) biểu diễn kết quả của việc chọn ngẫu nhiên (không cần mô hình)
C: Lift cho filtered Model (Mô hình đối với các khách hàng dưới 30 tuổi)
D: Đường lý tưởng cho Unfiltered Model
E: Đường lý tưởng đối với Filtered Model
Trong ví dụ trên, xét đường lý tưởng đối với Filtered Model (E – Dark Blue line) và đường dự đoán đối với Filtered Model (C- Yellow line), ta thấy rằng, đường lý tưởng lập đỉnh tại x xung quanh 40%, điều này có nghĩa rằng nếu ta có mô hình lý tưởng (mô hình dự đoán chính xác 100% các trường hợp), ta có thể đạt được 100% khách hàng (=1000) phản hồi email quảng cáo bằng cách gởi email cho 40% trong tổng số khách hàng trong database (tương ứng 4000 khách hàng)
Trong khi đó, đối với Lift thực sự của filtered Model (C – Yellow line), khi ta gởi email cho khoảng 40% trong tổng số khách hàng thì chỉ đạt được khoảng 65% khách hàng phản hồi.
Trong Lift Chart, Mining Legend giúp ta có thể xem các giá trị tại bất cứ điểm nào trên của đồ thị bằng cách di chuyển thanh trượt dọc (Gray line). Trong hình trên, gray line được đặt ở vị trị 30%, khi đó mining Legend tại chứa các giá trị như sau:
Models
|
Score
|
Target population
|
Predict probability
|
Targeted mailing all
|
0.71
|
47.40%
|
61.38%
|
Targeted mailing under 30
|
0.85
|
51.81%
|
46.62%
|
Random guess model
|
|
31.00%
|
|
Ideal model for: Targeted mailing all
|
|
62.48%
|
|
Ideal model for: Targeted mailing under 30
|
|
65.28%
|
|
Theo kết quả trên ta thấy, đối với Targeted mailing all (Unfiltered Model), nếu ta gởi email cho 30% tổng số khách hàng trong Database, thì ta nhận được phản hồi là 47,40%. Còn đối với Targeted mailing under 30 (Filtered Model) ta nhận được gần 52% phản hồi.
Giá trị của Xác suất dự đoán (Predict Probability): Đây là giá trị ngưỡng (Threshold) của mô hình dự đoán. Chẳn hạn với mô hình Targeted mailing all có giá trị predict probability là 61.38% có nghĩa là nếu dùng mô hình này để dự đoán thì các dự đoán có giá trị ít nhất 61.38% mới đáng tin cậy. Việc so sánh hiệu quả của các mô hình cần phải cân nhắc, lựa chọn giữa nhiều yếu tố. Chẳn hạn như hình trên ta thấy rằng Filtered Model phát hiện nhiều khách hàng tiềm năng (có khả năng phản hồi Email) hơn Unfiltered Model (51.81% so với 47.40%). Tuy nhiên, nếu sử dụng Filtered Model thì xác suất dự đoán là 46%, điều này có nghĩa là khả năng mà bạn gởi Email cho các khách hàng mà người đó không mua xe đạp là 53%. Vì vậy, việc chọn mô hình tốt trong trường hợp này phải cân bằng giữa số lượng email gởi đi, số lượng phản hồi từ khách hàng cũng như hiệu quả của việc phản hồi (khách hàng phản hồi có khả năng mua xe đạp hay không).
Giá trị Score cho phép ta so sánh hiệu quả của các Mining Models, giá trị này càng cao thì mô hình càng tốt. Trong ví dụ này thì Targeted mailing under 30 là tốt nhất mặc dù xác suất dự đoán thấp hơn Targeted mailing all
Lift Chart thứ 2: Lift Chart cho tất cả các trường hợp của thuộc tính dự đoán (Không xác định giá trị cụ thể của thuộc tính dự đoán)
Nếu ta không xác định giá trị cụ thể cho thuộc tính dự đoán thì ta tạo ra một loại Lift Chart như sau:
Đồ thị này cho biết khả năng dự đoán của Mining Model đối với tất cả các giá trị của thuộc tính dự đoán. Chẳn hạn trong ví dụ này, trong trường hợp không xác định giá trị biến dự đoán (BikeBuyer) có nghĩa là mô tả khả năng dự đoán của Mô hình đối với tất cả các khách hàng có khả năng mua xe đạp cũng như với khách hàng có khả năng không mua xe đạp.
Trục X trong trường hợp này giống như loại Lift Chart thứ nhất (là phần trăm Test Data set). Tuy nhiên, trục Y bây giờ là phần trăm của dự đoán chính xác. Vì vậy Mô hình lý tưởng (Ideal Line) bây giờ là đường chéo. Để hiện thị Mining Legend tại bất cứ điểm nào trong đồ thị, di chuyển thanh dọc màu xám (Gray line). Giả sử nếu đặt Gray line tại vị trí 50%, Mining Legend hiển thị kết quả như sau:
Models
|
Score
|
Target population
|
Predict probability
|
TM_Decision Tree
|
0.77
|
40.50%
|
72.91%
|
Ideal model
|
|
50.00%
|
|
Dữ liệu bảng trên có nghĩa là với 50% của tổng số khách hàng trong database, mô hình dự đoán (ở đây là Decision tree) có thể dự đoán chính xác 40% các trường hợp (kẻ cả mua hay không mua xe đạp). Ở đây cần chú ý là % dự đoán chính xác tính trên tất cả các giá trị của thuộc tính dự đoán (trong ví dụ này là thuộc tính BikeBuyer) chứ không xác định được khả năng dự đoán cho từng giá trị của thuộc tính dự đoán. Chẳn hạn có mô hình có thể dự đoán chính xác đến 90% người không mua xe đạp. Vì vậy để biết khả năng dự đoán cho từng giá trị của thuộc tính dự đoán, ta phải xác đinh giá trị cho biết dự đoán và sử dụng Lift Chart thứ nhất.
All comments please send to chucnv@ud.edu.vn. Thank you and Welcome!