Một ít kiến thức xác suất cho khai phá dữ liệu (Probability for Data Mining)
Nguyễn Văn Chức – chuc1803@gmail.com
Xác suất là một phần rất quan trọng trong khai phá dữ liệu. Vì vậy, để hiểu và triển khai các mô hình khai phá dữ liệu một cách hiệu quả, nhất thiết bạn phải nắm vững các vấn đề cơ bản về xác suất. Bài viết này tóm tắt một số vấn đề cơ bản của xác suất làm nền tảng cho việc triển khai các mô hình khai phá dữ liệu.
1. Các khái niệm cơ bản
1.1.Không gian mẫu (Sample Space)
Tập hợp các khả năng có thể xảy ra trong một phép thử (Random Experiment) gọi là không gian mẫu của phép thử đó.
Ví dụ:
Không gian mẫu của phép thử tung một con xúc xắc đồng chất là: E = {1, 2, 3, 4, 5, 6}
Không gian mẫu của phép thử tung cùng một lúc hai đồng xu là:
E = {SS, SN, NS, NN} với S: Sấp, N: Ngửa
1.2.Biến cố (Event)
- Mỗi tập hợp con của không gian mẫu là một biến cố
- Biến cố chứa một phần tử gọi là biến cố sơ đẳng
Ví dụ:
Trong thí nghiệm tung 1 con xúc sắc đồng chất :
- Biến cố các mặt chẵn là : {2, 4, 6}. Biến cố các mặt lẻ: {1, 3, 5}
- Các biến cố sơ cấp là : {1}, {2}, {3}, {4}, {5}, {6}
a. Biến cố hội (Union)
Biến cố hội của 2 biến cố A và B ký hiệu là (A xảy ra hay B xảy ra)
b. Biến cố giao (Intersection)
Biến cố giao của 2 biến cố A và B ký hiệu là (A xảy ra và B xảy ra)
c. Biến cố đối lập của biến cố A (Component of A)
Ký hiệu Nếu A xảy ra thì không xảy ra
d. Biến cố xung khắc (mutually exclusive event)
Biến cố A xung khắc với biến cố B nghĩa là A và B không cùng xảy ra ()
Ví dụ:
Trong thí nghiệm tung một con xúc sắc đồng nhất, ta có không gian mẫu: E = {1, 2, 3, 4, 5, 6}
- Gọi A là biến cố mặt lẻ xuất hiện. Do đó A = {1, 3, 5}
- Gọi B là biến cố khi bội số của 3 xuất hiện. Dó đó B = {3, 6}
- Gọi C là biến cố khi mặt 4 xuất hiện. Do đó C = {4} (biến cố sơ cấp).
Ta có:
A ∪ B = {1, 3, 5, 6}
A ∩ B = {3}
A ∩ C = φ => A và C là 2 biến cố xung khắc.
1.3.Định nghĩa xác suất
Nếu thông gian mẫu E có N biến cố sơ cấp và biến cố A có n biến cố sơ cấp thì xác
suất của biến cố A là tỷ số giữa số trường hợp A xảy ra với tổng số trường hợp có thể xảy ra.
2. Xác suất của biến ngẫu nhiên rời rạc (Discrete Random Variables)
2.1.Biến cố ngẫu nhiên nhị phân (Boolean-valued Random Variables):
A được gọi là biến cố nhị phân nếu các phép thử trên với A chỉ nhận 1 trong 2 giá trị là “xảy ra” hoặc “không xảy ra”
Ví dụ:
A= Ngày mai trời mưa
A=Bạn sẽ trở thành tỷ phú vào năm 35 tuổi
A=Ngày mai bạn thức dậy với chứng đau đầu
Xác suất của biến cố nhị phân A được minh họa như sau:
Các công thức quan trọng
(1) 0 <= P(A) <= 1
(2) P(True) = 1
(3) P(False) = 0
(4) P(A or B) = P(A) + P(B) - P(A and B)
Công thức (1),(2),(3) rất dễ hiểu. Công thức (4) gọi là xác suất của biến cố hội (Union) được minh họa như sau:
Từ các công thức trên, ta có thể dễ dàng chứng minh các công thức sau :
(5) P(not A) = P(¬A) = 1-P(A)
(6) P(A) = P(A ^ B) + P(A ^ ¬B)
2.2. Biến cố ngẫu nhiên đa trị (Multivalued Random Variables)
Giả sử rằng biến cố A có thể nhận k giá trị khác nhau (k>2), {v1,v2, ..vk}, khi đó ta có:
Dễ dàng chứng minh được
2.3.Xác suất có điều kiện (Conditional Probability)
Ví dụ về xác suất có điều kiện:
H: Đau đầu (Headache)
F: Cảm cúm (Flu)
P(H|F): Đau đầu nếu bị cảm cúm
Công thức xác suất H xảy ra khi F xảy ra như sau:
Giả sử ta có các xác suất như sau:
P(H)= 1/10; P(F)=1/40; P(H|F)=1/2
Điều này có thể hiểu rằng: Chứng bệnh đau đầu rất ít gặp và cảm cúm càng ít gặp hơn nhưng nếu bạn bị cảm cúm thì khả năng bạn bị đau đầu là rất lớn (50%).
Định nghĩa xác suất có điều kiện
Xác suất biến cố A xảy ra khi biến cố B đã xảy ra, ký hiệu P(A|B).
Hệ quả:
Dễ dàng chứng minh được
P(A| B)+P(¬A| B) =1
Từ ví dụ trên ta có thể tính được :
Xác suất vừa bị đau đầu vừa bị cảm cúm
Xác suất bị cảm cúm khi bị đau đầu:
Công thức
Do Bayes, Thomas (1763) đề xuất gọi là Bayes’ Rule và được sử dụng để giải quyết các bài toán phân lớp. (Xem bài viết về sử dụng lý thuyết Bayes trong phân lớp dữ liệu tại đây: http://bis.net.vn/forums/t/390.aspx)