Kiểm định giả thuyết (Hypothesis
Testing)
Sơ lược về kiểm định giả thuyết
Giả thuyết thống
kê (statistical hypothesis): Một giả thuyết thống kê là một giả định về một
tham số của tổng thể (population parameter). Giả định này có thể
đúng hoặc không đúng.
Kiểm định giả
thuyết (Hypothesis Testing): Là tập hợp các bước được sử dụng để chấp nhận hay
bác bỏ các giả thuyết thống kê.
Giả thuyết Null (Null Hypothesis), Giả thuyết đối
(Alternative Hypothesis), Sai lầm loại 1 (Type 1 Error), sai lầm loại 2 (Type 2 Error)
Để giải thích các khái niệm của kiểm định giả
thuyết, xem tình huống sau:
Một người bị đưa
ra tòa xét xử, và tòa án phải đưa ra phán quyết về vụ án. Có 4 khả năng trong
trường hợp này:
Khả năng thứ 1:
Người bị xét xử vô tội và tòa tuyên vô tội (không
có sai lầm)
Khả năng thứ 2:
Người bị xét xử vô tội và tòa tuyên có tội (có
sai lầm)
Khả năng thứ 3:
Người bị xét xử có tội và tòa tuyên vô tội (có
sai lầm)
Khả năng thứ 4:
Người bị xét xử có tội và tòa tuyên có tội (không
có sai lầm)
Vậy có thể có hai loại sai lầm khi tuyên án:
Sai lầm loại 1 (Type 1 Error): Người
bị xét xử vô tội trong khi tòa tuyên có tội. (Oan sai)
Sai lầm loại 2 (Type 2 Error): Người bị xét xử có tội và tòa tuyên vô tội.
Theo nguyên tắc suy đoán vô tội trong xét xử, người bị xét xử
được coi là vô tội cho đến khi bị chứng minh là có tội.
Điều đó có nghĩa là tòa án phải tìm ra bằng chứng thuyết phục để
ra quyết định người bị xét xử có tội hoặc vô tội.
với xác suất mắc sai lầm là nhỏ nhất.
Giả thuyết không (Null Hypothesis): Giả thuyết trái với giả thuyết nghiên cứu, ký hiệu
H0
Giả thuyết đối (Alternative Hypothesis): Giả thuyết nghiên cứu, ký hiệu Ha
Các bước để kiểm định giả thuyết:
Bước 1: Phát biểu giả thuyết không (H0) và
đối thuyết (Ha)
Bước 2: Xác định mức ý nghĩa (⍺ ): điều kiện để ra quyết định
Bước 3. Tính toán thống kê trên mẫu
Bước 4. Ra quyết định dựa vào p value:
Nếu p value < mức ý nghĩa (⍺ ): Bác bỏ
H0; Nếu p value > mức ý
nghĩa (⍺ ) không
có cơ sở để bác bỏ H0.
Thông thường,
mức ý nghĩa ⍺ được thiết lập là 10%, 5% hoặc 1% tùy theo bài toán. Nếu điểm kiểm tra
(test score) tra nằm trong vùng chấp nhận (có
nghĩa là test score < critical value) thì không có cơ sở để bác bỏ H0,
ngược lại thì bác bỏ H0 và chấp nhận Ha
Nhưng tại sao lại sử dụng p-value khi ta có thể bác
bỏ/chấp nhận giả thuyết dựa vào test score và critical value.
p-value
có ích là chúng ta chỉ cần 1 giá trị (p) để ra quyết định về giả thuyết, chúng
ta không cần tính 2 giá trị khác nhau là test score và critical value.
Các phương pháp kiểm định
Kiểm định Z (Z Test)
Kiểm
định Z khi:
- Biết phương sai của tổng thể
(population variance), hoặc
- Không biết phương sai tổng thể
nhưng kích thước mẫu (sample size) >= 30
One-Sample Z test
One-Sample Z test được thực hiện khi muốn so sánh trung bình mẫu
(sample mean) với trung bình tổng thể (population
mean).
Ví dụ:
Để kiểm
tra liệu điểm thi trung bình của thí sinh nữ có > 600 hay không. Chúng ta có
thông tin về độc lệch chuẩn điểm thi của nữ là 100. Chúng ta thu thập dữ liệu
điểm thi của 20 sinh viên và thiết lập mức ý nghĩa ⍺ là 5%.
Trong ví dụ này:
- Mean
Score của nữ: 641
- Kích
thước mẫu: 20
- Trung
bình tổng thể (population mean): 600
- Độ
lệch chuẩn của tổng thể (Standard Deviation for Population): 100
Vì p-value < 0.05, nên ta bác
bỏ H0 (chấp nhận H1)và kết luận rằng điểm trung bình của sinh viên nữ > 600.
Two Sample Z Test
Two
Sample Z Test
được thực hiện khi muốn so sánh giá trị trung bình của 2 mẫu
Ví
dụ:
Chúng ta muốn biết rằng liệu điểm trung bình
của nữ lớn hơn 10 điểm so với điểm trung bình của nam hay không? Chúng ta biết
độ lệch chuẩn điểm của nữ là 100 và của nam là 90. Thu thập dữ liệu về điểm của
20 nữ và nam như sau, với mức ý nghĩa ⍺ là 0.05.
Trong ví dụ này:
- Điểm
trung bình của nữ (Sample Mean): 641
- Điểm
trung bình của nữ (Sample Mean): 613.3
- Độ
lệch chuẩn tổng thể của nữ: 100
- Độ
lệch chuẩn tổng thể của Nam: 90
- Kích
thước mẫu (Sample Size):20 (cho cả Nam và Nữ)
- Sự
khác biệt giữa 2 trung bình của tổng thể: 10
p-value >0.05
nên ta không có cơ sở để bác bỏ H0 (Null Hypothesis).
Có nghĩa là chúng ta không có đủ bằng chứng để kết luận rằng điểm trung bình của
nữ cao hơn điểm trung bình của Nam 10 điểm.
Kiểm định t (t-Test)
t-test
được sử dụng khi:
- Không biết phương sai tổng thể
(population variance)
- Kích thước mẫu nhỏ (n < 30)
One-Sample t-test
One-Sample
t-test được sử dụng để so sánh trung bình mẫu (sample mean) với
trung bình tổng thể (population mean). Khác với Z Test, t-test không cần biết
phương sai của tổng thể. Chúng ta sử dụng độ lệch chuẩn của mẫu (sample
standard deviation) thay cho độ lệch chuẩn của tổng thể (population standard deviation).
Ví dụ:
Để
xác định liệu điểm thi trung bình của nữ có > 600 trong bài kiểm tra hay
không? Chúng ta không có thông tin liên quan đến phương sai (variance) hoặc độ
lệch chuẩn điểm thi của Nữ. Để thực hiện t-test, chúng ta chọn ngẫu nhiên điểm thi
của 10 nữ như sau (với mức ý nghĩa ⍺ là 0.05 để kiểm định
giả thuyết).
Trong
ví dụ này:
·
Trung bình điểm thi của Nữ:
606.8
·
Kích thước mẫu: 10
·
Trung bình tổng thể (population
mean): 600
·
Độ lệch chuẩn mẫu (Standard
Deviation for the sample): 13.14
P-value > 0.05 vì
vậy không có cơ sở để bác bỏ H0 (null hypothesis). Không có đủ bằng chứng để kết luận rằng điểm trung bình của Nữ
lớn hơn 600.
Two-Sample t-Test
Two-Sample
t-test được thực hiện để so sánh trung bình của 2 mẫu.
Ví dụ: Two-Sample t-Test
Chúng
ta muốn kiểm tra liệu điểm trung bình của nam lớn hơn điểm trung bình của Nữ là
10 điểm hay không. Chúng ta không có thông tin về phương sai (hay độ lệch
chuẩn) về điểm thi của cả Nam và Nữ. Thu thập dữ liệu về điểm thi của 10 Nam và
10 Nữ một cách ngầu nhiên như sau (với mức ý nghĩa ⍺ là 0.05 để kiểm định giả thuyết):
Trong
ví dụ này:
- Điểm trung bình của Nam: 630.1
- Điểm trung bình của Nữ: 606.8
- Khác biệt điểm trung bình của
Nam và Nữ: 10
- Độ lệch chuẩn điểm thi Nam:
13.42
- Độ lệch chuẩn điểm thi Nữ:13.14
Vì P-value < 0.05
nên bác bỏ H0 (chấp nhận H1)
và kết luận rằng điểm trung bình của Nam cao hơn điểm trung bình của Nữ 10 điểm.
Minh họa kiểm định giả thuyết bằng Python