Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Mô hình hồi qui logistic (Logistic Regression Model)

Bài cuối 06-16-2011 06:12 PM của chucnv. 0 trả lời.
Trang 1 trong số 1 (1 nội dung)
Sắp xếp bài viết: Trước Tiếp theo
  • 06-16-2011 06:12 PM

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Mô hình hồi qui logistic (Logistic Regression Model)

    Mô hình hồi qui logistic (Logistic Regression Model)

    1. Giới thiệu

    Mục tiêu của hồi qui Logistic là nghiên cứu mối tương quan giữa một (hay nhiều) yếu tố nguy cơ (risk factor) và đối tượng phân tích (outcome). Chẳn hạn như đối với nghiên cứu mối tương quan giữa thói quen hút thuốc lá và nguy cơ mắc ung thư phổi thì yếu tố nguy cơ ở đây là thói quen hút thuốc lá và đối tượng phân tích ở đây là nguy cơ mắc ung thư phổi. Trong hồi qui logistic thì các đối tượng nghiên cứu thường được thể hiện qua các biến số nhị phân (binary) như xảy ra/ không xảy ra ; chết/sống ; có/không,… còn các yếu tố nguy cơ có thể được thể hiện qua các biến số liên tục (tuổi, huyết áp,…) hoặc các biến nhị phân (giới tính) hay các biến thứ bậc (thu nhập : Cao, trung bình, thấp). Vấn đề đặt ra cho nghiên cứu dạng này là là sao để ước tính độ tương quan của các yếu tố nguy cơ và đối tượng phân tích. Các phương pháp phân tích như hồi qui tuyến tích không áp dụng được vì biến phụ thuộc không phải là biến liên tục mà là biến nhị phân. Nhà thống kê học David R. Cox đã phát triển mô hình có tên Logistic Regression Model (1970s) để phân tích các biến nhị phân.

     Ví dụ : Bảng dữ liệu dưới đây thu thập để nghiên cứ mối tương quan giữa tình trạng phơi nhiễm chất độc gia cam (Agent Orange – AO) và ung thư tuyến tiền liệt.

     

    Ung thư (47)

    Đối chứng (144)

    Phơi nhiễm AO

    11

    17

    Không phơi nhiễm AO

    36

    127

     Số liệu bảng trên cho thấy 23.4% (11/36) người bị ung thư tuyến tiền liệt từng bị phơi nhiễm AO. Tỷ lệ này trong nhóm đối chứng là 11.8% (17/144). Vấn đề đặt ra là có sự tương quan nào giữa tình trạng phơi nhiễm AO và ung thư tuyến tiền liệt hay không ? Nghiên cứu cần trả lời 2 vấn đề sau :

    - Nguy cơ mắc bệnh ung thư tuyến tiền liệt của những người từng bị phơi nhiễm AO so với nguy cơ ở những người không từng bị phơi nhiễm là bao nhiêu ?

    - Sự khác biệt về nguy cơ ung thư tuyến tiền liệt giữa 2 nhóm phơi nhiễm và không phơi nhiễm AO có ý nghĩa thống kê không ? (hay do ngẫu nhiên)

     Mô hình hồi qui Logistics có thể trả lời 2 câu hỏi này.

    Tham số tỷ số nguy cơ (Odds Ratio - OR)

    Chỉ số thống kê quan trọng trong hồi qui Logistics là tỷ số nguy cơ (Odds Ratio – OR). Trong tiếng anh odd có nghĩa là nguy cơ hay khả năng. Nói cách khác odd là tỷ số của 2 giá trị của một biến nhị phân. Do đó, OR là tỷ số của hai odds. Trong bảng dữ liệu trên, ta có:

     odd mắc ung thư trong nhóm từng phơi nhiễm AO là 11/17 = 0.647

     odd mắc ung thư trong nhóm không từng bị phơi nhiễm AO là 36/127 = 0.283

    Và Odds Ratio (OR) mắc ung thư trong nhóm từng bị phơi nhiễm AO so với nhóm không từng bị phơi nhiễm là 0.647/0.283= 2.28

     Thực ra có thể tính OR đơn giản = (11x127)/(36x17) = 2.28

    OR = 2.28 cho biết nguy cơ mắc ung thư tuyến tiền liệt của những người từng phơi nhiễm AO cao hơn gấp 2.8 lần những người không bị phơi nhiễm AO.

    Chú ý rằng kết quả phân tích này chỉ dựa trên một mẫu duy nhất, và các ước tính OR có thể dao động từ mẫu này sang mẫu khác. Giá trị OR có được chỉ là ước tính của OR thật (real OR) ta không biết được và OR thật có thể dao động từ thấp hơn 1 đến cao hơn 1. Nếu OR thật thấp hơn 1, điều này có nghĩa là nguy cơ mắc ung thư của những người từng bị phơi nhiễm AO thấp hơn những người không từng bị phơi nhiễm. Nếu OR thật lớn hơn 1 điều này có nghĩa là nguy cơ mắc ung thư của những người từng bị phơi nhiễm AO cao hơn những người không từng bị phơi nhiễm. Nếu OR = 1 có nghĩa là không có mối liên hệ nào giữa phơi nhiễm AO và ung thư tuyến tiền liệt.

    Trong thực tế, ta không biết được OR thật nên vấn đề quan trọng là phải trả lời câu hỏi mối tương quan được phản ánh qua OR có ý nghĩa thống kê hay không? Nói cách khác nếu nghiên cứu trên được lặp lại nhiều lần thì độ dao động của OR là bao nhiêu?

    Giả sử rằng ta thực hiện nghiên cứu trên 100 lần, trong đó có 95 lần OR dao động từ 1.1 đến 3.8, còn 5 lần OR nhỏ hơn 1.1 hoặc cao hơn 3.8 thì chúng ta  có bằng chứng để phát biểu rằng mối quan hệ giữa phơi nhiễm AO và ung thư tuyến tiền liệt có ý nghĩa thống kê (không phải do ngẫu nhiên) với độ tin cây 95%.

    Nói cách khác, chúng ta cần tính sai số chuẩn (Standard Error – SE) cho OR với khoảng tin cậy 95%. Vì OR là một tỷ số nên không thể tính SE cho OR một cách trực tiếp mà phải thông qua phương pháp gián tiếp. Một trong những phương pháp gián tiếp này là phương pháp Woolf như sau:

    - Trước tiên hoán chuyển OR sang logarit (natural logarithm - ln)

    logOR = log(OR) = log(2.28)=ln(2.28) = 0.824

    - Bước 2 : Tính sai số chuẩn của logOR như sau 

    SE= 

    Bước 3: Theo luật phân phối chuẩn, khoảng tin cậy 95% của logOR là

    logOR ± 1.96×SE

    Trong ví dụ trên, khoảng tin cây 95% của logOR là:

    0.824 – 1.96×0.430 = –0.0188

    0.824 + 1.96×0.430 = +1.6681

    Bước 4: Vì khoảng tin cậy vừa tính là log, nên ta chuyển khoảng tin cậy 95% của về đơn vị tỉ số như lúc đầu: logOR từ -0.0188 đến 1.668 nên ta có khoảng tin cậy 95% của  OR nằm trong khoảng t

    e-0.0188 = 0.98 đến  e1.6681 = 5.30

    Kết quả phân tích trên ta thấy trung bình OR là 2.28 nhưng khoảng tin cậy 95% của OR dao động từ 0.98 đến 5.30. Nói cách khác, nếu nghiên cứu trên được lặp lại 100 lần thì sẽ có 95 nghiên cứu cho thấy OR thấp hơn 1 (0.98) hay cao hơn 1 (thậm chí cao đến 5.3). Do đó ta có thể kết luận: Bởi vì khoảng tin cậy 95% của OR có thể thấp hơn 1 mà cũng có thể cao hơn 1 nên ta có thể kết luận rằng mối liên hệ giữa tình trạng phơi nhiễm AO và ung thư tuyến tiền liệt không có ý nghĩa thống kê.

    2. Mô hình hồi qui Logistics

    Từ ví dụ minh họa trên, ta có thể xây dựng công thức chung của mô hình hồi qui logistic như sau :

    Gọi p là xác suất của một sự kiện (chẳn hạn trong ví dụ trên là sự kiện mắc ung thư tuyến tiền liệt). Khi đó odd được định nghĩa như sau :


    Gọi yếu tố nguy cơ là x (trong ví dụ trên x là tình trạng phơi nhiễm AO, x có 2 giá trị là 0 và 1. x =0 : không phơi nhiễm AO và x=1 : phơi nhiễm AO)

    Mô hình hồi qui logistic phát biểu rằng log(odd) phụ thuộc vào giá trị của x qua một hàm số tuyến tính sau :

    log(odd) =  hay log (1)

    trong đó, log(odd) hay log được gọi là logit(p) (và do đó mới có tên là logistic).  và  là 2 tham số được ước tính từ dữ liệu, là phần dư (Residual) tức là phần không giải thích được bằng x. Lý do chuyển p thành logit(p) vì p là xác suất có giá trị trong khoảng 0,1 trong khi đó logit(p) có giá trị không giới hạn thích hợp cho việc phân tích theo mô hình hồi qui tuyến tính.

     Mô hình trên giả định rằng  tuân theo luật phân phối chuẩn (normal distribution) với trung bình bằng 0 và phương sai không đổi. Với giả định này thì giá trị kỳ vọng (expected value) hay giá trị trung bình của log với bất cứ giá trị nào của x là

    log  vì giá trị trung bình của  =0)

    Nói cách khác, odd bị ung thư từ phương trình (1) là

                          (2)

    Như vậy, mô hình hồi qui logistic phát biểu rằng odd của một sự kiện (ung thư tuyến tiền liệt) tùy thuộc vào yếu tố nguy cơ x (tình trạng phơi nhiệm AO).

    Dựa vào phương trình (2) odd mắc ung thư của nhóm không bị phơi nhiễm AO (x=0) là và odd mắc ung thư của nhóm bị phơi nhiễm AO (x=1) là 

    Khi đó tỷ số nguy cơ        

    Trong thực tế chúng ta không biết giá trị thực của 2 tham số  và  mà phải ước tính chúng từ dữ liệu quan sát được. Theo qui ước thống kê, 2 ước lượng của  và  ký hiệu là .

    Trong ví dụ trên ước lượng của tham số  là  = 0.824.

    Như vậy, tỷ số nguy cơ OR phản ánh nguy cơ (odd) bị ung thư trong nhóm bị phơi nhiễm AO so với nguy cơ trong nhóm không từng bị phơi nhiễm AO trong ví dụ này là OR = e0.824 = 2.28

    Có nghĩa là nguy cơ mắc ung thư tuyến tiền liệt của những người từng phơi nhiễm AO cao hơn gấp 2.8 lần những người không bị phơi nhiễm AO.

      3. Dự đoán với logistic regression

     Mô hình hồi qui logistic tổng quát với k yếu tố nguy cơ x1,x2,…xk được mô tả bởi phương trình sau (CT3):


     Trong đó, z được định nghĩa như sau:


     

    Trong đó:

    α : hệ số chặn (intercept). Giá trị của z khi tất cả các biến độc lập bằng 0

    β1, β2, …βk: hệ số hồi qui (regression cofficients) của các  yếu tố nguy cơ (còn gọi là biến độc lập) x1, x2,…, xk. Hệ số hồi qui cho biết độ mạnh cũng như chiều của sự ảnh hưởng của các yếu tố nguy cơ đến xác suất xảy ra sự kiện nghiên cứu. Nếu hệ số hồ qui dương thì yếu tố nguy cơ làm tăng khả năng (xác suất) xảy ra của sự kiện nghiên cứu và ngược lại.

    Đồ thị của hồi qui logistic có trục hoành là giá trị của z và trục tung là giá trị của f(z) (xác suất xảy ra sự kiện). z có thể nhận giá trị bất kỳ âm hoặc dương nhưng f(z) chỉ nhận giá trị trong khoảng 0 và 1. z dùng để mô tả ảnh hưởng của tất cả các biến độc lập (yếu tố nguy cơ – risk factor) đến đối tượng nghiên cứu (outcome) và f(z) là xác suất sự kiện xảy ra.


    Ví dụ giả định sau đây minh họa việc sử dụng Logistic regression vào trong việc đoán khả năng (xác suất) chết do bệnh tim của con người trên 50 tuổi. Mô hình đơn giản sử dụng 3 yếu tố nguy cơ (risk factor) là tuổi (age), giới tính (sex) và nồng độ cholesterol trong máu (blood cholesterol level) để dự đoán nguy cơ chết do bệnh tim trong 10 năm tới của bệnh nhân.

    Giả sử sau khi thu thập dữ liệu và tính toán các tham số cho mô hình (hệ số chặn, các hệ số hồi qui) ta có:

    β0 = − 5.0 (intercept)

    β1 = + 2.0

    β2 = − 1.0

    β3 = + 1.2

    x1 = age (trên 50)

    x2 = sex (0: male, 1: female)

    x3 = cholesterol level mmol/L (trên 5.0)

    Vì vậy mô hình hồi qui logistic được biểu diễn như sau (CT4):


    Trong mô hình này hệ số hồi qui của yếu tố nguy cơ x1= age là +2.0, điều này có nghĩa là khi tuổi tăng sẽ làm tăng nguy cơ chết vì bệnh tim (z tăng lên 2.0 sau mỗi năm đối với người trên 50 tuổi). Tương tự hệ số hồi qui của yếu tố nguy cơ giới tính (sex) có dấu âm và có độ lớn là 1.0 điều này có nghĩa là nữ giới có nguy cơ chết vì bệnh tim thấp hơn nam giới (z giảm 1 nếu giới tính là nữ). Hệ số hồi qui của yếu tố nguy cơ x3= cholesterol level mmol/L có dấu dương và có độ lớn là 1.2 có nghĩa là việc tăng 1 mmol/L đối với các trường hợp trên 5 mmol/L sẽ làm tăng nguy cơ chết vì bệnh tim với độ lớn 1.2

    Bây giờ ta muốn dùng mô hình này để dự đoán nguy cơ chết vì bệnh tim của một người cụ thể như sau: Là nam giới, 50 tuổi và đo được nồng độ Cholesterol trong máu là 7.0 mmol/L. Áp dụng CT4 cho người cụ thể trên, ta có


     

     trong đó

     
    Vậy 

     
     
    Với mô hình này, giá trị f(z) cho biết rằng nguy cơ chết vì bệnh tim của người này trong 10 năm tới là 0.07 (7%).

    All comments please send to chucnv@ud.edu.vn. Thank you and  Welcome!

    Theo bài giảng Lâm sàn thống kê (ykhoanet.com) và Wikipedia

    • Điểm chủ đề: 20
Trang 1 trong số 1 (1 nội dung)
Powered by Community Server (Commercial Edition), by Telligent Systems