Phân tích tương ứng (Correspondence Analysis)
Nguyễn Văn Chức –chuc1803@gmail.com
1. Tóm tắt lý thuyết về phân tích tương ứng
Phân tích tương ứng (Correspondence Analysis- CA) là phương pháp trực quan để phân tích dữ liệu được biểu diễn bằng các bảng dữ liệu 2 chiều (contingency table). Kết quả của CA là bản đồ các điểm (Map of Points). Trong đó các điểm biểu diễn cho các dòng (rows) và các cột (columns) của bảng. Vị trí của các điểm trong bản đồ cho biết sự tương tự (similarities) giữa các dòng, sự tương tự giữa các cột và sự kết hợp (association) giữa dòng và cột trong bảng.
Mục đích của CA giúp phát hiện các mối quan hệ tiềm ẩn trong các bảng dữ liệu lớn.
Qui trình phân tích CA được thực hiện qua 2 giai đoạn (stage) và mỗi giai đoạn được thực hiện qua 3 bước (step) như sau:
2 giai đoạn (Two stages) cho các biến phân loại (categories) dòng và cột
Mỗi giai đoạn được thực hiện thông qua ba bước sau:
· Tính profile (tầng suất tương đối) của dòng (hoặc cột)
· Tính khoảng cách (Distance) giữa các điểm
· Tìm không gian n chiều (n-dimensional space) tốt nhất để mô tả các điểm
Các khái niệm cơ bản sử dụng trong CA
Profile: Tần suất tương đối trong contingency table. (Row and column profiles). Dùng để xác định tọa độ của các điểm trong bản đồ
Masses (marginal distribution): Đo lường độ quan trọng của các điểm.
Centroid (tâm): Trọng số trung bình của các vị trí
Projection: Phép chiếu lên subspace
Inertia: Tổng bình phương các khoảng cách của các điểm đến centroid
2.Phân tích tương ứng với phần mềm XLSTAT
Phần này giới thiệu từng bước qui trình thực hiện CA thông qua phần mềm XLSTAT thông qua ví dụ cụ thể. (XLSTAT là phần mềm chuyên về khai phá dữ liệu và phân tích thống kê nâng cao chuyên xử lý dữ liệu speadsheet của MS Excel, download XLSTAT tại đây: http://www.xlstat.com/)
Ví dụ minh họa về sử dụng CA trong Marketing
Contingency Table sau cho biết về tần suất sử dụng của 4 nhãn hiệu kem đánh răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3) được điều tra ngẫu nhiên từ 120 người như sau:
Download File dữ liệu và kết quả thực hiện CA bằng Excel tại đây
Sau khi khởi động XLSTAT và chọn biểu tượng Correspondence Analysis
Chọn vùng dữ liệu để phân tích và bấm OK để thực hiện CA.
Vấn đề quan trọng là giải thích kết quả mà CA sinh ra để tìm ra các tri thức hữu ích ẩn chứa trong dữ liệu.
Khai phá tri thức từ kết quả CA
Sau đây giải thích từng bước các kết quả sinh ra bởi CA nhằm giúp các bạn có thể phát hiện các tri thức ẩn chứa trong dữ liệu từ Contingency table ban đầu.
a. Rows and Column Profile
Kết quả cuối cùng của CA là bản đồ các điểm (Map of Points), trong đó mỗi hàng (row) và mỗi cột (column) được biểu diễn thành 1 điểm trong bản đồ. Profile được tính là tần suất tương đối của các dòng (Rows profile) và các cột (Columnsprofile) trong Contingency table. Profile của các dòng và cột được dùng để xác định tọa độ của các điểm trong bản đồ. Vì vậy các dòng hoặc các cột có profile gần giống nhau sẽ được đặt gần nhau trong bản đồ. Sau đây là Profile của các dòng và các cột được CA sinh ra từ Contingency Table
b. Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong Contingency Table
Bước đầu tiên trong phân tích CA là kiểm định giả thuyết về sự phụ thuộc giữa các dòng và các cột trong bảng dữ liệu ban đầu.
CA tự động kiểm tra mối qua hệ này. Với dữ liệu trong ví dụ trên, kết quả kiểm định giả thuyết được CA sinh ra như sau:
Giả thuyết H0 (Null hypothesis): Các dòng và các cột trong Contingency Table là độc lập nhau. (Nói cách khác là KHÔNG có sự phụ thuộc giữa các dòng và cột trong bảng)
Giả thuyết Ha (giả thuyết đối): Có mối liên hệ giữa dòng và cột trong bản.
Kết quả kiểm định cho thấy P-value <0.0001 nhỏ hơn mức ý nghĩa alpha = 0.05 nên ta bác bỏ H0 và chấp nhận Ha. Sai lầm mắc phải khi bác bỏ H0 trong khi H0 đúng nhỏ hơn 0.1%. Như vậy qua kiểm định giả thuyết ta kết luận rằng giữa các dòng và các cột trong Contingency Table có mối quan hệ với nhau.
c. Xác định số chiều của không gian dùng để biểu diễn các điểm
Thực chất của phần này là thực hiện các phép chiếu (projection) lên các trục và phép quay (rotation) các trục để tìm ra không gian tốt nhất để biểu diễn các điểm dữ liệu.
Với kết quả sinh ra từ CA, việc xác này được thực hiện bằng việc kiểm tra giá trị eigenvalue và phần trăm của inertia.
Trong ví dụ này, các giá trị eigenvalue và phần trăm của inertia được sinh ra như bảng sau:
Trong ví dụ này, 2 chiều (F1 và F2) đã giải thích 100% của inertia. Vì vậy sử dụng không gian 2 chiều đủ giải thích toàn bộ inertia.
c. Giải thích các chiều (các trục - axes)
Phần này phân tích sự đóng góp của các dòng và cột và việc xác định các chiều của không gian biểu diễn.
Đóng góp của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng). Kết quả sinh ra bởi CA như sau:
Trong ví dụ này có 4 nhãn hiệu kem đánh răng, vì vậy bất cứ nhãn hiệu nào đóng góp từ 25% (=100/4) được coi là đóng góp có ý nghĩa trong việc xác định các chiều để biểu diễn các điểm. Ta thấy rằng Brand A đóng góp 62.6% trong việc xác định trục thứ nhất (F1) và Brand B đóng góp 63.6% để xác định trục thứ 2 (F2). Vì vậy có thể nói rằng trục F1 được xác định chủ yếu dựa vào Brand A và trục F2 được xác định chủ yếu do Brand B.
Đóng góp của các cột (trong trường hợp này là 3 khu vực). Kết quả nhưu sau:
Tương tự, ta thấy trục F1 được xác định bởi Region 3 và trục F2 được xác định bởi Region 2 (Bởi vì các cột này đóng góp > 100/3 =33.3%)
Chú ý rằng, Theo đóng góp của dòng (Brands) thì Brand A xác định F1 và theo đóng góp của cột (các Regions) thì F1 được xác định bởi Region 3, vì vậy rõ ràng rằng Brand A kết hợp mạnh mẽ với Region 3. Hay nói cách khác nhãn hiệu kem đánh răng Brand A được sử dụng nhiều nhất ở Region 3 (xem dữ hiệu trong Contingency Table và bản đồ phần sau)
d. Biểu diễn trực quan bằng bản đồ kết quả CA
Ví trí của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng Brand A,B,C,D).
Những nhãn hiệu có profile càng giống nhau thì được đặt càng gần nhau và các nhãn hiệu có profile càng khác nhau thì được đặt càng xa nhau trong đồ thị
Trong ví dụ này ta thấy Brand C và D được đặt gần nhau vì profile của chúng gần giống nhau (60%, 75%) và Brand A được đặt khá xa Brand C và D vì Profile của Brand A (12.5%) khác xa so với Profile của Brand C và. Trục F1 được xác định bởi Brand A nên vị trí của Brand A rất gần trục F1 trên đồ thị.
Thêm vào đó, nếu profile của một brand càng khác biệt so với tâm (centroid – trung bình của các profile) thì nó sẻ nằm càng xa gốc tọa độ (origin).
Tương tự, ví trí của các cột (trong trường hợp này là các Regions) được biểu diễn như sau
Phát hiện các kết hợp giữa các hàng và cột (trong ví dụ này là giữa các nhãn hiệu kem đánh răng và các khu vực).
Nhắc lại rằng, kết quả của CA là bản đồ các điểm (Map of Points). Trong đó các điểm biểu diễn cho các dòng (rows) và các cột (columns) của bảng. Vị trí của các điểm cho biết sự tương tự (similarities) giữa các dòng, sự tương tự giữa các cột và sự kết hợp (association) giữa dòng và cột trong bảng.
Bản đồ sau đây cho ta biết sự tương tự giữa các Brands với nhau cũng như sự tương tự giữa các Regions với nhau và sự kết hợp giữa các Brands và các Regions.
Trong ví dụ này, bản đồ mà CA sinh ra cho thấy rằng Brand A và Region 3 được đặt rất gần nhau trong bản đồ và gần trục F1, điều đó cho biết rằng có một sự kết hợp mạnh mẽ giữa Brand A với Region 3. Nói cách khác rằng Region 3 sử dụng chủ yếu kem đánh răng Brand A. (Điều này rõ ràng vì trong Contingency table 75% người sử dụng kem đánh răng Brand A thuộc Region 3)
Tương tự, Brand B được đặt gần Region 2 cũng như Brand C và D được đặt gần Region 1 nói rằng Brand B được tiêu thụ chủ yếu ở Region 2 cũng như Brand C và D được tiêu thụ chủ yếu ở Region 1
e. Đánh giá chất lượng của bản đồ
Để đánh giá chất lượng của việc biểu diễn trực quan bằng bản đồ các điểm, người ta dựa vào phần trăm inertia mà các trục giải thích được. Tiêu chí để đánh giá là : Tổng tích lũy của 2 (hay n chiều đầu tiên) giải thích được phần trăm của inertia càng cao thì chất lượng biểu diễn càng cao.
Trong ví dụ này, 2 trục giải thích 100% inertia (trục thứ nhất giải thích 61.8% và trục thứ 2 giải thích 38.2% của inertia). Xem hình trên.
Phân tích tương ứng được áp dụng rất rộng rãi trong rất nhiều lĩnh vực như phân tích dữ liệu kinh doanh, điều tra xã hội học, khai phá dữ liệu,…. CA cho phép phát hiện các tri thức tiềm ẩn trong khối lượng dữ liệu lớn một cách dễ dàng thông qua phương pháp trực quan hóa (sử dụng bản đồ các điểm). Một điều quan trọng nữa là các tri thức phát hiện được rất dễ hiểu và dễ sử dụng. Có rất nhiều công cụ cho phép triển khai CA như SPSS, XLMINER, … nhưng XLSTAT triển khai CA trực tiếp từ các Spreadsheet của Excel và hỗ trợ cho việc biểu diễn trực quan kết quả phân tích CA bằng bản đồ rất mạnh giúp dễ dàng phát hiện các tri thức hữu ích từ dữ liệu.
All comments please send to chucnv@ud.edu.vn. Thank you and Welcome!