Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Phân tích tương ứng (Correspondence Analysis)

Bài cuối 05-02-2015 10:57 AM của anhuni1006. 7 trả lời.
Trang 1 trong số 1 (8 nội dung)
Sắp xếp bài viết: Trước Tiếp theo
  • 08-01-2011 11:16 AM

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Phân tích tương ứng (Correspondence Analysis)

    Phân tích tương ứng (Correspondence Analysis)

    Nguyễn Văn Chức –chuc1803@gmail.com

    1. Tóm tắt lý thuyết về phân tích tương ứng

    Phân tích tương ứng (Correspondence Analysis- CA) là phương pháp trực quan để phân tích dữ liệu được biểu diễn bằng các bảng dữ liệu 2 chiều (contingency table). Kết quả của CA là bản đồ các điểm (Map of Points). Trong đó các điểm biểu diễn cho các dòng (rows) và các cột (columns) của bảng. Vị trí của các điểm trong bản đồ cho biết sự tương tự (similarities) giữa các dòng, sự tương tự giữa các cột và sự kết hợp (association) giữa dòng và cột trong bảng.

    Mục đích của CA giúp phát hiện các mối quan hệ tiềm ẩn trong các bảng dữ liệu lớn.

    Qui trình phân tích CA được thực hiện qua 2 giai đoạn (stage) và mỗi giai đoạn được thực hiện qua 3 bước (step) như sau:

    2 giai đoạn (Two stages) cho các biến phân loại (categories) dòng và cột

    Mỗi giai đoạn được thực hiện thông qua ba bước sau:

    ·        Tính profile (tầng suất tương đối) của dòng (hoặc cột)

    ·        Tính khoảng cách (Distance) giữa các điểm

    ·        Tìm không gian n chiều (n-dimensional space) tốt nhất để mô tả các điểm

     

     

     Các khái niệm cơ bản sử dụng trong CA

    Profile: Tần suất tương đối trong contingency table. (Row and column profiles). Dùng để xác định tọa độ của các điểm trong bản đồ

    Masses (marginal distribution): Đo lường độ quan trọng của các điểm.

    Centroid (tâm): Trọng số trung bình của các vị trí

    Projection: Phép chiếu lên subspace

    Inertia: Tổng bình phương các khoảng cách của các điểm đến centroid

     2.Phân tích tương ứng với phần mềm XLSTAT

    Phần này giới thiệu từng bước qui trình thực hiện CA thông qua phần mềm XLSTAT thông qua ví dụ cụ thể. (XLSTAT là phần mềm chuyên về khai phá dữ liệu và phân tích thống kê nâng cao chuyên xử lý dữ liệu speadsheet của MS Excel, download XLSTAT tại đây: http://www.xlstat.com/)

    Ví dụ minh họa về sử dụng CA trong Marketing

    Contingency Table sau cho biết về tần suất sử dụng của 4 nhãn hiệu kem đánh răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3) được điều tra ngẫu nhiên từ 120 người như sau:

    Download File dữ liệu và kết quả thực hiện CA bằng Excel tại đây

    Sau khi khởi động XLSTAT và chọn biểu tượng Correspondence Analysis

    Chọn vùng dữ liệu để phân tích và bấm OK để thực hiện CA.

    Vấn đề quan trọng là giải thích kết quả mà CA sinh ra để tìm ra các tri thức hữu ích ẩn chứa trong dữ liệu.

    Khai phá tri thức từ kết quả CA

    Sau đây giải thích từng bước các kết quả sinh ra bởi CA nhằm giúp các bạn có thể phát hiện các tri thức ẩn chứa trong dữ liệu từ Contingency table ban đầu.

    a. Rows and Column Profile

    Kết quả cuối cùng của CA là bản đồ các điểm (Map of Points), trong đó mỗi hàng (row) và mỗi cột (column) được biểu diễn thành 1 điểm trong bản đồ. Profile được tính là tần suất tương đối của các dòng (Rows profile) và các cột (Columnsprofile) trong Contingency table. Profile của các dòng và cột được dùng để xác định tọa độ của các điểm trong bản đồ. Vì vậy các dòng hoặc các cột có profile gần giống nhau sẽ được đặt gần nhau trong bản đồ. Sau đây là Profile của các dòng và các cột được CA sinh ra từ Contingency Table

    b. Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong Contingency Table

     Bước đầu tiên trong phân tích CA là kiểm định giả thuyết về sự phụ thuộc giữa các dòng và các cột trong bảng dữ liệu ban đầu.

    CA tự động kiểm tra mối qua hệ này. Với dữ liệu trong ví dụ trên, kết quả kiểm định giả thuyết được CA sinh ra như sau:

    Giả thuyết H0 (Null hypothesis): Các dòng và các cột trong Contingency Table là độc lập nhau. (Nói cách khác là KHÔNG có sự phụ thuộc giữa các dòng và cột trong bảng)

    Giả thuyết Ha (giả thuyết đối): Có mối liên hệ giữa dòng và cột trong bản.

    Kết quả kiểm định cho thấy P-value <0.0001 nhỏ hơn mức ý nghĩa alpha = 0.05 nên ta bác bỏ H0 và chấp nhận Ha. Sai lầm mắc phải khi bác bỏ H0 trong khi H0 đúng nhỏ hơn 0.1%. Như vậy qua kiểm định giả thuyết ta kết luận rằng giữa các dòng và các cột trong Contingency Table có mối quan hệ với nhau.

    c. Xác định số chiều của không gian dùng để biểu diễn các điểm

    Thực chất của phần này là thực hiện các phép chiếu (projection) lên các trục và phép quay (rotation) các trục để tìm ra không gian tốt nhất để biểu diễn các điểm dữ liệu.

    Với kết quả sinh ra từ CA, việc xác này được thực hiện bằng việc kiểm tra giá trị eigenvalue và  phần trăm của inertia.

    Trong ví dụ này, các giá trị eigenvalue và phần trăm của inertia được sinh ra như bảng sau:

    Trong ví dụ này, 2 chiều (F1 và F2) đã giải thích 100% của inertia. Vì vậy sử dụng không gian 2 chiều đủ giải thích toàn bộ inertia.

     

    c. Giải thích các chiều (các trục - axes)

     Phần này phân tích sự đóng góp của các dòng và cột và việc xác định các chiều của không gian biểu diễn.

    Đóng góp của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng). Kết quả sinh ra bởi CA như sau:

     Trong ví dụ này có 4 nhãn hiệu kem đánh răng, vì vậy bất cứ nhãn hiệu nào đóng góp từ 25% (=100/4) được coi là đóng góp có ý nghĩa trong việc xác định các chiều để biểu diễn các điểm. Ta thấy rằng Brand A đóng góp 62.6%  trong việc xác định trục thứ nhất (F1) và Brand B đóng góp 63.6% để xác định trục thứ 2 (F2). Vì vậy có thể nói rằng trục F1 được xác định chủ yếu dựa vào Brand A và trục F2 được xác định chủ yếu do Brand B.

     Đóng góp của các cột (trong trường hợp này là 3 khu vực). Kết quả nhưu sau:

    Tương tự, ta thấy trục F1 được xác định bởi Region 3 và trục F2 được xác định bởi Region 2 (Bởi vì các cột này đóng góp > 100/3 =33.3%)

     Chú ý rằng, Theo đóng góp của dòng (Brands) thì Brand A xác định F1 và theo đóng góp của cột (các Regions) thì F1 được xác định bởi Region 3, vì vậy rõ ràng rằng Brand A kết hợp mạnh mẽ với Region 3. Hay nói cách khác nhãn hiệu kem đánh răng Brand A được sử dụng nhiều nhất ở Region 3 (xem dữ hiệu trong Contingency Table và bản đồ phần sau)

    d. Biểu diễn trực quan bằng bản đồ kết quả CA

    Ví trí của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng Brand A,B,C,D).

    Những nhãn hiệu có profile càng giống nhau thì được đặt càng gần nhau và các nhãn hiệu có profile càng khác nhau thì được đặt càng xa nhau trong đồ thị

     

     Trong ví dụ này ta thấy Brand C và D được đặt gần nhau vì profile của chúng gần giống nhau (60%, 75%) và Brand A được đặt khá xa Brand C và D vì Profile của Brand A (12.5%) khác xa so với Profile của Brand C và. Trục F1 được xác định bởi Brand A nên vị trí của Brand A rất gần trục F1 trên đồ thị.

    Thêm vào đó, nếu profile của một brand càng khác biệt so với tâm (centroid – trung bình của các profile) thì nó sẻ nằm càng xa gốc tọa độ (origin).

    Tương tự, ví trí của các cột (trong trường hợp này là các Regions) được biểu diễn như sau

    Phát hiện các kết hợp giữa các hàng và cột (trong ví dụ này là giữa các nhãn hiệu kem đánh răng và các khu vực).

     Nhắc lại rằng, kết quả của CA là bản đồ các điểm (Map of Points). Trong đó các điểm biểu diễn cho các dòng (rows) và các cột (columns) của bảng. Vị trí của các điểm cho biết sự tương tự (similarities) giữa các dòng, sự tương tự giữa các cột và sự kết hợp (association) giữa dòng và cột trong bảng.

    Bản đồ sau đây cho ta biết sự tương tự giữa các Brands với nhau cũng như sự tương tự giữa các Regions với nhau và sự kết hợp giữa các Brands và các Regions.

    Trong ví dụ này, bản đồ mà CA sinh ra cho thấy rằng Brand A và Region 3 được đặt rất gần nhau trong bản đồ và gần trục F1, điều đó cho biết rằng có một sự kết hợp mạnh mẽ giữa Brand A với Region 3. Nói cách khác rằng Region 3 sử dụng chủ yếu kem đánh răng Brand A. (Điều này rõ ràng vì trong Contingency table 75% người sử dụng kem đánh răng Brand A thuộc Region 3)

     Tương tự, Brand B được đặt gần Region 2 cũng như Brand C và D được đặt gần Region 1 nói rằng Brand B được tiêu thụ chủ yếu ở Region 2 cũng như Brand C và D được tiêu thụ chủ yếu ở Region 1

    e. Đánh giá chất lượng của bản đồ

    Để đánh giá chất lượng của việc biểu diễn trực quan bằng bản đồ các điểm, người ta dựa vào phần trăm inertia mà các trục giải thích được.  Tiêu chí để đánh giá là : Tổng tích lũy của 2 (hay n chiều đầu tiên) giải thích được phần trăm của inertia càng cao thì chất lượng biểu diễn càng cao.


    Trong ví dụ này, 2 trục giải thích 100% inertia (trục thứ nhất giải thích 61.8% và trục thứ 2 giải thích 38.2% của inertia). Xem hình trên.

    Phân tích tương ứng được áp dụng rất rộng rãi trong rất nhiều lĩnh vực như phân tích dữ liệu kinh doanh, điều tra xã hội học, khai phá dữ liệu,…. CA cho phép phát hiện các tri thức tiềm ẩn trong khối lượng dữ liệu lớn  một cách dễ dàng thông qua phương pháp trực quan hóa (sử dụng bản đồ các điểm). Một điều quan trọng nữa là các tri thức phát hiện được rất dễ hiểu và dễ sử dụng. Có rất nhiều công cụ cho phép triển khai CA như SPSS, XLMINER, … nhưng XLSTAT triển khai CA trực tiếp từ các Spreadsheet của Excel và hỗ trợ cho việc biểu diễn trực quan kết quả phân tích CA bằng bản đồ rất mạnh giúp dễ dàng phát hiện các tri thức hữu ích từ dữ liệu.

    All comments please send to chucnv@ud.edu.vn. Thank you and Welcome!

    • Điểm chủ đề: 95
  • 12-03-2012 10:47 AM trả lời

    • anhpm
    • 500 thành viên năng nổ nhất
    • Tham gia 12-03-2012
    • Điểm 35

    Re: Phân tích tương ứng (Correspondence Analysis)

    Xin chào anh!
    Em đang làm NCS về vấn đề phân tích đa tương ứng(Multiple correspondence analysis).Anh có tài liệu nào liên quan đến nd này không và trình tự thực hiện phân tích không ạ . Anh giúp em với. Em cảm ơn anh nhiều.
    ( E chỉ biết dùng mỗi SPSS thôi) 
    • Điểm chủ đề: 35
  • 12-03-2012 09:48 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Phân tích tương ứng (Correspondence Analysis)

    Chào em,
    Tài liệu về MCA trên mạng rất nhiều mà. Tài liệu sau đây minh họa về MCA khá chi tiết, em xem thử có ích không nhé. Chúc em thành công.
    MCA 
    Từ khóa đại diện: , , ,
    • Điểm chủ đề: 20
  • 03-06-2013 11:38 AM trả lời

    • Endziei
    • Không xếp hạng
    • Tham gia 03-06-2013
    • Điểm 20

    Re: Phân tích tương ứng (Correspondence Analysis)

    Em chào anh,
     
    Rất vui khi đọc được bài viết này của anh. Nó thật sự rất hữu ích đối với em.
     
    Em hiện tại đang nghiên cứu về Bản đồ nhận thức. Trong sách của Hoàng Trọng có hướng dẫn cách tạo bản đồ nhận thức bằng 2 phương pháp là CA và MDS (Multidimensional Scaling). Tuy nhiên em có thắc mắc là 2 phương pháp cho ra kết quả có gì khác nhau không (về ý nghĩa/ độ tin cậy...), ngoại trừ việc sử dụng thang đo trong bảng câu hỏi khác nhau. Nếu bây giờ em muốn đánh giá về thương hiệu của e và đối thủ cạnh tranh, em nên căn cứ vào đâu để quyết định lựa chọn phương pháp phân tích là CA hay MDS.
     
    Cám ơn anh,
    Nga
    • Điểm chủ đề: 20
  • 11-14-2013 10:08 AM trả lời

    • chauhcm
    • Không xếp hạng
    • Tham gia 11-14-2013
    • Điểm 20

    Re: Phân tích tương ứng (Correspondence Analysis)

    Chào diễn đàn,
    Cảm ơn diễn BIS, nhất là các bài viết trên topic Data Mining. Em đang bắt đầu nghiên cứu về Data Mining nên các bài viết trong diễn đàn này rất có ích với em. Hy vọng sẽ được học hỏi thêm về Data Mining từ diễn đàn.
     
    Từ khóa đại diện: ,
    • Điểm chủ đề: 20
  • 04-08-2014 09:41 PM trả lời

    Re: Phân tích tương ứng (Correspondence Analysis)

    e chào a ạ.
    a ơi cho e hỏi có hướng dẫn chi tiết các chức năng thao tác của phần phềm này k ạ.
    hiện tại e tìm nhưng chưa có mong a giúp đỡ e với ạ
     
    e cám ơn.
    Dũng 
    • Điểm chủ đề: 20
  • 04-08-2015 12:39 PM trả lời

    • linh3892
    • Không xếp hạng
    • Tham gia 04-08-2015
    • Điểm 35

    Re: Phân tích tương ứng (Correspondence Analysis)

    Mọi người ơi cho em hỏi khi e lập biểu đồ nhận thức MDS về các thương hiệu máy tính nhưng khi phỏng vấn đáp viên trả lời họ chưa từng sử dụng sản phẩm của thương hiệu đó nên không thể đánh giá cho điểm thang đo được. 
    Vậy có phải để lập biểu đồ nhận thức MDS mình phải tìm những người tiêu dùng đã sử dụng hết các sản phẩm của mấy thương hiệu đó hay là không nhất thiết phải sử dụng mà mình có thể cho điểm theo ý kiến cá nhân, nhận thức chủ quan của mình. Bởi vì những sản phẩm đắt tiền không phải ai cũng có thể sở hữu hay sử dụng nhiều sản phẩm từ nhiều thương hiệu được.
    Rất mong mọi người giải đáp thắc mắc giúp e. Xin chân thành cảm ơn! 
    • Điểm chủ đề: 35
  • 05-02-2015 10:57 AM trả lời

    Re: Phân tích tương ứng (Correspondence Analysis)

    xin hỏi có bạn nào biết về Thuật toán tối ưu trong Machine learning này không: stochastic gradient descent
    Từ khóa đại diện:
    • Điểm chủ đề: 20
Trang 1 trong số 1 (8 nội dung)
Powered by Community Server (Commercial Edition), by Telligent Systems