Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Vấn đề xác định số cụm k trong bài toán phân cụm dữ liệu

Bài cuối 06-09-2022 04:40 PM của Rafuom. 4 trả lời.
Trang 1 trong số 1 (5 nội dung)
Sắp xếp bài viết: Trước Tiếp theo
  • 06-27-2018 01:49 PM

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Vấn đề xác định số cụm k trong bài toán phân cụm dữ liệu

    Vấn đề xác định số cụm k trong bài toán phân cụm dữ liệu

    chuc1803@gmail.com; http://bis.net.vn

    Trong các thuật toán phân cụm dữ liệu (ví dụ k-means), trong đó k là số cụm phải được xác định trước khi tiến hành phân cụm. Câu hỏi đặt ra là với dataset đã có phân thành bao nhiêu cụm là hợp lý (tối ưu)? Bài viết này giới thiệu về cách sử dụng R để thực hiện 3 phương pháp thường dùng để chọn số cụm k trong bài toán phân cụm dữ liệu là Elbow, Average silhouette Gap statistic

    Elbow method

    Tư tưởng chính của phương pháp phân cụm phân hoạch (như k-means) là định nghĩa 1 cụm sao cho tổng biến thiên bình phương khoảng cách trong cụm là nhỏ nhất, tham số này là WSS (Within-cluster Sum of Square)

    Elbow method chọn số sụm k sao cho khi thêm vào  một cụm khác thì không làm cho WSS thay đổi nhiều.

    Qui trình triển khai Elbow method như sau:

    1.      Triển khai thuật toán phân cụm (ví dụ k-mean) với các số cụm k thay đổi (ví dụ từ 1 đến 10)

    2.      Với mỗi giá trị k, tính giá trị WSS

    3.      Vẽ Elbow curve theo các giá trị k.

    4.      Dựa vào Elbow curve chọn số k thích hợp, là vị trí ở khúc cua (bend|knee)

    Average silhouette method

    Average silhouette dùng để đo lường chất lượng của một cụm. Nó xác định mức độ phù hợp của một đối tượng trong một cụm.

    Qui trình triển khai Average silhouette method như sau:

    1.      Triển khai thuật toán phân cụm (ví dụ k-mean) với các số cụm k thay đổi (ví dụ từ 1 đến 10)

    2.      Với mỗi gái trị k, tính giá trị average silhouette (avg.sil)

    3.      Vẽ đồ thị avg.sil  theo các giá trị k.

    4.      Vị trí có avg.sil lớn nhất là số cụm k cần tìm

    Gap statistic method

    Gap statistic lựa chọn giá trị k dựa vào so sánh độ biến động trong các cụm (total within intra-cluster variation) đối với các giá trị k khác nhau.

    Xem chi tiết về Gap statistic method tại đây: https://datasciencelab.wordpress.com/tag/gap-statistic/

    Minh họa xác định số cụm k trong R

    Yêu cầu:

    Sử dụng 2 packages trong R là factoextraNbClust

    Dataset demo: USArrests (dữ liệu về tình hình tội phạm của các bang ở Mỹ, xem giải thích tại đây: https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/USArrests.html)

    Download Code R xác định số cụm k tại ĐÂY


     

    #Install and load requirement pacakges

    install.packages("factoextra")

    install.packages("NbClust")

    library(factoextra)

    library(NbClust)

    # standardizing the data to make variables comparable

    df <- scale(USArrests)

    # Elbow method

    fviz_nbclust(df, kmeans, method = "wss") + geom_vline(xintercept = 4, linetype = 2)+

      labs(subtitle = "Elbow method")


     

    # Silhouette method

    fviz_nbclust(df, kmeans, method = "silhouette")+labs(subtitle = "Silhouette method")


     

    # Gap statistic

    set.seed(123)

    fviz_nbclust(df, kmeans, nstart = 25,  method = "gap_stat", nboot = 50)+

      labs(subtitle = "Gap statistic method")


     

    Số cụm của các phương pháp xác định như sau:

    Elbow method: 4; Silhouette method: 2; Gap statistic method: 4

    Với dataset USArrests thì số cụm k=4 là tối ưu

    NbClust() function: gồm 30 chỉ số để chọn số cụm tốt nhất (xem về package NbClust tại đây: https://cran.r-project.org/web/packages/NbClust/index.html)

    #min.nc, max.nc: minimal and maximal number of clusters, respectively

    #method: The cluster analysis method to be used including “single”, “complete”, “average”, “kmeans”

    library("NbClust")

    nb <- NbClust(df, distance = "euclidean", min.nc = 2, max.nc = 10, method = "kmeans")


     

    #The result of NbClust using the function fviz_nbclust() [in factoextra]:

    library("factoextra")

    fviz_nbclust(nb)


     

    XEM VIDEO HƯỚNG DẪN TẠI ĐÂY

     

    • Điểm chủ đề: 80
  • 06-08-2022 11:00 PM trả lời

    Owen, Gunnar, Shakyor and Ugolf Argentina

    Health Act one other jurisdiction in Canada, New Brunswick, -Sanitary Regulations presently em powers health officers to control -Sewage Disposal Regulation drinking water. Lips incontrovertible fact that up to 66 % of patients with Inspect and palpate outer surfaces of lip and vermilion border. As the Green New Deal agenda is rolled out, new steps may also be required to protect New York�s environment, support the sustainable development of healthy communities, scale back air pollution across the state, and put money into the safety of New York�s natural resources mens health 6 pack challenge 2013 purchase uroxatral cheap online. Pharmacotherapeutics Fludrocortisone acetate is used as alternative therapy for patients with adrenocortical insufficiency (lowered secretion of glucocorticoids, mineralocorticoids, and androgens). The various degrees of the coefficients of association are to be read and understood according to their positive and adverse nature between +1 and –1. The size of the cavity in a woman of 184 tient who wonders whether or not an asymptomatic myoma will one hundred thirty five reproductive age is about three cm, with the breadth between 185 ever trigger symptoms in the future antibiotic resistance lab buy cheap zitroneo line. With rising resistance the preventive infants and youngsters in Africa: last results of a section 3, indi efficacy of sulfadoxine-pyrimethamine is probably going falling, and vidually randomised, managed trial. Type I malformations have little adenomatoid component and are primarily lined by ciliated pseudostratified epithelium. Indeed, cat house owners are often warned of the risk related water for pregnant girls antibiotics quiz questions cheap 250mg ribotrex otc.
    • Điểm chủ đề: 20
  • 06-09-2022 11:35 AM trả lời

    • Rrlkqv
    • Không xếp hạng
    • Tham gia 06-09-2022
    • Điểm 20

    Nunzvl Locality Mrjxgh

    Hazvxi https://edsildx.com/ - pfizer viagra Wjwadw https://amlodipine.store/ - buy generic norvasc
    • Điểm chủ đề: 20
  • 06-09-2022 03:42 PM trả lời

    • Tevqrw
    • Không xếp hạng
    • Tham gia 06-09-2022
    • Điểm 20

    Noafbg Locality Mniouz

    Xzrqbu https://metforminx.store/ - buy metformin pill Rwhnvq https://desloratadi.store/ - order desloratadine without prescription
    • Điểm chủ đề: 20
  • 06-09-2022 04:40 PM trả lời

    • Rafuom
    • Không xếp hạng
    • Tham gia 06-09-2022
    • Điểm 20

    Ambfth Leaning Eflfrh

    Eqdyfb https://amlodipine.store/ - norvasc us Jfhztr https://desloratadi.store/ - desloratadine pill
    • Điểm chủ đề: 20
Trang 1 trong số 1 (5 nội dung)
Powered by Community Server (Commercial Edition), by Telligent Systems