Phát hiện bất thường (Outliers) bằng kỹ thuật phân cụm dữ liệu

Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp

trong

Tìm kiếm

BIS » Data Mining and Business Intelligence » Data Mining and Business Intelligence » Phát hiện bất thường (Outliers) bằng kỹ thuật phân cụm dữ liệu

Phát hiện bất thường (Outliers) bằng kỹ thuật phân cụm dữ liệu

Bài cuối 06-11-2022 04:50 AM của Uewkus. 3 trả lời.

Trang 1 trong số 1 (4 nội dung)
	Sắp xếp bài viết: Trước Tiếp theo

12-16-2016 05:52 PM

chucnv
Tham gia 12-05-2008
Điểm 28,320

Phát hiện bất thường (Outliers) bằng kỹ thuật phân cụm dữ liệu

Trả lời Liên hệ

Phát hiện bất thường bằng kỹ thuật phân cụm dữ liệu

(Outlier Detection by Clustering)

chuc1803@gmail.com

Phát hiện bất thường (Outlier) là nhiệm quan trọng trong phân tích dữ liệu. Các Outlier trong dữ liệu thường chứa rất nhiều thông tin quan trọng, có ích. Có rất nhiều kỹ thuật phát hiện Outlier như LOF(Local Outlier Factor), dựa vào biểu đồ hộp (boxplot), dựa vào các phương pháp thống kê…Bài viết này giới thiệu cách phát hiện Outlier dựa vào kỹ thuật phân cụm dữ liệu. Ý tưởng chính là sử dụng kỹ thuật phân cụm dữ liệu K-Means để nhóm các đối tượng vào K nhóm cho trước. Sau đó tính khoảng cách giữa các đối tượng trong nhóm đến tâm của nhóm đó và chọn ta n đối tượng (n xác định trước) có khoảng cách đến tâm lớn nhất có thể xem là các Outliers.

Trong ví dụ này sử dụng Data set: iris (iris.xlsx). Download tại ĐÂY và sử dụng Ngôn ngữ R để minh họa (Download code để thực hiện trong R tại ĐÂY).

Bước 1. Đọc dữ liệu từ file iris.xlsx

setwd("D:/R") # Xác định thư mục chứa file dữ liệu

library("xlsx") # Gọi thư viện đọc file Excel

iris=read.xlsx("iris.xlsx",1,header=T) # Đọc dữ liệu vào

attach(iris) # Load dữ liệu vào phân tích

fix(iris) # Xem trước dữ liệu