Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ
Data Mining: Applications, Trends &Tools
chuc1803@gmail.com
Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực và hiện nay đã có rất nhiều công cụ thương mại và phi thương mại triển khai các nhiệm vụ của khai phá dữ liệu. Bài viết này giới thiệu về một số lĩnh vực ứng dụng và các hướng nghiên cứu tiếp theo cũng như một số công cụ khai phá dữ liệu.
1. Ứng dụng của khai phá dữ liệu (Data Mining Applications)
Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi
- Phân tích dữ liệu tài chính (Financial Data Analysis)
- Công nghiệp bán lẻ (Retail Industry)
- Công nghiệp viễn thông (Telecommunication Industry)
- Phân tích dữ liệu sinh học (Biological Data Analysis)
- Phát hiện xâm nhập (Intrusion Detection)
- Một số ứng dụng trong khoa học (Scientific Applications)
Phân tích dữ liệu tài chính (Financial Data Analysis)
Dữ liệu tài chính trong ngân hàng và trong ngành tài chính nói chung thường đáng tin cậy và có chất lượng cao, tạo điều kiện cho khai phá dữ liệu. Dưới đây là một số ứng dụng điển hình trong khai phá dữ liệu tài chính:
- Dự đoán khả năng vay và thanh toán của khách hàng, phân tích chính sách tín dụng đối với khách hàng.
- Phân tích hành vi khách hàng (vay, gửi tiền)
- Phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính
- Phát hiện các hoạt động rửa tiền và tội phạm tài chính khác
Công nghiệp bán lẻ (Retail Industry)
Khai phá dữ liệu có vai trò rất quan trọng trong ngành công nghiệp bán lẻ, do dữ liệu thu thập từ lĩnh vực này rất lớn từ doanh số bán hàng, lịch sử mua hàng của khách hàng, vận chuyển hàng hóa, tiêu thụ và dịch vụ. Điều tự nhiên là khối lượng dữ liệu từ ngành công nghiệp này sẽ tiếp tục tăng lên nhanh chóng và dễ dàng thu thập bởi tính sẵn có trên môi trường Web. Ứng dụng khai phá dữ liệu trong ngành công nghiệp bán lẻ nhằm xây dựng mô hình giúp xác định xu hướng mua hàng của khách hàng, giúp doanh nghiệp cải thiện chất lượng sản phẩm dịch vụ nhằm nâng cao sự hài lòng của khách hàng và giữ chân khách hàng tốt. Dưới đây là một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp bán lẻ:
- Khai phá dữ liệu trên kho dữ liệu khách hàng
- Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách hàng, sản phẩm, thời gian và khu vực.
- Phân tích hiệu quả của các chiến dịch bán hàng, Marketing.
- Quản trị mối quan hệ khách hàng (CRM).
- Giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng
Công nghiệp viễn thông (Telecommunication Industry)
Công nghiệp viễn thông là một trong những ngành công nghiệp mới nổi, cung cấp nhiều dịch vụ như trên điện thoại di động, Internet, truyền hình ảnh.... Do sự phát triển mạnh của công nghệ máy tính và mạng máy tính, viễn thông đang phát triển với tốc độ rất lớn. Đây là lý do tại sao khai phá dữ liệu trở nên rất quan trọng trong lĩnh vực này.
Khai phá dữ liệu trong ngành công nghiệp viễn thông giúp xác định các mô hình viễn thông, phát hiện các hoạt động gian lận trong viễn thông, sử dụng tốt hơn nguồn tài nguyên và cải thiện chất lượng dịch vụ viễn thông. Dưới đây là một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp này:
- Phân tích dữ liệu đa chiều viễn thông.
- Xây dựng các mô hình phát hiện gian lận.
- Phát hiện bất thường trong giao dịch viễn thông.
- Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng
- Sử dụng các công cụ trực quan trong phân tích dữ liệu viễn thông
Phân tích dữ liệu sinh học (Biological Data Analysis)
Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin -Sinh học (Bioinformatics). Sau đây là một số ứng dụng của khai phá dữ liệu ứng dụng trong sinh học:
- Lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen.
- Xây dựng mô hình khai phá các mạng di truyền và cấu trúc của Gen, protein
- Xây dựng các công cụ trực quan trong phân tích dữ liệu di truyền.
Phát hiện xâm nhập bất hợp pháp (Intrusion Detection)
Xâm nhập bất hợp pháp là những hành động đe dọa tính toàn vẹn, bảo mật và tính sẵn sàng của tài nguyên mạng. Trong thế giới của kết nối, bảo mật đã trở thành vấn đề lớn đối với tồn tại của hệ thống. Với sự phát triển của internet và sự sẵn có của các công cụ, thủ thuật trợ giúp cho xâm nhập và tấn công mạng, yêu cầu kiểm soát truy cập bất hợp pháp là yếu tố rất quan trọng đảm bảo cho sự ổn định của hệ thống.
Dưới đây là một số ứng dụng của khai phá dữ liệu có thể được áp dụng để phát hiện xâm nhập:
- Phát triển các thuật toán khai phá dữ liệu để phát hiện xâm nhập.
- Phân tích kết hợp, tương quan và khác biệt để phát hiện xâm nhập
- Phân tích dòng dữ liệu dữ liệu (Analysis of Stream data) để phát hiện bất thường.
2. Lựa chọn công cụ khai phá dữ liệu (Choosing Data Mining Tool - DMT)
Hiện nay có rất nhiều DMT đã được phát triển, vấn đề là làm sao chọn được công cụ khai phá dữ liệu phù hợp với yêu cầu cụ thể của mỗi dự án khai phá dữ liệu. Việc lựa chọn này dựa trên một số đặc trưng sau của công cụ khai phá dữ liệu:
Kiểu dữ liệu (Data Types): Mỗi DMT thường xử lý tốt trên những kiểu dữ liệu nhất định (formatted text, ASCII text, relational database, data warehouse data) vì vậy nên biết được bạn đang cần hệ thống xử lý trên định dạng dữ liệu nào để chọn công cụ khai phá dữ liệu cho phù hợp.
Sự tương thích (Compatibility): Phải biết được DMT chạy trên hệ điều hành nào, môi trường tương tác webform hay winform.
Nguồn dữ liệu (Data Sources): Data Sources là nguồn dữ liệu mà DMT sẽ xử lý, phải xác định được bạn đang lưu trữ dữ liệu ở chuẩn nào nào và DMT có hỗ trợ xử lý dữ liệu ở chuẩn đó không. Một số Data Source phổ biến hiện nay mà các DMT hỗ trợ như ASCII text files, ODBC connections, OLE DB for ODBC connections.
Chức năng của hệ thống khai phá dữ liệu (Data Mining functions): Xác định các nhiệm vụ mà DMT triển khai (classification, description, discovery-driven OLAP analysis, association mining, linkage analysis, statistical analysis, classification, prediction, clustering, outlier analysis, similarity search…)
Khả năng mở rộng (Scalability): Khi chọn một DMT thường quan tâm đến 2 khả năng mở rộng sau:
Khả năng xử lý kích thước cơ sở dữ liệu lớn (mở rộng về số dòng dữ liệu (Database size).
Hỗ trợ xử lý với số thuộc tính (Dimension) lớn
Công cụ trực quan hóa dữ liệu (Visualization Tools): Đây là chức năng rất quan trọng đối với một DMT, giúp biểu diễn tri thức phát hiện được trực quan, dễ hiểu, dễ kiểm tra. Vấn đề trực quan hóa của DMS đề cập đến các khía cạnh sau:
- Trực quan hóa dữ liệu (Data Visualization)
- Trực quan hóa tiến trình khai phá dữ liệu (Mining process visualization)
- Trực quan hóa kết quả khai phá dữ liệu (Mining Results Visualization)
Ngôn ngữ truy vấn và tương tác đồ họa với người dùng (Data Mining query language): Xác định DMT cung cấp cho người dùng ngôn ngữ dùng để truy vấn kết quả từ mô hình khai phá dữ liệu đã được xây dựng trên môi trường tương tác nào? đồ họa (GUI) hay dòng lệnh (CUI)
3. Các hướng nghiên cứu tiếp theo của Data Mining (Trends in Data Mining)
Sau đây là một số hướng nghiên cứu trong khai phá dữ liệu đang được quan tâm:
- Khai phá dữ liệu Tin sinh học (Biological data mining)
- Khai phá dữ liệu và công nghệ phần mềm (Data mining and software engineering)
- Khai phá dữ liệu web (Web mining)
- Khai phá dữ liệu phân tán (Distributed Data mining)
- Khai phá dữ liệu thời gian thực (Real time data mining)
- Nghiên cứu hợp giữa khai phá dữ liệu, cơ sở dữ liệu, kho dữ liệu và CSDL web
- Chuẩn hóa ngôn ngữ truy vấn khai phá dữ liệu (Standardization of data mining query language)
- Khai phá dữ liệu trực quan (Visual Data Mining)
- Nghiên cứu các phương pháp mới để khai phá các kiểu dữ liệu phức tạp (New methods for mining complex types of data)
- Nghiên cứu về chính sách và an toàn thông tin trong khai phá dữ liệu (privacy protection and Information Security in data mining)
4. Một số công cụ khai phá dữ liệu (Data Mining Tools)
Một số công cụ khai phá dữ liệu
Software Name
|
License Type
|
Data Mining Tasks
|
ANGOSS KnowledgeSTUDIO
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Data Visualisation, Discovery Visualisation
|
ARMiner
(Link)
|
Free - Open Source Licence
|
Association Discovery
|
Bayes Server
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Regression Discovery, Outlier Discovery, Discovery Visualisation, Sequence Analysis
|
CART® (Classification and Regression Trees)
(Link)
|
Commercial Licence
|
Classification Discovery
|
Data Applied
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation, Web Analytics
|
GhostMiner
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Outlier Discovery, Data Visualisation
|
11Ants Model Builder
(Link)
|
Commercial Licence
|
Classification Discovery, Regression Discovery, Outlier Discovery
|
Molegro Data Modeller
(Link)
|
Commercial Licence
|
Cluster Discovery, Regression Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation
|
OmniAnalyser
(Link)
|
Commercial Licence
|
Cluster Discovery, Association Discovery, Text Mining, Data Visualisation, Discovery Visualisation, Web Analytics, Social Network Analysis
|
R
(Link)
|
Free - Open Source Licence
|
Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics, Social Network Analysis
|
RapidMiner
(Link)
|
Free - Open Source Licence
|
Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation
|
SAS Enterprise Miner
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Web Analytics
|
SPAD Data Mining
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Data Visualisation, Discovery Visualisation
|
SPM (Salford Systems Predictive Mining Suite)
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics
|
Clementine
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics, Social Network Analysis
|
SQL Server Data Mining
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis
|
STATISTICA Data Miner
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics, Social Network Analysis
|
Viscovery SOMine
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Data Visualisation, Discovery Visualisation
|
VisuMap
(Link)
|
Commercial Licence
|
Classification Discovery, Cluster Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis
|
Weka
(Link)
|
Free - Open Source Licence
|
Classification Discovery, Cluster Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation
|