Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ

Bài cuối 04-09-2016 08:21 PM của meodien. 1 trả lời.
Trang 1 trong số 1 (2 nội dung)
Sắp xếp bài viết: Trước Tiếp theo
  • 10-03-2014 12:47 PM

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 9,210

    Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ

    Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ

    Data Mining: Applications, Trends &Tools

    chuc1803@gmail.com

    Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực và hiện nay đã có rất nhiều công cụ thương mại và phi thương mại triển khai các nhiệm vụ của khai phá dữ liệu. Bài viết này giới thiệu về một số lĩnh vực ứng dụng và các hướng nghiên cứu tiếp theo cũng như một số công cụ khai phá dữ liệu.

    1. Ứng dụng của khai phá dữ liệu (Data Mining Applications)

    Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi

    • Phân tích dữ liệu tài chính (Financial Data Analysis)
    •  Công nghiệp bán lẻ (Retail Industry)
    •  Công nghiệp viễn thông (Telecommunication Industry)
    • Phân tích dữ liệu sinh học (Biological Data Analysis)
    • Phát hiện xâm nhập (Intrusion Detection)
    • Một số ứng dụng trong khoa học (Scientific Applications)

    Phân tích dữ liệu tài chính (Financial Data Analysis)

    Dữ liệu tài chính trong ngân hàng và trong ngành tài chính nói chung thường đáng tin cậy và có chất lượng cao, tạo điều kiện cho khai phá dữ liệu. Dưới đây là một số ứng dụng điển hình trong khai phá dữ liệu tài chính:

    • Dự đoán khả năng vay và thanh toán của khách hàng, phân tích chính sách tín dụng đối với khách hàng.
    • Phân tích hành vi khách hàng (vay, gửi tiền)
    • Phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính
    • Phát hiện các hoạt động rửa tiền và tội phạm tài chính khác

    Công nghiệp bán lẻ (Retail Industry)

    Khai phá dữ liệu có vai trò rất quan trọng trong ngành công nghiệp bán lẻ, do dữ liệu  thu thập từ lĩnh vực này rất lớn từ doanh số bán hàng, lịch sử mua hàng của khách hàng, vận chuyển hàng hóa, tiêu thụ và dịch vụ. Điều tự nhiên là khối lượng dữ liệu từ ngành công nghiệp này sẽ tiếp tục tăng lên nhanh chóng và dễ dàng thu thập bởi tính sẵn có trên môi trường Web. Ứng dụng khai phá dữ liệu trong ngành công nghiệp bán lẻ nhằm xây dựng mô hình giúp xác định xu hướng mua hàng của khách hàng, giúp doanh nghiệp cải thiện chất lượng sản phẩm dịch vụ nhằm nâng cao sự hài lòng của khách hàng và giữ chân khách hàng tốt. Dưới đây là một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp bán lẻ:

    •  Khai phá dữ liệu trên kho dữ liệu khách hàng
    • Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách hàng, sản phẩm, thời gian và khu vực.
    •  Phân tích hiệu quả của các chiến dịch bán hàng, Marketing.
    • Quản trị mối quan hệ khách hàng (CRM).
    • Giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng

    Công nghiệp viễn thông (Telecommunication Industry)

    Công nghiệp viễn thông là một trong những ngành công nghiệp mới nổi, cung cấp nhiều dịch vụ như  trên điện thoại di động, Internet, truyền hình ảnh.... Do sự phát triển mạnh của công nghệ máy tính và mạng máy tính, viễn thông đang phát triển với tốc độ rất lớn. Đây là lý do tại sao khai phá dữ liệu trở nên rất quan trọng trong lĩnh vực này.
    Khai phá dữ liệu trong ngành công nghiệp viễn thông giúp xác định các mô hình viễn thông, phát hiện các hoạt động gian lận trong viễn thông, sử dụng tốt hơn nguồn tài nguyên và cải thiện chất lượng dịch vụ viễn thông. Dưới đây là một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp này:

    • Phân tích dữ liệu đa chiều viễn thông.
    • Xây dựng các mô hình phát hiện gian lận.
    • Phát hiện bất thường trong giao dịch viễn thông.
    • Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng
    • Sử dụng các công cụ trực quan trong phân tích dữ liệu viễn thông

    Phân tích dữ liệu sinh học (Biological Data Analysis)

    Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin -Sinh học (Bioinformatics). Sau đây là một số ứng dụng của khai phá dữ liệu ứng dụng trong sinh học:

    • Lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen.
    • Xây dựng mô hình khai phá các mạng di truyền và cấu trúc của Gen, protein
    • Xây dựng các công cụ trực quan trong phân tích dữ liệu di truyền.

    Phát hiện xâm nhập bất hợp pháp (Intrusion Detection)

    Xâm nhập bất hợp pháp là những hành động đe dọa tính toàn vẹn, bảo mật và tính sẵn sàng của tài nguyên mạng. Trong thế giới của kết nối, bảo mật đã trở thành vấn đề lớn đối với tồn tại của hệ thống. Với sự phát triển của internet và sự sẵn có của các công cụ, thủ thuật trợ giúp cho xâm nhập và tấn công mạng, yêu cầu kiểm soát truy cập bất hợp pháp là yếu tố rất quan trọng đảm bảo cho sự ổn định của hệ thống.

    Dưới đâymột số ứng dụng của khai phá dữ liệu có thể được áp dụng để phát hiện xâm nhập:

    - Phát triển các thuật toán khai phá dữ liệu để phát hiện xâm nhập.
    -  Phân tích kết hợp, tương quan và khác biệt để phát hiện xâm nhập
    -  Phân tích dòng dữ liệu dữ liệu (Analysis of Stream data) để phát hiện bất thường.

    2. Lựa chọn công cụ khai phá dữ liệu (Choosing Data Mining Tool - DMT)

    Hiện nay có rất nhiều DMT đã được phát triển, vấn đề là làm sao chọn được công cụ khai phá dữ liệu phù hợp với yêu cầu cụ thể của mỗi dự án khai phá dữ liệu. Việc lựa chọn này dựa trên một số đặc trưng sau của công cụ khai phá dữ liệu:

    Kiểu dữ liệu (Data Types): Mỗi DMT thường xử lý tốt trên những kiểu dữ liệu nhất định (formatted text,  ASCII text, relational database, data warehouse data) vì vậy nên biết được bạn đang cần hệ thống xử lý trên định dạng dữ liệu nào để chọn công cụ khai phá dữ liệu cho phù hợp.

    Sự tương thích (Compatibility): Phải biết được DMT chạy trên hệ điều hành nào, môi trường tương tác webform hay winform.

    Nguồn dữ liệu (Data Sources): Data Sources là nguồn dữ liệu mà DMT sẽ xử lý, phải xác định được bạn đang lưu trữ dữ liệu ở  chuẩn nào nào và DMT có hỗ trợ xử lý dữ liệu ở chuẩn đó không. Một số Data Source phổ biến hiện nay mà các DMT hỗ trợ như ASCII text files, ODBC connections, OLE DB for ODBC connections.

    Chức năng của hệ thống khai phá dữ liệu (Data Mining functions): Xác định các nhiệm vụ mà DMT triển khai (classification, description, discovery-driven OLAP analysis, association mining, linkage analysis, statistical analysis, classification, prediction, clustering, outlier analysis, similarity search…)

    Khả năng mở rộng (Scalability): Khi chọn một DMT thường quan tâm đến 2 khả năng mở rộng sau:

    Khả năng xử lý kích thước cơ sở dữ liệu lớn (mở rộng về số dòng dữ liệu (Database size).

    Hỗ trợ xử lý với số thuộc tính (Dimension) lớn

    Công cụ trực quan hóa dữ liệu (Visualization Tools): Đây là chức năng rất quan trọng đối với một DMT, giúp biểu diễn tri thức phát hiện được trực quan, dễ hiểu, dễ kiểm tra. Vấn đề trực quan hóa của DMS đề cập đến các khía cạnh sau:

    • Trực quan hóa dữ liệu (Data Visualization)
    • Trực quan hóa tiến trình khai phá dữ liệu (Mining process visualization)
    • Trực quan hóa kết quả khai phá dữ liệu (Mining Results Visualization)

    Ngôn ngữ truy vấn và tương tác đồ họa với người dùng (Data Mining query language): Xác định DMT cung cấp cho người dùng ngôn ngữ dùng để truy vấn kết quả từ mô hình khai phá dữ liệu đã được xây dựng trên môi trường tương tác nào? đồ họa (GUI) hay dòng lệnh (CUI)

    3. Các hướng nghiên cứu tiếp theo của Data Mining (Trends in Data Mining)

    Sau đây là một số hướng nghiên cứu trong khai phá dữ liệu đang được quan tâm:

    -        Khai phá dữ liệu Tin sinh học (Biological data mining)

    -        Khai phá dữ liệu và công nghệ phần mềm (Data mining and software engineering)

    -        Khai phá dữ liệu web (Web mining)

    -        Khai phá dữ liệu phân tán (Distributed Data mining)

    -        Khai phá dữ liệu thời gian thực (Real time data mining)

    -        Nghiên cứu hợp giữa khai phá dữ liệu, cơ sở dữ liệu, kho dữ liệu và CSDL web

    -        Chuẩn hóa ngôn ngữ truy vấn khai phá dữ liệu (Standardization of data mining query language)

    -        Khai phá dữ liệu trực quan (Visual Data Mining)

    -        Nghiên cứu các phương pháp mới để khai phá các kiểu dữ liệu phức tạp (New methods for mining complex types of data)

    -        Nghiên cứu về chính sách và an toàn thông tin trong khai phá dữ liệu (privacy protection and Information Security in data mining)

    4. Một số công cụ khai phá dữ liệu (Data Mining Tools)
     

    Một số công cụ khai phá dữ liệu

    Software Name

    License Type

    Data Mining Tasks

    ANGOSS KnowledgeSTUDIO

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Data Visualisation, Discovery Visualisation

    ARMiner

    (Link)

    Free - Open Source Licence

    Association Discovery

    Bayes Server

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Outlier Discovery, Discovery Visualisation, Sequence Analysis

    CART® (Classification and Regression Trees)

    (Link)

    Commercial Licence

    Classification Discovery

    Data Applied

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation, Web Analytics

    GhostMiner

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Outlier Discovery, Data Visualisation

    11Ants Model Builder

    (Link)

    Commercial Licence

    Classification Discovery, Regression Discovery, Outlier Discovery

    Molegro Data Modeller

    (Link)

    Commercial Licence

    Cluster Discovery, Regression Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation

    OmniAnalyser

    (Link)

    Commercial Licence

    Cluster Discovery, Association Discovery, Text Mining, Data Visualisation, Discovery Visualisation, Web Analytics, Social Network Analysis

    R

    (Link)

    Free - Open Source Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics, Social Network Analysis

    RapidMiner

    (Link)

    Free - Open Source Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation

    SAS Enterprise Miner

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Web Analytics

    SPAD Data Mining

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Data Visualisation, Discovery Visualisation

    SPM (Salford Systems Predictive Mining Suite)

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics

    Clementine

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics, Social Network Analysis

    SQL Server Data Mining

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis

    STATISTICA Data Miner

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics, Social Network Analysis

    Viscovery SOMine

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Data Visualisation, Discovery Visualisation

    VisuMap

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis

    Weka

    (Link)

    Free - Open Source Licence

    Classification Discovery, Cluster Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation


    • Điểm chủ đề: 35
  • 04-09-2016 08:21 PM trả lời

    • meodien
    • Không xếp hạng
    • Tham gia 04-09-2016
    • Điểm 20

    Re: Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ

    EM xin chào anh
    Hiện tại em đang có đề bài tập về nhà môn khai phá dữ liệu mà em chưa biết làm
    Sử dụng thuật toán c4.5 cho bài 1, k-means cho bài 2
    Link bài tập của em: https://drive.google.com/file/d/0B9hqGIyBGWEJWjUtdnhtYnliclE/view?pref=2&pli=1

    Anh làm ơn giải giúp em và gửi về mail: maivinhhoang@gmail.com giúp em ạ
    Em cảm ơn anh!
    • Điểm chủ đề: 20
Trang 1 trong số 1 (2 nội dung)
Powered by Community Server (Commercial Edition), by Telligent Systems