Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Xây dựng mô hình khai phá dữ liệu với IBM SPSS Modeler

Bài cuối 05-28-2016 11:04 AM của chucnv. 0 trả lời.
Trang 1 trong số 1 (1 nội dung)
Sắp xếp bài viết: Trước Tiếp theo
  • 05-28-2016 11:04 AM

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 9,460

    Xây dựng mô hình khai phá dữ liệu với IBM SPSS Modeler

    Xây dựng mô hình khai phá dữ liệu với IBM SPSS Modeler

    chuc1803@gmail.com

    IBM SPSS Modeler là công cụ rất mạnh để triển khai các mô hình khai phá dữ liệu với giao diện rất dễ sử dụng (sử dụng icon và Stream) và khả năng biểu diễn kết quả trực quan.

    Bài viết này giới thiệu cơ bản về cách sử dụng IBM SPSS Modeler xây dựng các mô hình khai phá dữ liệu

    Màn hình làm việc của IBM SPSS Modeler (Version 18.0)

     Để dễ theo dõi, sau đây giới thiệu qui trình xây dựng và triển khai mô hình phân lớp dữ liệu với bộ dữ liệu dùng để minh họa cho bài toán phân lớp quen thuộc Weather như sau:


    Tải file dữ liệu Weather tại đây

    Bước 1: Load dữ liệu

     Mở IBM SPSS Modeler, trong Tab Sources chọn nguồn dữ liệu để load vào mô hình, trong ví dụ này chọn file Excel (kéo thả vào Stream Space hoặc double click vào Icon).

     Double Click vào icon trong Stream Space, chọn Edit, sau đó chọn file dữ liệu, chọn Apply và OK.

     

     

     Bước 2: Xem trước và chuyển đổi dữ liệu

    Trong Tab Output, chọn Table (kéo thả vào Stream Space).

    Right Click vào Icon DataSource (Weather), chọn Connect và kéo tới icon Table.

     Kết quả Xem Preview

     
    Chuyển đổi dữ liệu:

    Trong Tab Field Ops, chọn Type và connect từ DataSource tới Type

    Trong menu type edit có thể chuyển đổi kiểu dữ liệu, xử lý missing data, chọn khóa (Record ID), thuộc tính phân tích (Target). Sau khi thiết lập xong bấm Apply và OK. Xem trước bấm Preview.

     

     Trực quan hóa dữ liệu bằng đồ thị: Ta có thể xem dữ liệu dưới dạng các đồ thị.

    Trong tab Graphs, chọn đồ thị phù hợp. Trong ví dụ này sử dụng Graphboar để vẽ đồ thị tần suất cho thuộc tính Outlook.

     

     

     Double Click vào icon Graphboard, thiết lập tham số như sau:

     

     

      Bấm Apply và Run, kết quả như sau:

     

     

     Bước 3. Xây dựng mô hình phân lớp dữ liệu

    Xây dựng mô hình phân lớp bằng Auto Classifiers để thực hiện nhiều phương pháp phân lớp đồng thời (có thể sử dụng từng phương pháp phân lớp riêng lẻ bằng cách chọn các icon tương ứng trong tab Modeling). Trong ví dụ này sử dụng Auto Classifier để phân lớp với Baysian Network, KNN, Neural Network và sử dụng thuật toán C5.0 để phân lớp bằng cây quyết định.

     

     

    Trong Tab Modeling, kéo thả icon Auto Classifier vào Stream Space và connect từ icon Type đến icon Auto Classifier. Double Click vào Auto Classifier chọn các thuật toán phân lớp và thiết lập các thuộc tính cho mô hình.

     

    Trong Tab Fields chọn thuộc tính phân lớp (Target) và các thuộc tính đầu vào (Input) cho mô hình

     

      Trong Tab Model, thiết lập các tham số để Deploy model.

     

    Trong Tab Expert, chọn các phương pháp phân lớp dữ liệu sử dụng. Trong ví dụ này chọn 3 phương pháp phân lớp Baysian Network, KNN, Neural Network.

    Thiết lập xong bấm Apply và Run. Kết quả như sau:

     

      Kết quả phân lớp bằng Baysian Network
     

    Kết quả phân lớp bằng Neural Network

    Kết quả phân lớp bằng KNN


    Thêm thuật toán cây quyết định C5.0 vào Stream, thiết lập tham số để thực hiện C5.0 như sau:

     

     Kết quả thực hiện cây quyết định C5.0

     

     

      Cây quyết định sinh ra bởi thuật toán phân lớp C5.0

     

     

      Stream cuối cùng của Project. Để khỏi nhầm lẫn khi triển khai nhiều mô hình, nên đặt tên lại cho các icon trong Stream Space.

     

     

    • Điểm chủ đề: 20
Trang 1 trong số 1 (1 nội dung)
Powered by Community Server (Commercial Edition), by Telligent Systems