Xây dựng mô hình khai phá dữ liệu với IBM SPSS Modeler
chuc1803@gmail.com
IBM SPSS Modeler là công cụ rất mạnh để triển khai các mô hình khai phá dữ liệu với giao diện rất dễ sử dụng (sử dụng icon và Stream) và khả năng biểu diễn kết quả trực quan.
Bài viết này giới thiệu cơ bản về cách sử dụng IBM SPSS Modeler xây dựng các mô hình khai phá dữ liệu
Màn hình làm việc của IBM SPSS Modeler (Version 18.0)
Để dễ theo dõi, sau đây giới thiệu qui trình xây dựng và triển khai mô hình phân lớp dữ liệu với bộ dữ liệu dùng để minh họa cho bài toán phân lớp quen thuộc Weather như sau:
Tải file dữ liệu Weather tại đây
Bước 1: Load dữ liệu
Mở IBM SPSS Modeler, trong Tab Sources chọn nguồn dữ liệu để load vào mô hình, trong ví dụ này chọn file Excel (kéo thả vào Stream Space hoặc double click vào Icon).
Double Click vào icon trong Stream Space, chọn Edit, sau đó chọn file dữ liệu, chọn Apply và OK.
Bước 2: Xem trước và chuyển đổi dữ liệu Trong Tab Output, chọn Table (kéo thả vào Stream Space).
Right Click vào Icon DataSource (Weather), chọn Connect và kéo tới icon Table.
Kết quả Xem Preview
Chuyển đổi dữ liệu: Trong Tab Field Ops, chọn Type và connect từ DataSource tới Type
Trong menu type edit có thể chuyển đổi kiểu dữ liệu, xử lý missing data, chọn khóa (Record ID), thuộc tính phân tích (Target). Sau khi thiết lập xong bấm Apply và OK. Xem trước bấm Preview.
Trực quan hóa dữ liệu bằng đồ thị: Ta có thể xem dữ liệu dưới dạng các đồ thị.
Trong tab Graphs, chọn đồ thị phù hợp. Trong ví dụ này sử dụng Graphboar để vẽ đồ thị tần suất cho thuộc tính Outlook.
Double Click vào icon Graphboard, thiết lập tham số như sau:
Bấm Apply và Run, kết quả như sau:
Bước 3. Xây dựng mô hình phân lớp dữ liệu Xây dựng mô hình phân lớp bằng Auto Classifiers để thực hiện nhiều phương pháp phân lớp đồng thời (có thể sử dụng từng phương pháp phân lớp riêng lẻ bằng cách chọn các icon tương ứng trong tab Modeling). Trong ví dụ này sử dụng Auto Classifier để phân lớp với Baysian Network, KNN, Neural Network và sử dụng thuật toán C5.0 để phân lớp bằng cây quyết định.
Trong Tab Modeling, kéo thả icon Auto Classifier vào Stream Space và connect từ icon Type đến icon Auto Classifier. Double Click vào Auto Classifier chọn các thuật toán phân lớp và thiết lập các thuộc tính cho mô hình.
Trong Tab Fields chọn thuộc tính phân lớp (Target) và các thuộc tính đầu vào (Input) cho mô hình
Trong Tab Model, thiết lập các tham số để Deploy model.
Trong Tab Expert, chọn các phương pháp phân lớp dữ liệu sử dụng. Trong ví dụ này chọn 3 phương pháp phân lớp Baysian Network, KNN, Neural Network.
Thiết lập xong bấm Apply và Run. Kết quả như sau:
Kết quả phân lớp bằng Baysian Network
Kết quả phân lớp bằng Neural Network
Kết quả phân lớp bằng KNN
Thêm thuật toán cây quyết định C5.0 vào Stream, thiết lập tham số để thực hiện C5.0 như sau:
Kết quả thực hiện cây quyết định C5.0
Cây quyết định sinh ra bởi thuật toán phân lớp C5.0
Stream cuối cùng của Project. Để khỏi nhầm lẫn khi triển khai nhiều mô hình, nên đặt tên lại cho các icon trong Stream Space.