Giới thiệu kỹ thuật Forecasting với Microsoft Time Series
Nguyễn Văn Chức – chucnv@ud.edu.vn
Trong Data Mining, Forecasting được sử dụng để dự đoán (giá trị, xu hướng) tương lai dựa vào dữ liệu lịch sử. Time Series là phương pháp điển hình của Forecasting dùng để dự đoán giá trị của biến liên tục theo thời gian. Ví dụ như dự đoán doanh số bán sản phẩm của quí (năm) tới dựa vào doanh số bán của các quí (năm) qua.
Trong dữ liệu AdventureWorksDW của công ty sản xuất và kinh doanh xe đạp Adventure Works, nghiên cứu đặt ra cho các nhà phân tích bán hàng là thời điểm nào trong năm bán được nhiều xe nhất, dự đoán số lượng bán sản phẩm trong tương lai (chẳn hạn trong năm tới) cũng như dự đoạn loại xe nào (model) được ưa chuộng nhất theo vùng (Regions) hay theo thời điểm nào của năm bán được nhiều xe nhất .
Dữ liệu sử dụng để minh họa cho Time Series là vTimeSeries như sau:
Để tạo một Microsoft Time Series algorithm, các bước thực hiện như sau:
· Tạo một Mining model structure.
· Hiệu chỉnh Mmining model.
· Sử dụng Mining model.
Các bước để tạo forecasting mining structure
1. Trong Solution Explorer, right-click Mining Structures, click New Mining Structure.
2. Click Next.
3. Click From existing relational database or data warehouse, và click Next.
4. Trong mục What data mining technique do you want to use?, click Microsoft Time Series.
5. Click Next. Trong mục Select data source view chọn AdventureWorksDW .
6. Chọn Case check box vTimeSeries table.
7. Chọn Key là 2 cột TimeIndex và ModelRegion .
8. Chọn Input và Predictable là cột Quantity (Dự đoán cho cột Quantity)
9. Click Next.
10.Chọn Key Time là cột TimeIndex (TimeInDex chọn là Key Time và ModelRegion chọn là Key có nghĩa là Time Series sẽ tách thành các vùng (Region) riêng biệt và trong các vùng sẽ phân tích theo từng năm (12 tháng))
11. Click Next.
12. Gõ tên cho Mining structure name và Model Name và click Finish.
Chọn Key là TimeIndex và ModelRegion
Content Type chọn: Model Region là Key và Time Index là Key Time
Màn hình Mining Structure như sau:
Hiệu chỉnh Mining Structure
Trong Mining Structure vừa tạo, chỉ sử dụng 3 cột là TimeIndex, ModelRegion và Quantity, nếu bạn muốn sử dụng cột Amount để dự đoán trong mô hình thì bạn có thế thêm cột này vào mô hình bằng cách Right Click vào Column chọn Add a Column và chọn Amount trong cửa sổ Mining Structure.
Hiệu chỉnh Mining Model
Bởi vì bạn mới thêm 1 cột mới là Amount vào Mining Structure, vì vậy bạn phải định nghĩa cột này được sử dụng như thế nào trong mô hình. Vì ta muốn dự đoán giá trị của cột Amount, vì vậy trong cửa sổ Mining Models, chọn kiểu đáp ứng cho cột này là Predict (Xem Hình)
Một hiệu chỉnh quan trọng nữa cho Mining Models là thiết lập tham số cho TimeSeries Algorithm. Trong phân tích này chúng ta xử lý dữ liệu theo năm (12 tháng) nên bạn phải thiết lập lại tham số PERIODICITY_HINT trong mô hình là 12 như sau: 1. Trong cửa sổ Mining Models, Right Click vào Microsoft Time Series và chọn Set Algorithm Parameters
2. Thiết lập lại giá trị cho tham số PERIODICITY_HINT là {12}
Thực hiện mô hình bằng phím F5 hoặc chọn “Process Mining Structure and all Mining Models” trong cửa sổ Mining Structure
Khám phá kết quả của Mining Models
Kết quả của TimeSeries Model được thể hiện thông qua Decision Tree và Chart
Decision Tree
Kết quả của mô hình được thể hiện trực quan dưới dạng cây, giả sử chọn R250 Europe Model kết quả hiện thị như sau:
Tại mỗi Node của cây thể hiện mô hình hồi qui cho mỗi nút và các thông tin dự đoán quan trọng khác Charts
Sử dụng Charts bạn có thể nghiên cứu time series được tạo ra bởi mô hình
Giả sử để dự đoán Time series của Amount với mẫu xe M200 tại 3 regions là Europe, North America và Pacific ta chọn chúng từ danh sách đổ xuống bên góc trên phải của cửa sổ Chart
Trong Time Series Charts, cả dữ liệu lịch sử và dữ liệu dự đoán tương lai đều được thể hiện. Phần bên trái đường phân cách (đường thẳng đứng) là dữ liệu lịch sử, phần bên phải là time series dự đoán.
Sử dụng Time Series Charts bạn có thể phát hiện các thông tin giá trị cho việc phân tích kinh doanh của doanh nghiệp như thời điểm nào trong năm số lượng bán hàng nhiều nhất, Model sản phẩm nào được ưa chuộng tại mỗi Region (Hình trên cho ta thông tin mẫu xe M200 được bán nhiều nhất trong tháng 12 hằng năm tại Europe và North America), …
All comments please send to chucnv@ud.edu.vn. Thank you and Welcome!