Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Kỹ thuật Sequence Analysis với Microsoft Sequence Clustering

Bài cuối 05-19-2011 05:35 PM của chucnv. 0 trả lời.
Trang 1 trong số 1 (1 nội dung)
Sắp xếp bài viết: Trước Tiếp theo
  • 05-19-2011 05:35 PM

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 9,950

    Kỹ thuật Sequence Analysis với Microsoft Sequence Clustering

    Kỹ thuật phân Sequence Analysis với Microsoft Sequence Clustering

    Nguyễn Văn Chức – chuc.nv@due.edu.vn

    Trong lĩnh vực data mining, Sequence Analysis là được sử dụng để phát hiện các chuỗi giá trị hay sự kiện có tính thứ tự theo thời gian (Sequence được hiểu là một tập có thứ tự các phần tử và tính có thứ tự này được xác định bởi thời gian). Một số bài toán có thể trả lời bằng sử dụng Sequence analysis như: dự đoán sự kiện nào sẽ xảy ra sau sự kiện A, thứ tự đặt các mặt hàng vào giỏ hàng (Shopping Cart) khi khách hàng mua hàng Online hay khi duyệt qua các website, thứ tự click các link của khách hàng đó như thế nào (Stream Link Analysis),…

    Sequence Analysis cung cấp các tri thức rất hữu ích trong rất nhiều lĩnh vực, nhất là trong phân tích hành vi của khách hàng và được dùng phổ biến trong lĩnh vực bán hàng, Marketing, CRM,…

    Bài viết này giới thiệu công cụ Micorosoft Sequence Clustering để xây dựng mô hình Sequence Analysis.

    Mô tả dữ liệu sử dụng trong mô hình:

    Dữ liệu dùng để xây dựng mô hình Sequence Mining là kho dữ liệu AdventureWorksDW của công ty sản xuất xe đạp Adventure Works. Mô hình sử dụng 2 views chứa dữ liệu về bán hàng (xe đạp) của công ty là vAssocSeqOrdersvAssocSeqLineItems. Cấu trúc và dữ liệu của 2 views như sau:

    vAssocSeqOrders


    vAssocSeqLineItems


    Vấn đề đặt ra cho phân tích đó là Bộ phận Marketing của công ty Adventure Works muốn nghiên cứu thứ tự mua hàng (trật tự đặt các mặt hàng vào giỏ hàng – Stream Shopping) của khách hàng khi khách hàng mua hàng trực tuyến trên website của họ và dựa vào đó họ sẽ dự đoán khách hàng sẽ mua gì tiếp theo sau khi đã mua một mặt hàng nào đó. Thông tin này giúp cho công ty có thể bố trí các sản phẩm trên website thế nào cho hiệu quả để nâng cao doanh số bán hàng (chẳn hạn như xây dựng một StreamLink cho các sản phẩm theo các Sequences đã phát hiện)

     Tạo Một Mining Model Struture sử dụng Microsoft Sequence Clustering như sau:


    Chọn Data Mining Technique là Microsoft Sequence Clustering


    Chọn bảng CasevAssoSeqOrders và bảng Nested vAssoSeqLineItems

    Thiết lập các thuộc tính Key, Input, Predictable cho Sequence Model như sau:


    Cửa sổ Mining Model Struture với Sequence Clutering Model được tạo ra như sau:

     

    Thực hiện Sequence Clustering Model bằng cách bấm phím F5

    Giải thích kết quả của Sequence Clustering Model

    Click tab Mining Model Viewer, kết quả của Sequence Clustering Model thể hiện qua các tabs sau:

    Clustering Diagram:

    Mô tả trực quan các clusters được phát hiện bởi model, mô tả mối quan hệ giữa các Clusters. Các Clusters càng giống nhau (similar) thì được đặt càng gần nhau. Màu sắc thể hiện mật độ (density) của Clusters (số phần tử trong Cluster), màu càng đậm thì mật độ càng cao. Ngoài ta thanh trượt bên trái cho phép ta phát hiện độ mạnh (strong) của mối quan hệ  giữa các clusters. (Xem hình dưới)


     Cluster Profiles:

    Phần này mô tả các Sequences tồn tại trong mỗi cluster.


    Trong hình trên, Model.Samples Rows mô tả Sequence Data và Model Rows mô tả sự phân bố của các items trong một cluster. Mỗi màu trong Sequence Diagram mô tả một sản phẩm. Chẳn hạn màu xanh nước biển (Aqua Color) trong cluster 3 biểu diễn cho sản phẩm là xe đạp Mountain-200 và nó xuất hiện đầu tiên trong hầu hết các Sequences, điều này có nghĩa là các khách hàng thuộc Cluster 3 rất thích mua đặt mặt hàng đầu tiên là xe đạp Mountain-200 vào Shopping Cart trong qua trình mua hàng của mình.

    Cluster Characteristics:

    Phần này mô tả tổng hợp sự chuyển đổi trạng thái giữa các trạng thái (States) trong một cluster. Mô tả sự quan trong của giá trị của các thuộc tính cho việc lựa chọn cluster.

    Chẳn hạn trong cluster 2 như hình dưới cho biết thông tin quan trọng là khách hàng trong cluster 2 có xu hướng chọn sản phẩm đưa vào Shopping Cart đầu tiên là Mountain Tire Tube.


    Cluster Discrimination:

    Cluster Discrimination cho phép bạn so sánh 2 clusters. Hình dưới đây so sánh cluster 5 và cluster 10 giúp ta phát hiện ra thông tin rằng những khách hàng mua sản phẩm là Mountain Bottle Cage có khả năng thuộc cluster 10 nhiều hơn và các khách hàng mua sản phẩm Water Bottle có khả năng thuộc cluster 5 hơn.


     State Transitions:

    Trong tab State Transition, ta có thể chọn 1 cluster nào đó để xem sự chuyển đổi giữa các trạng thái (state). Mỗi nút biểu diễn một State của Model (chẳn hạn như Mountain-200). Một đường thẳng (line) biểu diễn sự chuyển tiếp giữa các trạng thái với các xác suất kèm theo. Màu nền của các node biểu thị tần suất xuất hiện trong cluster, màu càng đậm thì tầng suất xuất hiện càng nhiều.


     

    Trong hình trên, nếu bạn chọn node Touring Tire sẽ xuất hiện một đường mũi tên màu xanh nối từ node Touring Tire đến Touring Tire TubeSport-100 với các xác suất tương ứng là 0.63 và 0.26. Điều này có nghĩa là nếu một khách hàng nào đó đặt sản phẩm Touring Tire vào Shopping Cart thì có khả năng họ sẽ đưa sản phẩm tiếp theo vào shopping Cart là Touring Tire Tube với xác suất là 63% và họ sẽ kết thúc việc mua hàng của mình bằng cách đặt sản phẩm Sport-100 vào shopping Cart  với xác suất 26%.

    All comments please send to chuc.nv@due.edu.vn. Thank you and Welcome!
    • Điểm chủ đề: 20
Trang 1 trong số 1 (1 nội dung)
Powered by Community Server (Commercial Edition), by Telligent Systems