Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

Bài cuối 03-15-2017 10:56 PM của maxvu195. 20 trả lời.
Trang 1 trong số 1 (21 nội dung)
Sắp xếp bài viết: Trước Tiếp theo
  • 05-12-2011 10:31 PM

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Nguyễn Văn Chức – chuc1803@gmail.com

     BIDS là công cụ cho phép tổ chức quản lý và khai thác kho dữ liệu (Xử lý phân tích trực tuyến) cũng như xây dựng các mô hình khai phá dữ liệu rất dễ sử dụng và hiệu quả của Microsoft. (Xem bài viết về Phân tích OLAP với BIDS tại http://bis.net.vn/forums/p/450/826.aspx#826). Bài viết này giới thiệu khả năng xây dựng các mô hình khai phá dữ liệu của BIDS.

    BIDS cho phép triển khai các mô hình khai phá dữ liệu sau:

    Micorosft Decision Tree (Cây quyết định)

    Microsoft Clustering (Phân cụm)

    Micorosoft Naive Bayes(Phân lớp  với Bayes Rules)

    Micorosoft Time Series (Chuỗi thời gian)

    Micorosoft Association (Luật kết hợp)

    Micorsoft Sequence Clustering  (Phân tích chuỗi)

    Microsoft Neural Network (Mạng Neural)

    Micorsoft Linear Regression(Hồi qui tuyến tính)

    Micorsoft Logistics Regression(Hồi qui logistics)

     Qui trình Xây dựng mô hình khai phá dữ liệu với BIDS như sau :

    ·        Tạo mới 1 project (Analysis Services Project)

    ·        Tạo một Data Source

    ·        Tạo một Data Source View

    ·        Tạo một  Mining model structure.

    ·        Tạo các Mining models.

    ·        Khai thác Mining models.

    ·        Kiểm tra độ chính xác của Mining Models.

    ·        Sử dụng Mining Models để dự đoán.

     (Qui trình tạo  mới Analysis Services Project, Data Source, Data Source View được giới thiệu chi tiết trong bài Phân tích OLAP với BIDS, xem tại : http://bis.net.vn/forums/p/450/826.aspx#826)

     Mô tả dữ liệu và mục tiêu khai phá dữ liệu

    Cơ sở dữ liệu được sử dụng để minh họa trong bài viết này có tên là AdventureWorksDW, đây là kho dữ liệu của công ty Adventure Works chuyên sản xuất xe đạp. Cơ sở dữ liệu mẫu này có sẵn khi bạn cài SQL Server. Mục đích của việc xây dựng các mô hình khai phá dữ liệu nhằm để phân loại khách hàng, tìm ra các khách hàng tiềm năng cũng như dự đoán được khách hàng nào có thể mua sản phẩm của công ty Adventure Works giúp cho bộ phận Marketing xây dựng các chiến lược quảng cáo, tiếp thị nhằm mở rộng thị trường, tìm kiếm khách hàng, mở rộng kinh doanh.

     Sau đây mô tả chi tiết từng bước quá trình xây dựng mô hình khai phá dữ liệu với BIDS

    1. Khởi động SQL Server Business Intelligence Development Studio tạo 1 project mới có tên “SQL_DM”


    2. Tạo Data Source kết nối đến CSDL AdventureWorksDW


    3. Tạo một Data Source View (Trong Data Source view chọn dữ liệu lấy từ View có tên “vTargetMail”

    4. Tạo một Mining Model Structure

    Trong cửa sổ Solution Explorer, bấm phải chuột trên mục Mining Structures chọn New Mining Structure. Bấm Next và chọn From existing relational database or data warehouse và bấm Next và chọn Decision tree


    Bấm Next và chọn Data Source View đã tạo AdventureWorksDW. Bấm Next và chọn Case là vTargetMail và bấm Next. Chọn khóa là CustomerKey.

    Chọn Cột  cần dự doán (Predictable) là BikeBuyer và các cột dùng để dự đoán (input) gồm:

    Age

    YearlyIncome

    Region

    CommuteDistance

    HouseOwnerFlag

    TotalChildren

    EnglishEducation

    LastName

     

    EnglishOccupation

    MaritalStatus

     

    FirstName

    NumberCarsOwned

     

    Gender

    NumberChildrenAtHome

     

     Chú ý: Sau khi chọn thuộc tính predictable, bạn chỉ cần nhấn nút Suggest thì hệ thống đề nghị cho bạn các thuộc tính Input tính liên quan đến thuộc tính predictable đã chọn.


    Bấm Next và bấm nút Detect để xác định nội dung và kiểu dữ liệu của các thuộc tính được sử dụng trong model.


    Bấm Next và đặt tên cho model là Decision Tree và bấm Finish


     Màn hình của Mining Structure như sau:

     

     Hiệu chỉnh Mô hình

    Khi tạo một Mining Structure ban đầu chỉ có một mô hình khai phá dữ liệu dựa trên kỹ thuật Decision Tree, trong phần này chúng ta có thể sử dụng các kỹ thuật khai phá dữ liệu khác để đạt được mục đích nghiên cứu cũng như so sánh hiệu quả khai phá dữ liệu của các mô hình để chọn ra mô hình tốt nhất. Ở đây ta sử dụng thêm 2 mô hình nữa là Microsoft Naïve Bayes model Microsoft Clustering model.

     Tạo Microsoft Clustering model

    1.      Click Mining Structures tab.

    2.      Right-click Targeted Mailing và click New Mining Model.

    3.      Ở mục Model Name, gõ tên mô hình (ở đây là Clustering)

    4.      Ở mục Algorithm Name, chọn Microsoft Clustering.

    5.      Click OK.

     

     


     Tương tự, tạo thêm một Naïve Bayes model trong Mining Structures

    Thực thi (deploy) Mining Models

    Sau khi đã định nghĩa Mining Structures và các Mining Models như trên, bây giờ bạn phải thực thi các models bằng cách bấm F5

    Mining Structures và 3 Mining Models là Decision Tree, Clustering và Naïve Bayes được tạo ra và Deploy thành công như sau:


     Sau khi thực thi các Models đã xây dựng, bạn có thể kiểm tra kết quả, độ chính xác cũng như việc sử dụng các Mining Models này cho việc dự đoán các dữ liệu chưa biết bằng các tab: Mining Model Viewer (xem kết quả), Mining Accuracy Chart (kiểm tra tính chính xác), Mining Model Prediction (Dùng để dự đoán).

     Decision Tree Model:

     

     

        Clustering Model

     

     

      Naïve Bayes Model (Dependence Network)

     Attribute Discrimination


    Sử dụng Attribute Discrimination Tab để khám phá mối quan hệ giữa các giá trị rời rạc của biến dự đoán (Predictable Variable) và giá trị của các thuộc tính khác. Thuộc tính dự đoán Bike Buyer trong ví dụ này chỉ có 2 giá trị là 1 (mua) và 0 (không mua), hình trên cung cấp thông tin những khách hàng không sở hữu xe hơi (Number Cars Owned =0) có xu hướng mua xe đạp và những người sở hữu 2 xe hới có xu hướng không mua xe đạp 

     Attribute Profile

     Độ chính xác của Mining Models

    Kiểm tra độ chính xác của các models để biết khả năng dữ đoán chính xác của các mining models bằng Tab Mining Accuracy Chart. Phương pháp kiểm tra này sử dụng Test data (là dữ liệu được tách ra từ training dataset ban đầu và Test data không được dùng vào quá trình quá trình xây dựng model. Có nghĩa là một mẫu dữ liệu thuộc test data thì không xuất hiện trong Training Dataset). BIDS vẽ thêm mô hình lý tưởng (Ideal Model, mô hình mà dự đoán đúng 100% các mẫu) để dễ dàng so sánh hiệu quả dự đoán của các Mining models. Hai công cụ chính để mô tả độ chính xác của các Mining models mà BIDS dùng là Lift chart và Classification Matrix

    Chọn tab Mining Accuracy Chart và chọn Case Table

     

     

    Lift Chart tương ứng với 3 Mining Models

         Classifiaction Matrix tương ứng với 3 Mining Models

     

     


     Dựa vào Lift Chart hay Classification Matrix, ta thấy rằng Decision Tree Model có khả năng dự đoán chính xác cao nhất (80%), sau đó là Naïve Bayes Model (67%) và cuối cùng là Clustering Model (63%).

    Sử dụng mô hình để dự đoán

    Sau khi chọn được mô hình phù hợp (tốt nhất), bước tiếp theo là sử dụng mô hình đó cho việc dự đoán. Bạn có thể sử dụng ngôn ngữ DMX để thiết lập các quyery cho dự đoán.

    Các bước sử dụng model để dự đoán như sau:

    Giả sử ta sử dụng mô hình Decision Tree  (Mô hình có dự đoán chính xác cao nhất trong 3 Mining models đã xây dựng) để dự đoán khả năng khách hàng mua xe đạp như sau:

    Trong Tab Mining Model Prediction, chọn Select case table, chọn vTargetMail

    Chọn Decision Tree trong mục Select Model Và thiết kế một prediction Query như sau:

     

     Để xem kết quả của dự đoán, chọn mục Result ở góc trên bên trái của của sổ thiết kế Prediction Query. Kết quả như sau

     

    Các cột CustomerKey, BikeBuyer, và Expression được dùng để xác định khách hàng nào tiềm năng (có khả năng mua sản phẩm - ở đây là xe đạp). Và xác suất của các dự đoán chính xác. Bộ phận Marketing có thể sử dụng kết quả này để xây dựng chiến dịch quảng cáo, tiếp cận khách hàng của mình (chẳn hạn quyết định gởi email quảng cáo cho nhóm khách hàng nào), cũng như đề xuất các chiến dịch khuyến mãi, quảng cáo phù hợp với từng nhóm khách hàng để đạt được lợi nhuận cao nhất.

    Bài viết này nhằm giới thiệu sơ lượt công cụ xây dựng các Mining Models với BIDS của SQL SERVER, không tập trung nào việc giải thích ý nghĩa kết quả của Mining Models. BIDS là công cụ rất tốt trong việc xây dựng các Mining Models bởi tính dễ sử dụng, tính trực quan cao nên dễ hiểu và dễ giải thích kết quả của mô hình (đây là yêu cầu rất quan trọng đối với việc xây dựng các Mining Models). Ngoài ra BIDS lấy dữ liệu từ các hệ quản trị cơ sở dữ liệu quan hệ nên việc thu thập dữ liệu cho Mining Models rất thuận tiện.

     All comments please send to chucnv@ud.edu.vn. Thank you and Welcome

    • Điểm chủ đề: 125
  • 11-24-2011 09:32 PM trả lời

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Em chào thầy ,
    Thầy cho em hỏi chỗ bước 3 tạo Datasource view thầy có tạo cube không mà sao em thấy có mấy bảng Fact với mấy bảng Dim ?
    Với lại trog csdl AdventureWorks em down trên mạng về không có cái view nào tên "vTargetMail", cũng không có mấy cái bảng với mấy cái view như trong hình của thầy, Thầy up csdl AdventureWorks của thầy lên cho em xem được ko thầy?
     
      Em cảm ơn thầy !
    • Điểm chủ đề: 65
  • 11-25-2011 07:28 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Nếu em muốn phân tích OLAP thì em phải tạo Cube, còn xây dựng các Data Mining Models thì không cần
    Em cài đặt SQL Server chọn Data Sample đầy đủ thì sẽ có các bảng như em nói
    Chúc em thành công
    • Điểm chủ đề: 35
  • 11-27-2011 08:45 PM trả lời

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Dạ em làm được rồi , em cảm ơn thầy !
    • Điểm chủ đề: 35
  • 12-01-2011 12:40 PM trả lời

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Xin lỗi vì đăng kí mà ko post được bài, ko thấy link kích hoạt trong hộp thư. Nhưng gấp quá nên post reply hỏi lun, giúp dùm em với :

    Trong thut toán cart có 2 phn là to cây và ta cây. Phn to cây thì mình dùng gini index đ tìm thuc tính dùng đ phân chia. Sau khi phát trin cây ln nht, s có bước ta cây. Nhưng mình tim hiu trên mng nhiu mà vn không hiu được thut toán cart này ta cây như thế nào, liên quan đến đ phc tp ca cây và mc đ phân loi sai đó.

    Có anh nào biết rõ v vn đ ta cây trong CART không ch mình ta như thế nào vy, theo mình biết thì dùng cái gi là 10-fold cross validation. Giúp em vi, em cn lm ?

    Ví d áp dng ta cây cho bng d liu này(hình post ko hiện hết nha)

     
    • Điểm chủ đề: 35
  • 12-01-2011 06:32 PM trả lời

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    giúp em với anh Chức ơi
    • Điểm chủ đề: 20
  • 12-01-2011 11:21 PM trả lời

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Em thấy bài này nói kĩ nhưng do em không bít áp dụng tính và tỉa như thế nào, chỉ em với 
    • Điểm chủ đề: 20
  • 12-02-2011 01:04 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Xem bài về n-fold Cross Validation tại đây:
    http://bis.net.vn/forums/t/369.aspx
     
    • Điểm chủ đề: 35
  • 12-02-2011 01:23 PM trả lời

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Thanks anh, nhưng em vẫn không biết rõ công thức để tính khi dùng tỉa cây. Anh có thể nói rõ giúp em tính như thế nào để chọn được liên kết yếu trong cây để tỉa bỏ không ạ.
    • Điểm chủ đề: 35
  • 12-02-2011 02:24 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    • Điểm chủ đề: 35
  • 12-02-2011 05:32 PM trả lời

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Thanks anh về tài liệu, cái này em cũng có và đọc rồi. Nhưng em ko hiểu công thức tính như thế nào, tính alpha như thế nào và chọn như thế nào. Thanks anh đã giúp, nếu anh có rãnh thì giúp thêm nhé.
    • Điểm chủ đề: 20
  • 11-04-2012 04:43 PM trả lời

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Giờ em muốn lấy những rule từ tab rules ra và add vào listview để sử dụng vào mục đích khác thì làm thế nào ạ?
    Anh có thể giúp em được không? 
    • Điểm chủ đề: 20
  • 11-29-2012 11:34 PM trả lời

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Thầy cho em hỏi: ở bước sử dung mô hình để dự báo, dùng một tập dữ lieu khác để thực hiện dự báo, muốn biết độ chính xác (tỉ lệ %) của việc dự báo này thì xem ở đâu?
    • Điểm chủ đề: 20
  • 05-22-2013 04:10 PM trả lời

    • lena204
    • Không xếp hạng
    • Tham gia 05-22-2013
    • Điểm 20

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Em chào thầy!
    Thầy ơi, thầy có thể giới thiệu về công cụ Oracle Data Mining được không ạ.  
    Em cám ơn thầy!
    • Điểm chủ đề: 20
  • 12-17-2013 10:52 AM trả lời

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Thưa thầy!!
    Em đang tìm hiểu về data mining
    Thầy có thể cho em mail, yahoo, hoặc sky để tiện cho em hỏi được không..
    • Điểm chủ đề: 20
  • 12-17-2013 11:06 AM trả lời

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Mong mọi người và thầy giúp e lỗi này 
     
     
    Error 2 OLE DB error: OLE DB or ODBC error: A network-related or instance-specific error has occurred while establishing a connection to SQL Server. Server is not found or not accessible. Check if instance name is correct and if SQL Server is configured to allow remote connections. For more information see SQL Server Books Online.; 08001; Client unable to establish connection; 08001; Encryption not supported on the client.; 08001. 0 0
     
    Error 4 Errors in the OLAP storage engine: An error occurred while the dimension, with the ID of 'v Target Mail ~MC-Customer Key', Name of 'v Target Mail ~MC-Customer Key' was being processed. 0 0
     
     
    • Điểm chủ đề: 20
  • 11-07-2014 09:20 AM trả lời

    • Nhung_Le
    • Không xếp hạng
    • Tham gia 11-07-2014
    • Điểm 35

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Thưa thầy, thầy có giải thích giúp em thuộc tính khóa và thuộc tính dự báo có ý nghĩa như thế nào trong bước chọn thuộc tính để khai phá dữ liệu không ạ? Em cảm ơn thầy
    • Điểm chủ đề: 35
  • 11-08-2014 01:11 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Chào em,
    Thuộc tính khóa (key) là thuộc tính dùng để phân biệt các dòng dữ liệu (duy nhất), còn thuộc tính dự đoán (Predictive) là thuộc tính cho biết kết quả của mô hình dự đoán (trong phân lớp dữ liệu, thuộc tính này gọi là thuộc tính phân loại).
    • Điểm chủ đề: 20
  • 12-08-2014 11:56 PM trả lời

    • leva
    • Không xếp hạng
    • Tham gia 12-08-2014
    • Điểm 35

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Thưa thầy. Hiện tại em đăng tìm hiểu về Sequence Clustering Scenario. Nhưng em vẫn chưa hiểu kỹ nó để làm gì, ứng dụng nó như thế nào, cách thực hiện ra sao. Và em cũng không tìm được nhiều tài liệu về nó. Nếu có thầy có thể giúp em được không?.
    Em xin cảm ơn!.
    • Điểm chủ đề: 35
  • 12-26-2014 09:42 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Chào em,
     
    Tài liệu về Sequence Clustering Scenario Analysis trên mạng rất nhiều mà. Link sau đây là một Tutorial rất hữu ích về SCSA: http://msdn.microsoft.com/en-us/library/ms167594.aspx
    • Điểm chủ đề: 20
  • 03-15-2017 10:56 PM trả lời

    • maxvu195
    • Không xếp hạng
    • Tham gia 03-15-2017
    • Điểm 20

    Re: Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft

    Thưa thầy không biết thầy có thể hướng dẫn em thuật toán time series được không ạ. Em đang tìm hiểu về thuật toán và ứng dụng BIDS này nhưng em vẫn chưa hiểu rõ thuật toán lắm. Mong thầy có thể chỉ giúp em. Em xin cảm ơn thầy
    • Điểm chủ đề: 20
Trang 1 trong số 1 (21 nội dung)
Powered by Community Server (Commercial Edition), by Telligent Systems