Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp

trong

Tìm kiếm

BIS » Data Mining and Business Intelligence » Data Mining and Business Intelligence » Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Bài cuối 04-09-2018 10:57 AM của chucnv. 7 trả lời.

Trang 1 trong số 1 (8 nội dung)
	Sắp xếp bài viết: Trước Tiếp theo

03-11-2011 01:00 PM

chucnv
Tham gia 12-05-2008
Điểm 28,320

Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Trả lời Liên hệ

Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Nguyễn Văn Chức – chuc1803@gmail.com

Weka là công cụ rất mạnh trong xây dựng các mô hình khai phá dữ liệu. Weka Tools triển khai hầu hết các kỹ thuật khai phá dữ liệu như Classification, Clustering, Association Rule,.. Trong mỗi kỹ thuật, Weka triển khai rất nhiều thuật toán cho phép lựa chọn thuật toán phù hợp với yêu cầu và dữ liệu trong việc khai phá dữ liệu.

Trong phần này, tôi sẽ trình bày công cụ KnowledgeFlow (KF) của Weka trong việc xây dựng các mô hình khai phá dữ liệu. KF là công cụ rất quan trong đối với việc xây dựng mô hình khai phá dữ liệu vì KF cho phép người xây dựng mô hình có thể điều chỉnh từng giai đoạn (phase) cũng như điều chỉnh các tham số tương ứng với từng thuật toán qua từng bước để có một mô hình khai phá với kết quả tốt hơn.

Trong ví dụ sau, tôi sẽ trình bày cách sử dụng KF trng Weka để xây dựng mô hình phân lớp (Classification Model) trên Dataset Iris. (Xem mô tả chi tiết và Download Dataset Iris xem tại đây: http://bis.net.vn/forums/t/369.aspx).

Về cơ bản, Các bước xây dựng một KF gồm các bước sau:

1. Xác định nguồn dữ liệu (Data Sources)

2. Xác định các kỹ thuật Train và Test Mô hình (Evaluation)

3. Xác định các thuật toán sử dụng trong mô hình (Classification, Clustering, Association Rule,…). Chúng ta có thể sử dụng nhiều thuật toán để so sánh và chọn mô hình có kết quả tốt nhất

4. Hiển thị kết quả mô hình (Visualization)

Trong KF dưới đây, xây dựng mô hình phân lớp trên hoa Iris sử dụng 3 thuật toán phân lớp là J48, Simple CART (Cây hồi qui đơn giản) và Multiplayer Perceptron (Mô hình mạng Neuron nhiều lớp).

Chọn KnowledgeFlow khi khởi động Weka

Xác định nguồn và định dạng dữ liệu (DataSources): Chọn Arff Loader để nạp file dữ liệu iris.arff

Chọn tab Evaluation và chọn ClassAssigner để xác định thuộc tính phân lớp (Category Variable) của mô hình. Để nạp dữ liệu từ dataset vào mô hình, bấm phải chuột vào Iris dataset và chọn dataset, kéo và thả kến ClassAssigner

Chọn kỹ thuật Train và Test Mô hình (ở đây sử dụng kỹ thuật CV – CrossValidation). Trong Tab Evaluation chọn CrossValidation FoldMaker. Nạp dữ liệu vào CV giống như nạp dữ liệu từ Iris Dataset vào ClassAssigner

Chọn Tab Classifiers và chọn các thuật toán để xây dựng mô hình (trước tiên chọn thuật toán J48). Sau đó nạp dữ liệu để train và Test mô hình, bấm phải chuột vào CrossValidation FoldMaker chọn TrainingSet nối với J48, sau đó chọn TestSet (chú ý là phải chọn TraningSet trước)

Hiệu chỉnh tham số của thuật toán bằng cách double click và thuật toán

Chọn Tab Evaluation chọn ClassifierPerformanceEvaluator để đánh giá hiệu quả của mô hình phân lớp

Chọn Tab: Visualization và chọn Text Viewer hoặc GraphViewer để xem kết quả của mô hình dưới dạng Text hay dưới dạng trực quan quan bằng hình ảnh.

Sau khi thiết lập đầy đủ các bước và tham số cho các bước của mô hình. Thực hiện mô hình bằng cách bấm phím phải chuột vào Iris Dataset và chọn Start Loading

Xem kết quả mô hình bằng cách bấm phait chuột vào TextViewer và chọn Show Results

Kết quả mô hình phân lớp xây dựng trên thuật toán J48

Tương tự, ta có thể xây dựng mô hình trên nhiều thuật toán để chọn thuật toán tốt nhất cho mô hình. KF dưới đây sử dụng 3 thuật toán phân lớp là J48, SimpleCART (Cây hồi qui đơn giản) và Multiplayer Perceptron (Mô hình mạng Neuron nhiều lớp).

Kết quả của mô hình theo 3 thuật toán, trong đó mô hình phân lớp dựa trên thuật toán Multiplayer Perceptron có độ chính xác cao nhất (97.3333 %), sau đó là thuật toán J48 với độ chính xác là 96% và cuối cùng là thuật toán SimpleCART với độ chính xác là 95.3333%.

Chú ý, chúng ta có thể thay đổi các tham số trong các bước của KF để thấy sự khác nhau trong kết quả phân lớp của các thuật toán.

KnowledgeFlow của Weka là công cụ rất thuận lợi cho việc xây dựng các mô hình khai phá dữ liệu. Với KF bạn có thể từng bước hiểu chỉnh các tham số của mô hình, lựa chọn nhiều kỹ thuật, thuật toán khác nhau để xây dựng mô hình. Từ đó có thể chọn ra mô hình tốt nhất cho công việc khai phá trên dữ liệu cụ thể của bạn.

PS. All comments please send to chucnv@ud.edu.vn. Thank you and Welcome!

Từ khóa đại diện: Data Mining, Weka, Khai phá dữ liệu, KF, KnowledgeFlow, Phân lớp dữ liệu

Điểm chủ đề: 50

03-11-2011 05:20 PM trả lời

little_title
Tham gia 03-09-2011
Điểm 70

Re: Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Trả lời Liên hệ

Cảm ơn tác giả, Thực sự em rất cần tài liệu này. Em đang tìm hiểu và ứng dụng các mô hình khai phá dữ liệu để phát hiện tri thức. Em cũng ứng dụng Weka cho việc thực hiện các mô hình nhưng phần KF này thì chưa tìm được tài liệu hướng dẫn chi tiết. Bài viết ngắn gọn nhưng rất dễ hiểu.

Điểm chủ đề: 35

04-19-2011 11:11 AM trả lời

hiengiang
Tham gia 11-11-2010
Điểm 430

Re: Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Trả lời Liên hệ

Anh có tài liệu hướng dẫn chi tiết về KF trong weka không cho em xin với, kiểu tài liệu Tutorial ấy.

Đọc bài viết của anh em đã biết làm nhưng em muốn tìm hiểu chi tiết hơn về môi trường này trong Weka.

nếu có thì anh gởi theo địa chỉ: giangrabit@yahoo.com.

Cảm ơn anh trước

Điểm chủ đề: 50

10-15-2012 10:42 AM trả lời

polytechnic
Tham gia 10-15-2012
Điểm 20

Re: Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Trả lời Liên hệ

Chào diễn đàn và tác giả Chucnv,

Em thật may mắn được đọc các bài viết trên BIS về Data Mining của tác giả Chucnv. Em thật sự khâm phục tác giả về sự hiểu biết và nhất là mong muốn chia sẻ với cộng đồng về lĩnh vực Data Mining mới mẻ này. Em đã đọc vài cuốn sách về khai phá dữ liệu của những "Cây đa, cây đề" mà thú thực em thấy họ trình này khó hiểu quá. Em rất thích văn phong viết của tác giả, rất đơn giản, logic, dễ hiểu và nhất là khả năng sử dụng ví dụ rất hay. Diễn đàn này rất hữu ích với Sinh viên ngành công nghệ thông tin bọn em.

Một lần nữa xin cảm ơn tác giả chucnv và diễn đàn.

Hy vọng em sẽ nghiên cứu và đủ tự tin để tham gia viết bài trên diễn đàn này. Mong nhận được sự chia sẻ và ủng hộ.

Điểm chủ đề: 20

08-01-2013 04:01 PM trả lời

hoc_weka
Tham gia 08-01-2013
Điểm 35

Re: Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Trả lời Liên hệ

Cho em hỏi em có thực hiện các bước như hướng dẫn nhưng lai không có mục Start Load nhỉ, không biết sai ỏ chổ nào

Điểm chủ đề: 35

08-03-2013 10:17 PM trả lời

chucnv
Tham gia 12-05-2008
Điểm 28,320

Re: Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Trả lời Liên hệ

Chào em,

Em xem lại một số điểm sau:

1. Đã chọn đúng thuộc tính phân lớp cho mô hình trong mục ClassAssigner chưa?

2.Dataset (training data) có phù hợp với thuật toán phân lớp được chọn không?

3. Chọn các tham số trong phần CrossValidation cho phù hợp

Điểm chủ đề: 20

04-05-2018 05:15 AM trả lời

nhathatm
Tham gia 04-04-2018
Điểm 35

Re: Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Trả lời Liên hệ

Em chào anh, em đang tìm hiểu về KnowledgeFlow. Tuy nhiên ngay bước đầu tiên load dữ liệu của em đã không thực hiện được với dòng thông báo "[KnowledgeFlow] Unable to load flow (invalid stream header)". Em dùng file .csv và vẫn chạy tốt với công cụ Explorer của weka. Vậy lý do của nó là gì và cách giải quyết thế nào?, anh giải đáp giúp em với ạ.

Điểm chủ đề: 35

04-09-2018 10:57 AM trả lời

chucnv
Tham gia 12-05-2008
Điểm 28,320

Re: Sử dụng KnowledgeFlow trong Weka để xây dựng mô hình Khai phá dữ liệu

Trả lời Liên hệ

Chào bạn,

Nếu được thì bạn có thể gởi file Data qua mình xem thử nhé/

Điểm chủ đề: 20

Trang 1 trong số 1 (8 nội dung)

Powered by Community Server (Commercial Edition), by Telligent Systems