|
Vấn đề tiền xử lý dữ liệu trong Data Mining
Bài cuối 06-09-2022 06:03 PM của Hertropy. 49 trả lời.
-
-
chucnv
- Tham gia 12-05-2008
- Điểm 28,320
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Em vào link này xem tài liệu và download Source code free của chính tác giả đề xuất MSApriori.
http://www.cs.bme.hu/~bodon/en/fim/msapriori/index.html Chúc em thành công,
|
|
-
-
trieuviem
- Tham gia 10-14-2011
- Điểm 90
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Các công cụ dùng để khám phá tri thức trong các DBMS chỉ là phần nhỏ của lĩnh vực khám phá tri thức thôi, KDD không nhất thiết là viết code mới làm được đâu. Nó có thể xuất hiện từ các thông tin của đời sống, trong các lĩnh vực tài chính ngân hàng, giáo dục, mua bán... Cái chính là những tri thức tìm được phải được đánh giá, chứng minh, so sánh, cải tiến giữa các giải thuật (phân lớp, gom cụm, luật kết hợp, bài toán hồi quy...). Kiến thức về thống kê tác động mạnh mẽ đến việc nghiên cứu về lĩnh vực khám phá tri thức. Những thông tin về các bài toán đã được giải quyết bởi các giải thuật trước đây (trên thế giới) thì bạn cần phải nắm bắt luôn, để bạn có thể cải tiến bằng các giải thuật khác hiệu quả hơn chẳng hạn... Chúc bạn thành công.
|
|
-
-
trunga2
- Tham gia 08-25-2011
- Điểm 20
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Cho e hỏi tiền xử lý Điểm trung bình của từng môn như thế nào? Toán : 7.5 Lý: 6.7 Hóa: 7.8 ... Kết quả tốt nghiệp: Đậu hay Rớt Vì e muốn tìm luật là: toán(8)->Kết quả TN(Đậu) toán(7.5),Lý(5.7)-> Kết quả TN(Đậu) ....
trong Weka có cho phép vế phải chỉ có thuộc tính là Kết quả không? E cám ơn.
|
|
-
-
huynhvohoangnam
- Tham gia 08-23-2012
- Điểm 20
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Thầy vui lòng cho em hỏi: Em muốn áp dụng thuật toán Apriori để thay thế toàn bộ dữ liệu có giá trị "true" thành "y" bằng weka thì làm từng bước như thế nào vậy thầy? Dùng thuật toán Apriori để loại bỏ cột cuối cùng trong dữ liệu có phải là lọc bỏ thuộc tính như thầy đã trình bày không ạ?
Do em mới học weka nên vẫn chưa hiểu rõ lắm. Mong thầy chỉ giúp em. Em cám ơn thầy ạ!
|
|
-
-
hungnv
- Tham gia 09-19-2012
- Điểm 35
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Chào thầy, em có một vấn đề trong dữ liệu của em có 2 column kiểu numeric đó là Current Close Price và Actual Close Price ( tức là giá trị kết thúc hiện tại và giá trị thực sự khi kết thúc phiên giao dịch ) em muốn chuyển cột Actual Close Price sang dạng categorial bằng cách lấy cột Actual Close Price trừ cho Current Close Price nếu ra >0 thì value = 1 , =0 thì value =0 , <0 thì value = -1, thì em có thể làm cách nào nào ạ , mong thầy giúp đỡ
|
|
-
-
mrtan183
- Tham gia 10-14-2012
- Điểm 50
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
thầy vui lòng cho em hỏi trong weka có bộ lọc nào cho phép điển giá trị thiếu? bộ lọc này áp dụng trên kiểu dữ liệu nào?cách thức hoạt động của bộ lọc ?
thanks
|
|
-
-
chucnv
- Tham gia 12-05-2008
- Điểm 28,320
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Chào em,
Trong Weka em có thể xử lý các giá trị thiếu (missing data) của các thuộc tính bằng cách thay các giá trị thiếu bằng giá trị trung bình (mean) đối với các thuộc tính có kiểu dữ liệu số (numeric) và bằng mode đối với các thuộc tính định danh (nominal) trong training data.
Ví dụ: Có training data về thời tiết (file weather.arff) như sau:
Trong training data trên thì có 2 dòng còn thiếu dữ liệu là dòng đầu tiên, thuộc tính windy có kiểu dữ liệu là nominal và dòng cuối cùng là thuộc tính temperature có kiểu numeric.
Bây giờ ta dùng weka để xử lý các giá trị thiếu này như sau:
1. Mở weka → chọn File weather.arff
2. Trong tab: Filter→Bấm nút Choose→chọn filters→Unsupervised →Attribute→ReplaceMissingValues
3. Bấm Apply để hoàn thành. Khí đó giá trị của thuộc tính temperature còn thiếu sẽ được thay bằng giá trị trung bình là 73.769 và gái trị của thuộc tính windy được thay bằng Mode là False (xem kết quả hình sau):
Chúc em thành công,
|
|
-
-
2nogirl
- Tham gia 11-10-2012
- Điểm 20
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Thầy ơi! Em đang làm về đề tài poker hand, lúc train thì trên weka báo correct instance chỉ 49% với thuật toán navieBayes, và 52% với thuật toán Rule JRip, Em xem một bài tham khảo trên mạng thì thấy nó train chính xác tới 98%, bộ dữ liệu giống của e. Em chưa biết làm cách nào để tiền xử lí dữ liệu cho thuộc tính nó đúng gần chính xác, mong thầy chỉ thêm. Em xin cảm ơn!
Đây là file dữ liệu của em: http://www.mediafire.com/?q67j81zxg7he166
|
|
-
-
Ntlinhyb
- Tham gia 03-24-2013
- Điểm 40
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Bài viết rất hay! Cảm ơn anh đã chia sẻ vì cộng đồng!
|
|
-
-
Ntlinhyb
- Tham gia 03-24-2013
- Điểm 40
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Anh có nhiều kinh nghiệm trong Data mining và data warehouse, xin anh trả lời giúp em câu hỏi này với ạ.
Em đang nghiên cứu làm về bài toán xây dựng kho dữ liệu điểm và phân tích dữ liệu từ kho dữ liệu đó. Theo anh thì em nên chọn phần mềm nào phù hợp để xử lý bài toán trên ạ? So sánh giữa phần mềm Weka và hệ quản trị CSDL SQL server, công cụ nào phù hợp hơn cho bài toán này?
Xin chân thành cảm ơn anh!
|
|
-
-
Duong.bis.net.vn
- Tham gia 04-28-2013
- Điểm 35
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Cháu chào chú ạ. Cháu không biết chú đã nhiều tuổi chưa nên cháu xin phép cho phép cháu được gọi chú là chú ạ :)
Dạ cháu có lên trên trang http://bis.net.vn để xem các bài viết của chú về Data ming và đã có thêm đước rất nhiều thông tin hữu ích. Hiện cháu là một sinh viên năm cuối đại học cháu cũng mới tiếp cận với đề tài về Data mining và cháu cũng đang theo hướng đó đễ làm luận văn tốt nghiệp ạ. Đề tài của cháu là ứng dụng khai phá dữ liệu vào dữ liệu sinh học để dự đoán cấu trúc protein.
Nhưng hiện cháu đang có một chút khó khăn trong vấn đề thực nghiệm. Hiện cháu đang nghiên cứu về support vecto machine (SVM). Theo như cháu đã tìm hiều thì SVM là một thuật toán học máy có giám sát để phân lớp nhị phân. Cháu đã xử lý được file dữ liệu đầu vào cho Weka vì cháu định dùng phần mềm Weka để làm thực nghiêm.
Nhưng khi cháu sử dụng Weka thì theo như cháu được biết thì quá trình học máy xảy ra hai quy trình là :
- Xây dựng mô hình trên dữ liệu có sẵn biết trước nhãn lớp.
- Sử dụng mô hình đó để dự đoán lớp của tập dữ liệu kiểm thử.
Nhưng khi cháu tải tập dữ liệu có sẵn nhẵn lớp để xây dựng mô hình vào phần mềm Weka chạy với Cross Validation = 10 thì nó lại đưa được ra kết quả đánh giá luôn ạ? Cháu đang thấy khó hiểu về kết quả đưa ra của chương trình Weka? Hay là khi mình tải file training thì phần mềm sẽ tự tạo file test cho mình ạ? Chú có thể giải thích giúp cháu về quá trình chạy trong Weka được không ạ? Cháu rất mong được nhận phản hồi từ chú sớm? Cháu cảm ơn chú ạ.
|
|
-
-
chucnv
- Tham gia 12-05-2008
- Điểm 28,320
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Chào bạn, Cross Validation (CV) là kỹ thuật chủ yếu được sử dụng để train và Test Data Mining Model. Trong đó dữ liệu gốc sẽ được chia thành n phần bằng nhau (n-fold, thường n=10), và quá trình Train/Test Model thực hiện lặp lại n lần. Tại mỗi lần Train/Test Model, 1 phần dữ liệu dùng để Test và (n-1) phần còn lại dùng để Train Model. Lỗi sẽ được tính sau mỗi lần Train/Test Model. Ví dụ với cross validation =10 (10-fold) thì dữ liệu gốc sẽ được chia lần 10 phần bằng nhau, quá trình train/Test Model sẽ lặp lại 10 lần, mỗi lần sẽ lấy 9 phần dữ liệu để train model và 1 phần để Test Model. Xem thêm về cách sử dụng Cross Validation tại đây: http://bis.net.vn/forums/t/369.aspx
Chúc bạn thành công
|
|
-
-
duong.bis.net
- Tham gia 05-09-2013
- Điểm 20
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Cháu cảm ơn chú đã trả lời câu hỏi trên của cháu. Cháu xin lỗi vì dùng tài khoản mới này ạ. Do tài khoản cũ Duong.bis.net.vn của cháu bị quên mật khẩu ạ. Cháu còn một chút thắc mắc nữa chú ạ. Sau khi mình xây dựng mô hình phân lớp bằng Weka với cross-validation =10 thì kết quả nhận được vẫn chỉ là đánh giá trên tập training set ạ. Cháu có một thắc mắc là từ Weka có thể trích xuất mô hình để có thể xây dựng dự đoán phân lớp cho một tập dữ liệu chưa có nhãn lớp đích được không hả chú? Cháu cảm ơn chú ạ.
|
|
-
-
toant8
- Tham gia 10-05-2013
- Điểm 20
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Chào anh
Em đang làm bào tiểu luẩn về KPDL dùng weka. database của em lấy ở địa chỉ
Database này là của C4.5 nhưng trong Weka thì lại chỉ mở được J4.8. Thầy giáo bảo em phải convert sang nhưng em không biết làm thế nào. em muốn hỏi anh 1 số vấn đề đó là:
- Có cách nào convert sang dạng Weka đọc được không?
- dữ liệu learning có nhiều chữ cái khác nhau. vậy khi convert thì data của mỗi chữ cái đưa vào 1 file hay tất cả chữ cái cho vào 1 file
- Trong các file của mỗi chữ cái có 9 trường, trong khi mô tả của database chỉ nói có 7 trường. vậy có phải em phải bỏ các trường không có tả đi khi muốn convert
Rất mong anh giải đáp giúp em
|
|
-
-
loankhai
- Tham gia 11-07-2013
- Điểm 20
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
Kính Chào Thầy Chức.
Thầy xem giúp em thậut toán phân loại trong khai phá dữ liệu có thể áp dụng để phân loại đơn vị hành chính xã phường thị trấn không. Dữ liệu đầu vào: Dân số; diện tích; các yếu tố đặc thù Dự liệu đầu ra: - Xã, phường, thị trấn loại 1 - Xã, phường, thị trấn loại 3 - Xã, phường, thị trấn loại 3 Cách tính:
Từ dữ liệu ban đầu -> tính điểm từng thuộc tính Dân số; diện tích; các yếu tố đặc thù
-> Tính tổng điểm các thuộc tính các thuộc tính:Dân số; diện tích; các yếu tố đặc thù
-> Dự vào tổng điểm: ta xếp loại. Việc phân loại đơn vị hành chính cấp xã căn cứ vào khung điểm sau: a) Xã, phường, thị trấn loại 1 có từ 221 điểm trở lên; b) Xã, phường, thị trấn loại 2 có từ 141 đến 220 điểm; c) Xã, phường, thị trấn loại 3 có từ 140 điểm trở xuốngÝ tưởng bài toán là vậy, nhưng em không rõ trong quá trình tiền xử lý dữ liệu từ dữ liệu ban đầu chuyển sang dữ liệu điểm số -> rồi tính tống ->phân loại. Các phần mềm khai phá dữ liệu như Weka,... có hỗ trợ kg? bài toán này có phù hợp ứng dụng trong khai phá dữ liệu kg?
Cảm ơn Thầy. -----------
Thuy Loan
loanntt@rocketmail.com
|
|
-
-
clairsang
- Tham gia 05-29-2013
- Điểm 40
|
Re: Vấn đề tiền xử lý dữ liệu trong Data Mining
A Chức có thể diễn dải cái rule cuối cùng được ko ạ? E ko hiểu cái rule nó dịch như nào.
Cảm ơn anh.
|
|
-
-
teanny
- Tham gia 03-31-2022
- Điểm 20
|
how to write a 500 word essay for a scholarship about community service fast essay writer sharing internet service with neighbors shouldn't be allowed essay
|
|
-
-
acrocky
- Tham gia 04-18-2022
- Điểm 20
|
|
-
-
Scadia
- Tham gia 05-01-2022
- Điểm 20
|
vardenafil levitra staxyn vardenafil classification
lannett vardenafil vardenafil vardenafil 10mg online
|
|
-
-
payolf
- Tham gia 05-06-2022
- Điểm 20
|
|
-
-
-
-
murerb
- Tham gia 06-04-2022
- Điểm 20
|
|
-
-
Trang 2 trong số 2 (50 nội dung) < Trước 1 2
|
|
|