Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Vấn đề tiền xử lý dữ liệu trong Data Mining

Bài cuối 06-09-2022 06:03 PM của Hertropy. 49 trả lời.
Trang 2 trong số 2 (50 nội dung) < Trước 1 2
Sắp xếp bài viết: Trước Tiếp theo
  • 03-12-2012 08:42 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Em vào link này xem tài liệu và download Source code free của chính tác giả đề xuất MSApriori.

    http://www.cs.bme.hu/~bodon/en/fim/msapriori/index.html
    Chúc em thành công,
     
    • Điểm chủ đề: 140
  • 03-27-2012 09:09 AM trả lời

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Các công cụ dùng để khám phá tri thức trong các DBMS chỉ là phần nhỏ của lĩnh vực khám phá tri thức thôi, KDD không nhất thiết là viết code mới làm được đâu. Nó có thể xuất hiện từ các thông tin của đời sống, trong các lĩnh vực tài chính ngân hàng, giáo dục, mua bán... Cái chính là những tri thức tìm được phải được đánh giá, chứng minh, so sánh, cải tiến giữa các giải thuật (phân lớp, gom cụm, luật kết hợp, bài toán hồi quy...). Kiến thức về thống kê tác động mạnh mẽ đến việc nghiên cứu về lĩnh vực khám phá tri thức. Những thông tin về các bài toán đã được giải quyết bởi các giải thuật trước đây (trên thế giới) thì bạn cần phải nắm bắt luôn, để bạn có thể cải tiến bằng các giải thuật khác hiệu quả hơn chẳng hạn... Chúc bạn thành công.
    • Điểm chủ đề: 20
  • 05-13-2012 10:48 PM trả lời

    • trunga2
    • 500 thành viên năng nổ nhất
    • Tham gia 08-25-2011
    • Điểm 20

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Cho e hỏi tiền xử lý Điểm trung bình của từng môn như thế nào?
    Toán : 7.5
    Lý: 6.7
    Hóa: 7.8
    ...
    Kết quả tốt nghiệp: Đậu hay Rớt
    Vì e muốn tìm luật  là: toán(8)->Kết quả TN(Đậu)
                                      toán(7.5),Lý(5.7)-> Kết quả TN(Đậu)
                                       ....
    trong Weka có cho phép vế phải chỉ có thuộc tính là Kết quả không?
    E cám ơn.
    • Điểm chủ đề: 20
  • 08-23-2012 05:40 PM trả lời

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Thầy vui lòng cho em hỏi:
    Em muốn áp dụng thuật toán Apriori để thay thế toàn bộ dữ liệu có giá trị "true" thành "y" bằng weka thì làm từng bước như thế nào vậy thầy?
    Dùng thuật toán Apriori để loại bỏ cột cuối cùng trong dữ liệu có phải là lọc bỏ thuộc tính như thầy đã trình bày không ạ?
    Do em mới học weka nên vẫn chưa hiểu rõ lắm. Mong thầy chỉ giúp em. Em cám ơn thầy ạ!
    • Điểm chủ đề: 20
  • 09-19-2012 11:05 PM trả lời

    • hungnv
    • 500 thành viên năng nổ nhất
    • Tham gia 09-19-2012
    • Điểm 35

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Chào thầy, em có một vấn đề trong dữ liệu của em có 2 column kiểu numeric đó là Current Close Price và Actual Close Price ( tức là giá trị kết thúc hiện tại và giá trị thực sự khi kết thúc phiên giao dịch ) em muốn chuyển cột Actual Close Price sang dạng categorial bằng cách lấy cột Actual Close Price trừ cho  Current Close Price nếu ra >0 thì value = 1 , =0 thì value =0 , <0 thì value = -1, thì em có thể làm cách nào nào ạ , mong thầy giúp đỡ
    • Điểm chủ đề: 35
  • 10-14-2012 04:32 PM trả lời

    • mrtan183
    • 500 thành viên năng nổ nhất
    • Tham gia 10-14-2012
    • Điểm 50

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    thầy vui lòng cho em hỏi trong weka có bộ lọc nào cho phép điển giá trị thiếu? bộ lọc này áp dụng trên kiểu dữ liệu nào?cách thức hoạt động của bộ lọc ? 
    thanks 
    • Điểm chủ đề: 50
  • 10-15-2012 08:39 AM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Chào em,

    Trong Weka em có thể xử lý các giá trị thiếu (missing data) của các thuộc tính bằng cách thay các giá trị thiếu bằng giá trị trung bình (mean) đối với các thuộc tính có kiểu dữ liệu số (numeric) và bằng mode đối với các thuộc tính định danh (nominal) trong training data.

    Ví dụ: Có training data về thời tiết (file weather.arff) như sau:

             
     Trong training data trên thì có 2 dòng còn thiếu dữ liệu là dòng đầu tiên, thuộc tính windy có kiểu dữ liệu là nominal và dòng cuối cùng là thuộc tính temperature có kiểu numeric.

    Bây giờ ta dùng weka để xử lý các giá trị thiếu này như sau:

    1.       Mở weka → chọn File weather.arff

    2.       Trong tab: Filter→Bấm nút Choose→chọn filters→Unsupervised →Attribute→ReplaceMissingValues                                                                                    



    3.      
    Bấm Apply để hoàn thành. Khí đó giá trị của thuộc tính temperature còn thiếu sẽ được thay bằng giá trị trung bình là 73.769 và gái trị của thuộc tính windy được thay bằng Mode là False (xem kết quả hình sau):

    Chúc em thành công,

    Từ khóa đại diện: , ,
    • Điểm chủ đề: 20
  • 11-10-2012 10:47 AM trả lời

    • 2nogirl
    • 500 thành viên năng nổ nhất
    • Tham gia 11-10-2012
    • Điểm 20

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Thầy ơi! Em đang làm về đề tài poker hand, lúc train thì trên weka báo correct instance chỉ 49% với thuật toán navieBayes, và 52% với thuật toán Rule JRip, Em xem một bài tham khảo trên mạng thì thấy nó train chính xác tới 98%, bộ dữ liệu giống của e. Em chưa biết làm cách nào để tiền xử lí dữ liệu cho thuộc tính nó đúng gần chính xác, mong thầy chỉ thêm. Em xin cảm ơn!
    Đây là file dữ liệu của em: http://www.mediafire.com/?q67j81zxg7he166
    • Điểm chủ đề: 20
  • 03-24-2013 10:55 AM trả lời

    • Ntlinhyb
    • 200 thành viên năng nổ nhất
    • Tham gia 03-24-2013
    • Điểm 40

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Bài viết rất hay! Cảm ơn anh đã chia sẻ vì cộng đồng!
    • Điểm chủ đề: 20
  • 03-24-2013 12:22 PM trả lời

    • Ntlinhyb
    • 200 thành viên năng nổ nhất
    • Tham gia 03-24-2013
    • Điểm 40

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Anh có nhiều kinh nghiệm trong Data mining và data warehouse, xin anh trả lời giúp em câu hỏi này với ạ. Em đang nghiên cứu làm về bài toán xây dựng kho dữ liệu điểm và phân tích dữ liệu từ kho dữ liệu đó. Theo anh thì em nên chọn phần mềm nào phù hợp để xử lý bài toán trên ạ? So sánh giữa phần mềm Weka và hệ quản trị CSDL SQL server, công cụ nào phù hợp hơn cho bài toán này? Xin chân thành cảm ơn anh!
    • Điểm chủ đề: 20
  • 04-28-2013 05:12 PM trả lời

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Cháu chào chú ạ. Cháu không biết chú đã nhiều tuổi chưa nên cháu xin phép cho phép cháu được gọi chú là chú ạ :)
    Dạ cháu có lên trên trang http://bis.net.vn để xem các bài viết của chú về Data ming và đã có thêm đước rất nhiều thông tin hữu ích. Hiện cháu là một sinh viên năm cuối  đại học cháu cũng mới tiếp cận với đề tài về Data mining và cháu cũng đang theo hướng đó đễ làm luận văn tốt nghiệp ạ. Đề tài của cháu là ứng dụng khai phá dữ liệu vào dữ liệu sinh học để dự đoán cấu trúc protein.
    Nhưng hiện cháu đang có một chút khó khăn trong vấn đề thực nghiệm. Hiện cháu đang nghiên cứu về support vecto machine (SVM). Theo như cháu đã tìm hiều thì SVM là một thuật toán học máy có giám sát để phân lớp nhị phân. Cháu đã xử lý được file dữ liệu đầu vào cho Weka vì cháu định dùng phần mềm Weka để làm thực nghiêm.
    Nhưng khi cháu sử dụng Weka thì theo như cháu được biết thì quá trình học máy xảy ra hai quy trình là :
                                 - Xây dựng mô hình trên dữ liệu có sẵn biết trước nhãn lớp.
                                 - Sử dụng mô hình đó để dự đoán lớp của tập dữ liệu kiểm thử.
    Nhưng khi cháu tải tập dữ liệu có sẵn nhẵn lớp để xây dựng mô hình vào phần mềm Weka chạy với Cross Validation = 10 thì nó lại đưa được ra kết quả đánh giá luôn ạ? Cháu đang thấy khó hiểu về kết quả đưa ra của chương trình Weka? Hay là khi mình tải file training thì phần mềm sẽ tự tạo file test cho mình ạ? Chú có thể giải thích giúp cháu về quá trình chạy trong Weka được không ạ? Cháu rất mong được nhận phản hồi từ chú sớm? Cháu cảm ơn chú ạ.
    Từ khóa đại diện:
    • Điểm chủ đề: 35
  • 04-28-2013 10:47 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Chào bạn,
     Cross Validation (CV) là kỹ thuật chủ yếu được sử dụng để train và Test Data Mining Model. Trong đó dữ liệu gốc sẽ được chia thành n phần bằng nhau (n-fold, thường n=10), và quá trình Train/Test Model thực hiện lặp lại n lần. Tại mỗi lần Train/Test Model, 1 phần dữ liệu dùng để Test và (n-1) phần còn lại dùng để Train Model. Lỗi sẽ được tính sau mỗi lần Train/Test Model. Ví dụ với cross validation =10 (10-fold) thì dữ liệu gốc sẽ được chia lần 10 phần bằng nhau, quá trình train/Test Model sẽ lặp lại 10 lần, mỗi lần sẽ lấy 9 phần dữ liệu để train model và 1 phần để Test Model.
    Xem thêm về cách sử dụng Cross Validation tại đây:
    http://bis.net.vn/forums/t/369.aspx
    Chúc bạn thành công
    • Điểm chủ đề: 35
  • 05-09-2013 07:40 PM trả lời

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Cháu cảm ơn chú đã trả lời câu hỏi trên của cháu. Cháu xin lỗi vì dùng tài khoản mới này ạ. Do tài khoản cũ Duong.bis.net.vn của cháu bị quên mật khẩu ạ. Cháu còn một chút thắc mắc nữa chú ạ. Sau khi mình xây dựng mô hình phân lớp bằng Weka với cross-validation =10 thì kết quả nhận được vẫn chỉ là đánh giá trên tập training set ạ. Cháu có một thắc mắc là từ Weka có thể trích xuất mô hình để có thể xây dựng dự đoán phân lớp cho một tập dữ liệu chưa có nhãn lớp đích được không hả chú? Cháu cảm ơn chú ạ.
    • Điểm chủ đề: 20
  • 10-05-2013 05:32 PM trả lời

    • toant8
    • Không xếp hạng
    • Tham gia 10-05-2013
    • Điểm 20

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    Chào anh
    Em đang làm bào tiểu luẩn về KPDL dùng weka. database của em lấy ở địa chỉ
     Database này là của C4.5 nhưng trong Weka thì lại chỉ mở được J4.8. Thầy giáo bảo em phải convert sang nhưng em không biết làm thế nào. em muốn hỏi anh 1 số vấn đề đó là:
    - Có cách nào convert sang dạng Weka đọc được không? 
    -  dữ liệu learning có nhiều chữ cái khác nhau. vậy khi convert thì data của mỗi chữ cái đưa vào 1 file hay tất cả chữ cái cho vào 1 file
    - Trong các file của mỗi chữ cái có 9 trường, trong khi mô tả của database chỉ nói có 7 trường. vậy có phải em phải bỏ các trường không có tả đi khi muốn convert

    Rất mong anh giải đáp giúp em
    • Điểm chủ đề: 20
  • 11-08-2013 12:53 AM trả lời

    • loankhai
    • Không xếp hạng
    • Tham gia 11-07-2013
    • Điểm 20

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining


     
    Kính Chào Thầy Chức.

    Thầy xem giúp em thậut toán phân loại trong khai phá dữ liệu có thể áp dụng
    để phân loại đơn vị hành chính xã phường thị trấn không.

    Dữ liệu đầu vào:  Dân số; diện tích; các yếu tố đặc thù
    Dự liệu đầu ra:
     - Xã, phường, thị trấn loại 1
     - Xã, phường, thị trấn loại 3
     - Xã, phường, thị trấn loại 3

    Cách tính:
    Từ dữ liệu ban đầu -> tính điểm từng thuộc tính Dân số; diện tích; các yếu tố đặc thù
    -> Tính tổng điểm các thuộc tính các thuộc tính:Dân số; diện tích; các yếu tố đặc thù
    -> Dự vào tổng điểm: ta xếp loại.

    Việc phân loại đơn vị hành chính cấp xã căn cứ vào khung điểm sau:

    a) Xã, phường, thị trấn loại 1 có từ 221 điểm trở lên;

    b) Xã, phường, thị trấn loại 2 có từ 141 đến 220 điểm;

    c) Xã, phường, thị trấn loại 3 có từ 140 điểm trở xuống

    Ý tưởng bài toán là vậy, nhưng em không rõ trong quá trình tiền xử lý dữ liệu từ dữ liệu ban đầu  chuyển sang dữ liệu điểm số  -> rồi tính tống ->phân loại. Các phần mềm khai phá dữ liệu như Weka,... có hỗ trợ kg? bài toán này có phù hợp ứng dụng trong khai phá dữ liệu kg?

    Cảm ơn Thầy.
     
    -----------
     Thuy Loan
    loanntt@rocketmail.com
     
     
     
    • Điểm chủ đề: 20
  • 07-14-2015 05:59 PM trả lời

    Re: Vấn đề tiền xử lý dữ liệu trong Data Mining

    A Chức có thể diễn dải cái rule cuối cùng được ko ạ? E ko hiểu cái rule nó dịch như nào.
     
    Cảm ơn anh. 
    • Điểm chủ đề: 20
  • 03-31-2022 04:18 PM trả lời

    • teanny
    • Không xếp hạng
    • Tham gia 03-31-2022
    • Điểm 20

    thesis statement help

    how to write a 500 word essay for a scholarship about community service fast essay writer sharing internet service with neighbors shouldn't be allowed essay
    • Điểm chủ đề: 20
  • 04-18-2022 10:37 AM trả lời

    • acrocky
    • Không xếp hạng
    • Tham gia 04-18-2022
    • Điểm 20

    sildenafil generic

    sildenafil viagra over the counter pills like viagra over the counter
    • Điểm chủ đề: 20
  • 05-01-2022 10:34 PM trả lời

    • Scadia
    • Không xếp hạng
    • Tham gia 05-01-2022
    • Điểm 20

    vardenafil levitra staxyn vardenafil classification

    lannett vardenafil vardenafil vardenafil 10mg online
    • Điểm chủ đề: 20
  • 05-07-2022 06:22 AM trả lời

    • payolf
    • Không xếp hạng
    • Tham gia 05-06-2022
    • Điểm 20

    sildenafil price

    best generic viagra sildenafil online where to buy female viagra
    • Điểm chủ đề: 20
  • 06-03-2022 12:14 PM trả lời

    • spelvime
    • Không xếp hạng
    • Tham gia 06-03-2022
    • Điểm 20

    bimatoprost ophthalmic solution 0.03

    bimatoprost india bimatoprost eye color change bimatoprost ophthalmic solution eyelashes
    • Điểm chủ đề: 20
  • 06-04-2022 05:46 AM trả lời

    • Phifsrah
    • Không xếp hạng
    • Tham gia 06-03-2022
    • Điểm 20

    zanaflex addiction

    zanaflex prescribing information tizanidine hcl 4 mg order zanaflex
    • Điểm chủ đề: 20
  • 06-05-2022 05:25 AM trả lời

    • murerb
    • Không xếp hạng
    • Tham gia 06-04-2022
    • Điểm 20
    ventolin inhaler spacer salbutamol increased heart rate salbutamol inhaler 100 mcg
    • Điểm chủ đề: 20
  • 06-07-2022 05:35 AM trả lời

    • biakteek
    • Không xếp hạng
    • Tham gia 06-06-2022
    • Điểm 20

    dapoxetine 30mg

    priligy tablets india priligydapoxetinetop priligy en colombia
    • Điểm chủ đề: 20
  • 06-09-2022 06:03 PM trả lời

    • Hertropy
    • Không xếp hạng
    • Tham gia 06-09-2022
    • Điểm 20

    alli orlistat

    orlistat 120 mg para que sirve como tomar orlistat redustat orlistat funciona
    • Điểm chủ đề: 20
Trang 2 trong số 2 (50 nội dung) < Trước 1 2
Powered by Community Server (Commercial Edition), by Telligent Systems