Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Data Mining

Bài cuối 05-10-2016 09:10 AM của quynhanhtran. 19 trả lời.
Trang 1 trong số 1 (20 nội dung)
Sắp xếp bài viết: Trước Tiếp theo
  • 11-10-2010 10:53 AM

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Data Mining

    Khai phá dữ liệu (Data Mining)

    Nguyễn Văn Chức – chuc1803@gmail.com

     “We are drowning in data but starving for knowledge” 

    Bài viết ngắn này trình bày sơ lược về lĩnh vực Khai phá dữ liệu nhằm giúp người đọc có cái nhìn ban đầu về lĩnh vực còn khá mới mẻ ở Việt Nam nhưng rất thú vị này.

    1. Data Mining

    Khái niệm về khai phá dữ liệu (Data Mining) hay phát hiện tri thức (Knowledge Discovery) có rất nhiều cách diễn đạt khác nhau nhưng về bản chất đó là quá trình  tự động trích xuất thông tin có giá trị (thông tin dự đoán – Predictive Information) ẩn chứa trong khối lượng dữ liệu khổng lồ trong thực tế.

    Data mining nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin có ích  Tự động (Automated) và  thông tin mang tính dự đoán (Predictive).

     Data Mining liên quan chặt chẽ đến các lĩnh vực sau:

    Statistics (Thống kê): Kiểm định model và đánh giá tri thức phát hiện được

    Machine Learning (Máy học): Nghiên cứu xây dựng các giải thuật trên nền tảng của trí tuệ nhân tạo giúp cho máy tính có thể suy luận (dự đoán) kết quả tương lai thông qua quá trình huấn luyện (học) từ dữ liệu lịch sử.

    Databases (Cơ sở dữ liệu): Công nghệ quản trị dữ liệu nhất là kho dữ liệu

    Visualization (Trực quan hóa): Giúp dữ liệu dễ hiểu, dễ sử dụng như chart, map

     

     

    2.Nhiệm vụ của Data Mining

    Nhiệm vụ của data mining có thể phân thành 2 loại chính đó là dự đoán (Predictive)mô tả (Descriptive).

    Predictive:

    ·       Classification : Phân lớp

                      Regression : Hồi qui

    ·       Deviation Detection: Phát hiện độ lệch

    Descriptive:

    ·       Clustering: Phân cụm

    ·       Association Rule Discovery: Phát hiện luật kết hợp

    Dưới đây là một số thuật toán phổ biến được dùng trong Data Mining

    Decision tree: Cây quyết định (Classification Task)

    Nearest Neighbor: Láng giềng gần nhất (Classification Task)

    Neural Network: Mạng Neural (Classification and Clustering Task)

    Rule Induction: Luật qui nạp (Classification Task)

    K-Means: Thuật toán K-Means ( Clustering Task)

    Trong các bài sau, tôi sẽ lần lượt giới thiệu các thuật toán cụ thể để giải quyết các nhiệm vụ của Data Mining

    3.Mô hình dự đoán (Predictive Model):

    Là hộp đen (black box) thực hiện việc dự đoán tương lai dựa vào thông tin trong quá khứ và hiện tại.

    Để có một mô hình dự đoán ta phải trải qua 2 giai đoạn (phase). Thứ nhất là xây dựng mô hình (Training phase)

    và thứ hai là kiểm định mô hình (Testing phase)

    Ví dụ sau đây mô tả qui trình xây dựng mô hình phân lớp (Classifier)

     

    Đánh giá mô hình dự đoán (Evaluate a Predictive Model)

    Để đánh giá mô hình dự đoán hoạt động tốt thế nào người ta dựa vào các tham số sau: Recall, Accuracy, Precision, F-Measure,.. các công thứ tính như sau:

    Để hiểu thêm về các tham số này, các bạn nên đọc thêm về các loại sai lầm trong thống kê (type 1 Error, Type 2 Error ) tại http://en.wikipedia.org/wiki/Type_I_and_type_II_errors

    và Recall and Precision tại http://en.wikipedia.org/wiki/Precision_and_recall

    Các tham số này trong các phần mềm Data Mining hiện nay đã tính sẵn, ví dụ dưới đây là kết quả tính toán của mô hình phân lớp từ dữ liệu hoa Iris trong weka

     

    (P.S. Next topic: Using Weka to Build Predictive Model for Classification Task

    Comments please send to chucnv@ud.edu.vn)

     

     

    • Điểm chủ đề: 125
  • 12-02-2010 05:14 PM trả lời

    • vanky
    • 150 thành viên năng nổ nhất
    • Tham gia 12-02-2010
    • Điểm 55

    Re: Data Mining

    Cảm ơn anh, bài viết dễ hiểu. Em đang quan tâm đến lĩnh vực này. Khi nào cần chắc phải nhờ anh tư vấn cụ thể hơn.
     
    • Điểm chủ đề: 35
  • 08-25-2012 08:27 PM trả lời

    • LyLuan
    • 100 thành viên năng nổ nhất
    • Tham gia 08-12-2012
    • Điểm 105

    Re: Data Mining

    Chào
    Tôi đã đọc một số bài viết về datamining và thống kê. Hôm nay đọc bài viết của tác giả, tôi cảm thầy bối rối. Tôi Viết vài dòng tranh luận với tác giả:
    Sao hiểu thống kê và Datamining đơn giản như vậy?
     Thống kê thì không đơn giả như tác giả viết, mong tác giả nên xem lại sách thống kê.
    Kỹ thuật "Visualization" thực chất là kỹ thuật đồ thị của thống kê.
    Thuật ngữ Predictive không đồng nghĩa với dự đoán trong tương lai. Dự đoán trong tương lai chỉ có thể trong dãy số thời gian mà thôi.
    Khai phá tri thức sao là "quá trình tự động trích xuất thông tin có giá trị". Ý tưởng này của tác giả hay của tác giả nào sao không thấy trích. Bản thân "thông tin" đã là có giá trị rồi và sao tự động trích xuất được.
    Theo như tác giả, nhiệm vụ của Datamining sao vừa giống lại vừa khác với Thống kê vậy: Nhiệm vụ của thống kê là mô tả và suy luận. Trong thống kê, kỹ thuật phân lớp không nằm trong Predictive. Chẳng lẽ phân lớp (Classification) trong datamining là kỹ thuật phân tổ thống kê?Kỹ thuật Clustering sao nằm trong Descriptive ? Trong thống kê Kỹ thuật Clustering nằm trong nhóm kỹthuật phân tích đa biến nâng cao, tức nằm trong nhóm suy luận.
    Việc đánh giá mô hình tốt hay xấu phụ thuộc vào loại mô hình, nên xem lại kinh tế lượng và dãy số thời gian trong thống kê.
    Muốn hiểu "Phương pháp hộp đen (black box)" nên xem lại lý thuyết hệ thống chứ theo tác giả nói khó hiểu quá.
    Dự đoán theo thời gian trong dãy số thời gian có rất nhiều mô hình. Dự đoán thích nghi hay không thích nghi...
    Sao rắc rối vậy tác giả?
    Muốn Datamining nên dùng phần mềm STATA, SPSS, AMOS, LISREL, EQS, Statistica, Mplus để giảm bớt công việc tính và dành thời gian cho việc phân tích dữ liệu.
    Chúc thành công.
    • Điểm chủ đề: 35
  • 08-26-2012 10:06 AM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Data Mining

    Chào LyLuan,
    Cảm ơn bạn đã quan tâm và có ý kiến đến BIS.NET.VN.
    Qua ý kiến của bạn tôi đoán bạn là chuyên gia về Thống kê (!?).
    Data Mining và Thống kê tất nhiên không đơn giản như những gì thể hiện trong các bài viết (và thực sự tôi cũng không đủ khả năng để nói hết về các lĩnh vực này). Tôi cũng mới tìm hiểu về Data mining và dân không chuyên về Thống kê nên có thể hiểu biết chưa được chính xác, trình bày thiếu tính logic và rắc rối.
    Thuật ngữ "Dự đoán tương lai" ở đây được hiểu là dùng để dự đoán dữ liệu chưa biết (unseen data) chứ không đơn thuần là tương lai theo nghĩa của thời gian.
    Mục đích Data Mining và Statistics đều là phân tích dữ liệu (có thể do điều này mà nhiều người nhầm lẫn Data Mining và Statistics là một). Tuy cùng mục đích nhưng Data Mining, một lĩnh vực mới của khoa học máy tính tập trung vào việc phát triển các thuật toán với hiệu năng xử lý lớn dựa trên nền tảng của AI để khai phá dữ liệu lớn, phức tạp.
    Trong Data mining, mục đích của kỹ thuật phân cụm (Clustering) nhằm mô tả dữ liệu (chẳn hạn sau khi phân nhóm khách hàng ta thấy rằng  các khách hàng thuộc nhóm thứ nhất đa số có trình độ đại học trở lên và có thu nhập cao) nên được phân vào lớp các kỹ thuật mô tả dữ liệu (Descriptive methods).
    Cảm ơn bạn đã có những gợi ý bổ ích, rất mong với hiểu biết của một chuyên gia như bạn sẽ đóng góp nhiều bài viết để mọi người được học hỏi thêm. Diễn đàn mong nhận được nhiều bài viết của bạn.
    Chúc bạn sức khỏe và thành công
    Nguyễn Văn Chức
    • Điểm chủ đề: 20
  • 08-26-2012 04:08 PM trả lời

    • secret
    • 75 thành viên năng nổ nhất
    • Tham gia 03-28-2012
    • Điểm 140

    Re: Data Mining

    Em chào anh!
     
    A cho em hỏi: Ngoài bộ phần mềm source mở weka để chạy thử các thuật toán mining, còn có bộ phần mềm khác tốt không ạ?
     
    Em đang muốn tìm một chương trình mang ý nghĩa như weka; nếu a biết; có thể chỉ em biết nhé!
     
    Em đang rất cần ạ!
     
    Cảm ơn anh!
    • Điểm chủ đề: 50
  • 08-26-2012 08:45 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Data Mining

    Chào em,
    Ngoài Weka còn có một số phần mềm khác rất mạnh trong xây dựng các Data Mining Models như
    Công cụ Business Intelligence Development Studio (BIDS) của Microsoft, Oracle Miner của Oracle, Matlab (Sử dụng các thư viện Miner viết sẵn của Matlab),...
    Anh thường dùng BIDS của Microsoft thấy rất mạnh và hiệu quả. Em có thể tham khảo các bài viết về BIDS tại http://bis.net.vn/forums/t/458.aspx; http://bis.net.vn/forums/t/461.aspx
    Chú ý: Để sử dụng được công cụ BIDS em phải cài SQL SERVER bản Enterprise hoặc Development (version 2005 or later) và chọn công cụ Analysis Service trong lúc cài đặt.
    Chúc em thành công,
    • Điểm chủ đề: 35
  • 08-28-2012 08:01 AM trả lời

    • secret
    • 75 thành viên năng nổ nhất
    • Tham gia 03-28-2012
    • Điểm 140

    Re: Data Mining

    Vâng, Thời gian vừa rùi; em cũng đã thử dùng kỹ thuật mạng noron trong matlab. Tuy nhiên; thật lúng túng vì không thể biết được 1 số câu lệnh mình muốn dùng VD: em muốn hiển thị biểu đồ matrix testing (ma trận thống kê các mẫu dự đoán sai; đúng trong mạng noron..); hoặc muốn hiển thị các giá trị tham số của mạng trong từng lượt huấn luyện... thì em ko tìm ra được câu lệnh nào làm được mục đích đó;  mà dùng sẵn giao diện GUI mà tool đã có sẵn thì mình bị bị động. (Vì mình phụ thuộc vào những thao tác mà nó thiết đặt sẵn: vd: trong giao diện tool npr của mạng norron; em muốn hiển thị nút nhập các trọng số khởi tạo, nút nhập hệ số học.... thì tool có sẵn ko có;)
     
    => Tóm lại; việc dùng matlab cho các kỹ thuật này; có phải là phải biết hết các câu lệnh; các hàm mà matlab cung cấp cho lĩnh vực mining không ạ?
    Nếu em muốn dùng để chạy thử cho 5 thuật toán; thì em phải tìm hiểu tất cả các câu lệnh của 5 thuật toán này à? Vì trong help nó chỉ hướng dẫn rất cơ bản; các câu lệnh rời rạc; em chưa thể hình dung được thực chất 1 chương  trình matlab cho 1 thuật toán khai phá phải làm những cái gì?
     
    Rất mong phản hồi sớm của a ạ!
     
     
     
     
     
     
     
    Từ khóa đại diện:
    • Điểm chủ đề: 20
  • 08-29-2012 02:49 PM trả lời

    • tungnt
    • 200 thành viên năng nổ nhất
    • Tham gia 08-29-2012
    • Điểm 155

    Re: Data Mining

    Theo mình thì hiện nay dùng R rất nhiều, xem tại: http://cran.r-project.org/other-docs.html
    Chúc thành công!
    TungNT
     
    secret:
    Em chào anh!
     
    A cho em hỏi: Ngoài bộ phần mềm source mở weka để chạy thử các thuật toán mining, còn có bộ phần mềm khác tốt không ạ?
     
    Em đang muốn tìm một chương trình mang ý nghĩa như weka; nếu a biết; có thể chỉ em biết nhé!
     
    Em đang rất cần ạ!
     
    Cảm ơn anh!
    Anyone who stops learning is old, whether at twenty or eighty.
    • Điểm chủ đề: 20
  • 10-22-2012 10:28 PM trả lời

    • icelove
    • 200 thành viên năng nổ nhất
      Nam
    • Tham gia 10-22-2012
    • Điểm 70

    Re: Data Mining

    Em chào anh!
    Hiện tại em đang tìm hiểu về phần mềm weka để phục vụ cho môn học "khai phá dữ liệu". em có một số vấn đề cần nhờ anh giải đáp được không ạ!
    input: csdl ví dụ(id: id của giao dịch, yes: item đó được mua)
    id item1 item2 item3 item4
    1 yes no  yes yes
    2 yes no  no no
    3 no no  yes no
    4 no yes yes no
     ouptut: luật kết hợp (sử dụng apriori và fpgrow)
    Em muốn hỏi ở đây là:
    1. Ở quá tình tiền xử lý dữ liệu: ta xóa cột "id" khỏi bảng dữ liệu (vì không tham gia vào quá trình sinh luật). Nhưng khi em vẫn để cột "id" thì trong các luật sinh ra không có "id"(khi chạy em cho minssup=0 vẫn không xuất hiện "id").
    => Như vậy có nhất thiết phải lọai bỏ "id" khỏi bảng dữ liệu? 
    2. Theo như dữ liệu ở trên các item có 2 giá trị {yes,no}. khi để nguyên bảng như trên để chạy thuật toán apriori thì nó vẫn tính cả các giá trị "no" VD: item1=no => item2=yes giá trị "no" không có ý nghĩa nhưng vẫn đưa vào luật. Nếu không để giá trị "no" mà để trống vậy xảy ra thiếu dữ liệu.
    =>Vậy làm thế nào để không xử lý giá trị "no" mà chỉ quan tâm đến "yes" để đưa vào luật.?
    hi, em viết hơi dài dòng! Mong anh giải đáp giúp em ạ. Em cám ơn! :D  *hi vọng anh vẫn vào đây và đọc đươc* 
    Từ khóa đại diện: ,
    • Điểm chủ đề: 35
  • 10-23-2012 12:26 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Data Mining

    Chào em,
    Thuộc tính ID nên loại khỏi Data set để giảm bớt thời gian sinh luật của mô hình. Trong Weka chỉ cần chọn thuộc tính và chọn Remove trong cửa sổ Explorer.
    Data set đang có cần phải tiền xử lý trước khi thực hiện sinh luật:
    Luật kết hợp chỉ quan tâm đến các giao dịch của mua  từ 2 mặt hàng  trở lên nên cần phải loại bỏ giao dịch thứ 2 và thứ 3. (có thể dùng chức năng Filter trong weka để loại bỏ)
    Nên mã hóa dữ liệu lại để để thực hiện nhanh hơn (chẳn hạn : Yes = 1, No=0).
    Để các luật sinh ra có ý nghĩa (phù hợp) cần phải có một Data set đủ lớn (chứ không phải vài giao dịch).
    Chúc em thành công,
     
    Từ khóa đại diện: , ,
    • Điểm chủ đề: 35
  • 10-23-2012 07:08 PM trả lời

    • icelove
    • 200 thành viên năng nổ nhất
      Nam
    • Tham gia 10-22-2012
    • Điểm 70

    Re: Data Mining

    Cảm ơn anh đã giải đáp!
    Em sẽ thử với data set lớn hơn. Còn trường ID nếu như không loại bỏ mà coi nó như item1, item2... với các giá trị {1,2,3,4} em cho chạy với minsupp=0 mà vẫn không xuất hiện trong luật là sao vậy anh
    P/s: hì! làm phiền anh quá 
    • Điểm chủ đề: 35
  • 11-18-2012 11:46 AM trả lời

    • future
    • 500 thành viên năng nổ nhất
    • Tham gia 11-18-2012
    • Điểm 20

    Re: Data Mining

    Chào bạn, thật sự thì mình chỉ mới tìm hiểu khai phá dữ liệu gần đây thôi, nên mình có thể hiểu câu hỏi của bạn là với minsupp = 0 (nhỏ nhất) tại sao thuộc tính ID lại không xuất hiện ở trong Luật. 
    Bạn có thể coi lại tập phổ biến của bạn có ID hay không trước? Vì với minsupp = 0 thì tất cả các tập sinh ra đều là tập phố biến (lớn hơn minsupp). Còn lúc phát sinh luật bạn còn phải căn cứ vào minconf để hạn chế số luật có độ tin tưởng lớn. Chưa kể còn nhiều độ lý thú như lift, ... 

    Hi vọng sẽ giúp đỡ được bạn.
    Thân
    • Điểm chủ đề: 20
  • 02-20-2013 05:38 PM trả lời

    • hungnn90
    • Không xếp hạng
    • Tham gia 02-20-2013
    • Điểm 20

    Re: Data Mining

    Cần freelancer làm chức năng data mining cho web. 
    Bác nào có thời gian giúp mình với.
    Xin cảm ơn và hậu tạ
     
    YM: hungnn90 
    • Điểm chủ đề: 20
  • 11-19-2013 04:15 PM trả lời

    Re: Data Mining

    Chào thầy,
     
    Em đang giải quyết một bài toán nhưng em không biết phải làm sao mong thầy giúp, vì nó ứng dụng data mining và có thể cần tính về xác xuất nhưng em không hiểu lắm về xác xuất nên chưa nghĩ ra được cách làm mong thầy gơi ý giúp em.
     
    Giả sử ta có 1 tập n mẫu có dạng:
    -ABCDEF
    -ABDF
    -BCDG
    -AB
    -DEF
    ...
    Chiều dài mỗi mẫu là không cố định.
    Bây giờ em có 1 mẫu dùng để truy vấn. VD: AB
    Hỏi là: làm thế nào tìm k mẫu (với k user chọn) có liên quan nhất đến mẫu truy vấn, để dựa vào k mẫu đó xác định xem mẫu truy vấn có phần tử nào xuất hiện bất thường không?
     
    Cách giải quyết của em là:
    - tìm k mẫu: em tính 1 chỉ số gọi là độ tương đồng giữa mẫu truy vấn và mẫu trong CSDL. Rồi lấy k mẫu đầu tiên theo thứ tự từ lớn đến nhỏ.
     - Xác định phần tử trong mẫu truy vấn có phải bất thường không? Em tính xác xuất xuất hiện của từng phần tử trong mẫu truy vấn so sánh với  xác xuất xuất hiện của phần tử đó trong tập k mẫu vừa chọn.
     
    Thầy có thể góp ý dùm em được không ạ?
    Cám ơn thầy!
     
     
    • Điểm chủ đề: 35
  • 11-21-2013 08:42 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Data Mining

    Chào em,
     
    Theo như cách làm của em thì em sử dụng thuật toán K láng giềng gần nhất (KNN - K Nearest Neighbors) để giải quyết. Vấn đề là em xác định độ tương đồng (similar) giữa các mẫu như thế nào? Nếu đã tính được độ tương đồng rồi thì sắp xếp các mẫu theo thứ tự giảm dần của độ tương đồng và lấy ra k (chọn trước) mẫu đầu tiên.
    Chúc em thành công
    • Điểm chủ đề: 50
  • 11-21-2013 10:40 PM trả lời

    Re: Data Mining

    Vâng, cám ơn thầy!
    • Điểm chủ đề: 20
  • 12-16-2013 11:07 PM trả lời

    Re: Data Mining

    Em thực hiện bằng giải thuật K láng giềng gần trong trường hợp này không ổn rồi thầy ơi.
     Giờ em xác định được độ tương đồng của k mẫu với mẫu cần so sánh. Nhưng vấn đề em cần giải quyết là em cần xác định mẫu so sánh của em có bất thường (abnormal) hay không? Trong khi tập dữ liệu của em không có nhãn( hoặc nếu gán nhãn cho dữ liệu gốc thì tất cả đều bình thường (normal), em không có tập dữ liệu bất thường để so sánh).
    Do đó, nếu lấy tương đồng từ trên xuống thì không xác định mẫu so sánh có bất thường hay không!
    Vậy em nên dùng cách nào khác?
    Mong thầy giúp, cám ơn thầy! 
     
    • Điểm chủ đề: 20
  • 11-19-2014 11:35 AM trả lời

    • vidn
    • Không xếp hạng
    • Tham gia 11-19-2014
    • Điểm 35

    Re: Data Mining

    Chào bạn!
    Hiện tại mình đang tìm hiểu về Data Mining , đang sử dụng Datamining là 1 plug in trong Excel, nhưng mình ko cách nào set connection cho nó được, bạn có cách nào hỗ trợ mình không.
    Nếu ko sử dụng dc trong Excel thì mình có thể sử dụng phần mềm gì để chạy được Data Mining không?
     
    Cám ơn bạn 
    • Điểm chủ đề: 35
  • 11-23-2014 10:22 PM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: Data Mining

    Chào bạn,
    Bạn không nói rõ bạn đang dùng Plugin nào? Nếu bạn dùng Excel thì bạn có thể dùng  Data Mining Add ins for MS Office ( có thể down load tại http://www.microsoft.com/en-us/download/details.aspx?id=29061). Tuy nhiên nếu muốn dùng Add ins này thì nạm phải cài SQL Server.
    Còn nếu bạn muốn dùng Data Mining Tools khác thì tham khảo tại đây: http://bis.net.vn/forums/t/815.aspx
    Chúc bạn thành công
     
    • Điểm chủ đề: 20
  • 05-10-2016 09:10 AM trả lời

    Re: Data Mining

    Hiện tại em đang viết luận văn về ứng dụng của Datamining trong dự báo thời tiết nhưng chưa được học bao giờ, em muốn mua tài liệu về nó thì có được không ạ?
    Mail của em: viendna.thomqt@gmail.com
    Thank alot 
    • Điểm chủ đề: 20
Trang 1 trong số 1 (20 nội dung)
Powered by Community Server (Commercial Edition), by Telligent Systems