Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ

Bài cuối 06-13-2017 09:59 AM của Essaytof. 6 trả lời.
Trang 1 trong số 1 (7 nội dung)
Sắp xếp bài viết: Trước Tiếp theo
  • 10-03-2014 12:47 PM

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 9,660

    Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ

    Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ

    Data Mining: Applications, Trends &Tools

    chuc1803@gmail.com

    Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực và hiện nay đã có rất nhiều công cụ thương mại và phi thương mại triển khai các nhiệm vụ của khai phá dữ liệu. Bài viết này giới thiệu về một số lĩnh vực ứng dụng và các hướng nghiên cứu tiếp theo cũng như một số công cụ khai phá dữ liệu.

    1. Ứng dụng của khai phá dữ liệu (Data Mining Applications)

    Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi

    • Phân tích dữ liệu tài chính (Financial Data Analysis)
    •  Công nghiệp bán lẻ (Retail Industry)
    •  Công nghiệp viễn thông (Telecommunication Industry)
    • Phân tích dữ liệu sinh học (Biological Data Analysis)
    • Phát hiện xâm nhập (Intrusion Detection)
    • Một số ứng dụng trong khoa học (Scientific Applications)

    Phân tích dữ liệu tài chính (Financial Data Analysis)

    Dữ liệu tài chính trong ngân hàng và trong ngành tài chính nói chung thường đáng tin cậy và có chất lượng cao, tạo điều kiện cho khai phá dữ liệu. Dưới đây là một số ứng dụng điển hình trong khai phá dữ liệu tài chính:

    • Dự đoán khả năng vay và thanh toán của khách hàng, phân tích chính sách tín dụng đối với khách hàng.
    • Phân tích hành vi khách hàng (vay, gửi tiền)
    • Phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính
    • Phát hiện các hoạt động rửa tiền và tội phạm tài chính khác

    Công nghiệp bán lẻ (Retail Industry)

    Khai phá dữ liệu có vai trò rất quan trọng trong ngành công nghiệp bán lẻ, do dữ liệu  thu thập từ lĩnh vực này rất lớn từ doanh số bán hàng, lịch sử mua hàng của khách hàng, vận chuyển hàng hóa, tiêu thụ và dịch vụ. Điều tự nhiên là khối lượng dữ liệu từ ngành công nghiệp này sẽ tiếp tục tăng lên nhanh chóng và dễ dàng thu thập bởi tính sẵn có trên môi trường Web. Ứng dụng khai phá dữ liệu trong ngành công nghiệp bán lẻ nhằm xây dựng mô hình giúp xác định xu hướng mua hàng của khách hàng, giúp doanh nghiệp cải thiện chất lượng sản phẩm dịch vụ nhằm nâng cao sự hài lòng của khách hàng và giữ chân khách hàng tốt. Dưới đây là một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp bán lẻ:

    •  Khai phá dữ liệu trên kho dữ liệu khách hàng
    • Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách hàng, sản phẩm, thời gian và khu vực.
    •  Phân tích hiệu quả của các chiến dịch bán hàng, Marketing.
    • Quản trị mối quan hệ khách hàng (CRM).
    • Giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng

    Công nghiệp viễn thông (Telecommunication Industry)

    Công nghiệp viễn thông là một trong những ngành công nghiệp mới nổi, cung cấp nhiều dịch vụ như  trên điện thoại di động, Internet, truyền hình ảnh.... Do sự phát triển mạnh của công nghệ máy tính và mạng máy tính, viễn thông đang phát triển với tốc độ rất lớn. Đây là lý do tại sao khai phá dữ liệu trở nên rất quan trọng trong lĩnh vực này.
    Khai phá dữ liệu trong ngành công nghiệp viễn thông giúp xác định các mô hình viễn thông, phát hiện các hoạt động gian lận trong viễn thông, sử dụng tốt hơn nguồn tài nguyên và cải thiện chất lượng dịch vụ viễn thông. Dưới đây là một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp này:

    • Phân tích dữ liệu đa chiều viễn thông.
    • Xây dựng các mô hình phát hiện gian lận.
    • Phát hiện bất thường trong giao dịch viễn thông.
    • Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng
    • Sử dụng các công cụ trực quan trong phân tích dữ liệu viễn thông

    Phân tích dữ liệu sinh học (Biological Data Analysis)

    Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin -Sinh học (Bioinformatics). Sau đây là một số ứng dụng của khai phá dữ liệu ứng dụng trong sinh học:

    • Lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen.
    • Xây dựng mô hình khai phá các mạng di truyền và cấu trúc của Gen, protein
    • Xây dựng các công cụ trực quan trong phân tích dữ liệu di truyền.

    Phát hiện xâm nhập bất hợp pháp (Intrusion Detection)

    Xâm nhập bất hợp pháp là những hành động đe dọa tính toàn vẹn, bảo mật và tính sẵn sàng của tài nguyên mạng. Trong thế giới của kết nối, bảo mật đã trở thành vấn đề lớn đối với tồn tại của hệ thống. Với sự phát triển của internet và sự sẵn có của các công cụ, thủ thuật trợ giúp cho xâm nhập và tấn công mạng, yêu cầu kiểm soát truy cập bất hợp pháp là yếu tố rất quan trọng đảm bảo cho sự ổn định của hệ thống.

    Dưới đâymột số ứng dụng của khai phá dữ liệu có thể được áp dụng để phát hiện xâm nhập:

    - Phát triển các thuật toán khai phá dữ liệu để phát hiện xâm nhập.
    -  Phân tích kết hợp, tương quan và khác biệt để phát hiện xâm nhập
    -  Phân tích dòng dữ liệu dữ liệu (Analysis of Stream data) để phát hiện bất thường.

    2. Lựa chọn công cụ khai phá dữ liệu (Choosing Data Mining Tool - DMT)

    Hiện nay có rất nhiều DMT đã được phát triển, vấn đề là làm sao chọn được công cụ khai phá dữ liệu phù hợp với yêu cầu cụ thể của mỗi dự án khai phá dữ liệu. Việc lựa chọn này dựa trên một số đặc trưng sau của công cụ khai phá dữ liệu:

    Kiểu dữ liệu (Data Types): Mỗi DMT thường xử lý tốt trên những kiểu dữ liệu nhất định (formatted text,  ASCII text, relational database, data warehouse data) vì vậy nên biết được bạn đang cần hệ thống xử lý trên định dạng dữ liệu nào để chọn công cụ khai phá dữ liệu cho phù hợp.

    Sự tương thích (Compatibility): Phải biết được DMT chạy trên hệ điều hành nào, môi trường tương tác webform hay winform.

    Nguồn dữ liệu (Data Sources): Data Sources là nguồn dữ liệu mà DMT sẽ xử lý, phải xác định được bạn đang lưu trữ dữ liệu ở  chuẩn nào nào và DMT có hỗ trợ xử lý dữ liệu ở chuẩn đó không. Một số Data Source phổ biến hiện nay mà các DMT hỗ trợ như ASCII text files, ODBC connections, OLE DB for ODBC connections.

    Chức năng của hệ thống khai phá dữ liệu (Data Mining functions): Xác định các nhiệm vụ mà DMT triển khai (classification, description, discovery-driven OLAP analysis, association mining, linkage analysis, statistical analysis, classification, prediction, clustering, outlier analysis, similarity search…)

    Khả năng mở rộng (Scalability): Khi chọn một DMT thường quan tâm đến 2 khả năng mở rộng sau:

    Khả năng xử lý kích thước cơ sở dữ liệu lớn (mở rộng về số dòng dữ liệu (Database size).

    Hỗ trợ xử lý với số thuộc tính (Dimension) lớn

    Công cụ trực quan hóa dữ liệu (Visualization Tools): Đây là chức năng rất quan trọng đối với một DMT, giúp biểu diễn tri thức phát hiện được trực quan, dễ hiểu, dễ kiểm tra. Vấn đề trực quan hóa của DMS đề cập đến các khía cạnh sau:

    • Trực quan hóa dữ liệu (Data Visualization)
    • Trực quan hóa tiến trình khai phá dữ liệu (Mining process visualization)
    • Trực quan hóa kết quả khai phá dữ liệu (Mining Results Visualization)

    Ngôn ngữ truy vấn và tương tác đồ họa với người dùng (Data Mining query language): Xác định DMT cung cấp cho người dùng ngôn ngữ dùng để truy vấn kết quả từ mô hình khai phá dữ liệu đã được xây dựng trên môi trường tương tác nào? đồ họa (GUI) hay dòng lệnh (CUI)

    3. Các hướng nghiên cứu tiếp theo của Data Mining (Trends in Data Mining)

    Sau đây là một số hướng nghiên cứu trong khai phá dữ liệu đang được quan tâm:

    -        Khai phá dữ liệu Tin sinh học (Biological data mining)

    -        Khai phá dữ liệu và công nghệ phần mềm (Data mining and software engineering)

    -        Khai phá dữ liệu web (Web mining)

    -        Khai phá dữ liệu phân tán (Distributed Data mining)

    -        Khai phá dữ liệu thời gian thực (Real time data mining)

    -        Nghiên cứu hợp giữa khai phá dữ liệu, cơ sở dữ liệu, kho dữ liệu và CSDL web

    -        Chuẩn hóa ngôn ngữ truy vấn khai phá dữ liệu (Standardization of data mining query language)

    -        Khai phá dữ liệu trực quan (Visual Data Mining)

    -        Nghiên cứu các phương pháp mới để khai phá các kiểu dữ liệu phức tạp (New methods for mining complex types of data)

    -        Nghiên cứu về chính sách và an toàn thông tin trong khai phá dữ liệu (privacy protection and Information Security in data mining)

    4. Một số công cụ khai phá dữ liệu (Data Mining Tools)
     

    Một số công cụ khai phá dữ liệu

    Software Name

    License Type

    Data Mining Tasks

    ANGOSS KnowledgeSTUDIO

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Data Visualisation, Discovery Visualisation

    ARMiner

    (Link)

    Free - Open Source Licence

    Association Discovery

    Bayes Server

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Outlier Discovery, Discovery Visualisation, Sequence Analysis

    CART® (Classification and Regression Trees)

    (Link)

    Commercial Licence

    Classification Discovery

    Data Applied

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation, Web Analytics

    GhostMiner

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Outlier Discovery, Data Visualisation

    11Ants Model Builder

    (Link)

    Commercial Licence

    Classification Discovery, Regression Discovery, Outlier Discovery

    Molegro Data Modeller

    (Link)

    Commercial Licence

    Cluster Discovery, Regression Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation

    OmniAnalyser

    (Link)

    Commercial Licence

    Cluster Discovery, Association Discovery, Text Mining, Data Visualisation, Discovery Visualisation, Web Analytics, Social Network Analysis

    R

    (Link)

    Free - Open Source Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics, Social Network Analysis

    RapidMiner

    (Link)

    Free - Open Source Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation

    SAS Enterprise Miner

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Web Analytics

    SPAD Data Mining

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Data Visualisation, Discovery Visualisation

    SPM (Salford Systems Predictive Mining Suite)

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics

    Clementine

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics, Social Network Analysis

    SQL Server Data Mining

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis

    STATISTICA Data Miner

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis, Web Analytics, Social Network Analysis

    Viscovery SOMine

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Data Visualisation, Discovery Visualisation

    VisuMap

    (Link)

    Commercial Licence

    Classification Discovery, Cluster Discovery, Association Discovery, Text Mining, Outlier Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis

    Weka

    (Link)

    Free - Open Source Licence

    Classification Discovery, Cluster Discovery, Association Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation


    • Điểm chủ đề: 110
  • 04-09-2016 08:21 PM trả lời

    • meodien
    • Không xếp hạng
    • Tham gia 04-09-2016
    • Điểm 20

    Re: Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ

    EM xin chào anh
    Hiện tại em đang có đề bài tập về nhà môn khai phá dữ liệu mà em chưa biết làm
    Sử dụng thuật toán c4.5 cho bài 1, k-means cho bài 2
    Link bài tập của em: https://drive.google.com/file/d/0B9hqGIyBGWEJWjUtdnhtYnliclE/view?pref=2&pli=1

    Anh làm ơn giải giúp em và gửi về mail: maivinhhoang@gmail.com giúp em ạ
    Em cảm ơn anh!
    • Điểm chủ đề: 20
  • 06-07-2017 09:07 AM trả lời

    • ColinsoT
    • Không xếp hạng
    • Tham gia 06-07-2017
    • Điểm 20

    cheap Microsoft Visual Studio Professional 2012

    The committee used newsprint, posters, radio, telegraph, cable and movies to broadcast its message. It recruited about 75,000 "Four Minute Men," volunteers who spoke about the war at social events for an ideal length of four minutes, considering that the average human attention span was judged at the time to be four minutes. They covered the draft, rationing, war bond drives, victory gardens and why America was fighting. It was estimated that by the end of the war, they had made more than 7.5 million speeches to 314 million people in 5,200 communities.<>] They were advised to keep their message positive, always use their own words and avoid "hymns of hate."<>] For ten days in May 1917, the Four Minute Men were expected to promote "Universal Service by Selective Draft" in advance of national draft registration on June 5, 1917.<>] Think about it. When you look at a crumbling castle in Scotland a story probably comes to mind. When you happen across a teetering drunk you probably envision what led them there. There is encouraging news that companies see the need to move into social media as a customer support channel. In fact, 80% of companies were planning on utilizing social media as part of their customer service strategy by the end of 2012; something they know is important as 62% of their customers are already there ( source). While companies are moving to this space, that does not mean they know how to approach the problem. Here are my recommendations on how to proceed. Where does this leave the higher education bundle? At present, degrees remain the currency of the labor market. But as currency, they're about as portable as the giant stone coins used on the island of Yap. What if technology could produce a finer currency that would be accepted by consumers and employers alike? Toward a New Currency: The Competency Marketplace A Notepad alternative Soup Up The Notepad++ Text Editor With Plugins From The Notepad Plus Repository Soup Up The Notepad++ Text Editor With Plugins From The Notepad Plus Repository Notepad++ is a worthy replacement for Windows' in-built and much loved text editor, and comes highly recommended if you're a programmer, web designer or simply someone who finds themselves in need of a powerful plain... Read More with tabs and advanced features, useful especially for coders. Windows Live Writer Microsoft Project 2016 price
    • Điểm chủ đề: 20
  • 06-08-2017 09:25 AM trả lời

    where to buy Infinite Skills - SolidWorks 2012 Advanced

    but can now confirm that this works on PS CS4 on Windows 10 in 32 and 64 bit! Quality of the GUI is surprisingly good as well – can hardly notice it's not native. Routers - A device or, in some cases, software in a computer, that determines the next network point to which a packet buy Adobe Creative Suite discount Linux is also unique because a customer can easily fine-tune it to a particular need. For example, Cornell University's Institute for Biotechnology and Life Science Technologies installed Red Hat's Linux to help it manage data-intensive research projects like DNA sequencing. Financial firm CME Group installed Red Hat to help its trade platform sort and otherwise manage its billions of financial transactions per year. It's not free, it costs in time. Unless of course you deem your time to be worthless. I sure don't. I'd rather put the $$$ up front and buy software that I know will work. purchasing Autodesk Inventor 2017
    • Điểm chủ đề: 20
  • 06-10-2017 12:26 AM trả lời

    cheap price VMware Fusion 5

    The Data Skeptic Podcast features interviews and discussion of topics related to data science, statistics, machine learning, artificial intelligence and the like, all from the perspective of applying critical thinking and the scientific method to evaluate the veracity of claims and efficacy of approaches. Adobe Creative Suite online Inevitably, though, the producer or director will want to see alternate takes. And pulling apart a sequence to slip in an alternate clip is a major headache. cheap price Adobe Photoshop CS5 Extended Student And Teacher Edition
    • Điểm chủ đề: 20
  • 06-13-2017 01:17 AM trả lời

    service essays

    3 sets, 2 sets, 84%. 96%. 108%. 108%. 2 sets, 3 sets, 3 sets, 2 sets, 87%. 100%. steroid that is somewhat different from the others. The substance formebolone is service provided by Australian Muscle is their listings of registered Australian many places spring up, do business for awhile, then disappearing into thin air. who take Testosterone enanthate should consider the intake of HCG every 6-8 buy testosterone undecanoate
    • Điểm chủ đề: 20
  • 06-13-2017 09:59 AM trả lời

    • Essaytof
    • Không xếp hạng
    • Tham gia 06-13-2017
    • Điểm 20

    dr seuss writing paper

    When people read a novel they like to visualise the characters for themselves, not have a minutely-detailed description spoon-fed them. When you are writing scientific essays, it is not only that the essays itself are complex enough to make you tap out but scientific essay s topic, title and issues upbringing are the other parts that can make the essay writing part even harder. Winning Customers Over the Phone Do you sometimes wonder where your customers have gone? Dissection Versus Prosection In The Study Of Human Anatomy ABC Article Directory Anatomy is considered as one of the most vital studies in the field of medicine. English is one of the most common languages in the world. Proper format has to be followed while preparing academic essay. In the codicil, dated June 16, there is this sentence My desire is, that all my overseers would be pleased to show so much respect unto my dead corpse as to cause it to be decently interred, and, if it may be, near my late husband. First of all, it is important to select and think of the accounting research paper topic. Premium English Writing & Grammar Tool. Write My Essay
    • Điểm chủ đề: 20
Trang 1 trong số 1 (7 nội dung)
Powered by Community Server (Commercial Edition), by Telligent Systems