Chào mừng đến với BIS Đăng nhập | Đăng ký | Trợ giúp
trong Tìm kiếm

Thuật toán K láng giềng gần nhất

Bài cuối 06-10-2022 01:18 AM của Yrwyvn. 25 trả lời.
Trang 1 trong số 2 (26 nội dung) 1 2 Tiếp theo >
Sắp xếp bài viết: Trước Tiếp theo
  • 11-13-2010 09:57 PM

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Thuật toán K láng giềng gần nhất

    Thuật toán K – Láng giềng gần nhất (K-Nearest Neighbors)

    Nguyễn Văn Chức – chuc.nv@due.edu.vn

    1. Giới thiệu thuật toán K-Nearest Neighbors

    K-Nearest Neighbors algorithm (K-NN) được sử dụng rất phổ biến trong lĩnh vực Data Mining. K-NN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query point) và tất cả các đối tượng trong Training Data.

    Một đối tượng được phân lớp dựa vào K láng giềng của nó. K là số nguyên dương được xác định trước khi thực hiện thuật toán. Người ta thường dùng khoảng cách Euclidean để tính khoảng cách giữa các đối tượng.

    Thuật toán K-NN được mô tả như sau:

    1.    Xác định giá trị tham số K (số láng giềng gần nhất)

    2.    Tính khoảng cách giữa đối tượng cần phân lớp (Query Point) với tất cả các đối tượng trong training data (thường sử dụng khoảng các Euclidean)

    3.    Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với Query Point

    4.    Lấy tất cả các lớp của K láng giềng gần nhất đã xác định

    5.    Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho Query Point

    Để hiểu K-NN được dùng để phân lớp thế nào ta xem minh họa dưới đây.

    Trong hình dưới đây, training Data được mô tả bởi dấu (+) và dấu (-), đối tượng cần được xác định lớp cho nó (Query point) là hình tròn đỏ. Nhiệm vụ của chúng ta là ước lượng (hay dự đoán) lớp của Query point dựa vào việc lựa chọn số láng giềng gần nhất với nó. Nói cách khác chúng ta muốn biết liệu Query Point sẽ được phân vào lớp (+) hay lớp (-)

    Ta thấy rằng:

    1-Nearest neighbor : Kết quả là + (Query Point được xếp vào lớp dấu +)

    2-Nearest neighbors : không xác định lớp cho Query Point vì số láng giềng gần nhất với nó là 2 trong đó 1 là lớp + và 1 là lớp – (không có lớp nào có số đối tượng nhiều hơn lớp kia)

    5-Nearest neighbors : Kết quả là - (Query Point được xếp vào lớp dấu – vì trong 5 láng giềng gần nhất với nó thì có 3 đối tượng thuộc lớp - nhiều hơn lớp + chỉ có 2 đối tượng).

    2. Triển khai thuật toán K-NN với MS Excel

    Giả sử ta có dữ liệu như sau:

    Training Data gồm có 20 samples, mỗi đối tượng có 2 thuộc tính số (X1, X2) và thuộc tính Y là lớp của các đối tượng (ký hiệu + và -)

    Đối tượng cần dự đoán lớp (Query Point) có giá trị của 2 thuộc tính X1 và X2 lần lượt là 7 và 5

    Nhiệm vụ của chúng ta là sử dụng thuật toán K-NN để xác đinh lớp cho đối tượng (X1,X2) =(7,5) thuộc lớp + hay - dựa vào số láng giềng gần nhất của nó.

    Giải thích công thức trong Excel:

    Công thức tính khoảng cách (Euclidean) tại ô G2:

    =SQRT((C2-$C$22)^2+(D2-$D$22)^2)

    Xác định số láng giềng gần nhất (ô H23): K= 5

    Chọn ra  K láng giềng gần nhất của Query point (công thức tại ô H2)

    =IF(G2<=SMALL($G$2:$G$21,$H$23),E2,"")

    Dự đoán lớp của Query Point (ô H24). Trong ví dụ này lớp của Query point (7,5) được xác định là vì trong 5 láng giềng gần nhất với nó có 3 láng giềng thuộc lớp – (nhiều hơn số láng giềng thuộc lớp +)

    =IF(COUNTIF(H2:H21,"+")>COUNTIF(H2:H21,"-"),"+","-")

    Chú ý: Bạn có thể thay đổi dữ liệu về số láng giềng K ở ô H23 cũng như thay đổi training data hay Query Point để kiểm tra kết quả của thuật toán K-NN

    Trường hợp ứng dụng K-NN:

    Giả sử rằng  trong ứng dụng thực tế, thuộc tính X1: huyết áp, thuộc tính X2: nồng độ Cholesterol trong máu và Y thể hiện  tình trạng bệnh tim của bệnh nhân. Y có hai giá trị là + (có bệnh) và - (không có bệnh).

    Ta có dữ liệu về 20 người đã khám bệnh và kết quả như bảng sau (Training data, dữ liệu chỉ mang tính minh họa cho thuật toán K-NN)

    Bây giờ có một người bệnh đến khám bệnh (chưa biết có bị bệnh tim hay không), sau khi đo huyết áp và nồng độ Cholesterol có giá trị lần lượt là X1= 7 và X2= 5. Ta sử dụng thuật toán K-NN  để dự đoán (xếp lớp) bệnh nhân này có mắc bệnh tim hay không.  Trong ví dụ trên tham số k =5 có nghĩa là lấy 5 bệnh nhân có huyết áp và nồng độ Cholesterol gần  giống nhất với bệnh cần chuẩn đoán và ta thấy rằng trong 5 bệnh nhân gần nhất đó có 3 người không mắc bệnh tim (giá trị Y là -) và 2 người mắc bệnh tim (giá trị Y là +). Vì vậy theo K-NN ta xếp bệnh nhân cần chuẩn đoán bệnh vào lớp – (không bị bệnh tim)


     3. Triển khai thuật toán K-NN  với phần mềm Weka

    Phần này trình bày triển khai thuật toán K-NN với phần mềm WeKa

    Dữ liệu dùng để phân lớp trong ví dụ này là bộ dữ liệu về hoa Iris (xem mô tả về Iris dataset trong bài Building a Classification Model with Weka)

     

     


     Thuật toán K-NN có ưu điểm là đơn giản, dễ hiểu, dễ cài đặt. Tuy nhiên, kết quả bài toán phụ thuộc rất lớn vào việc chọn tham số K (số láng giềng gần nhất).

     

    Next Topic: Clustering Techniques. All comments please send to chucnv@ud.edu.vn

    • Điểm chủ đề: 335
  • 11-16-2010 10:03 AM trả lời

    Re: K-Nearest Neighbors Algorithm

    Cảm ơn anh Chức. Quả thực em đã đọc tài liệu về KNN nhưng hiểu không được sâu cho đến khi đọc bài viết của anh.
    Chúc anh luôn mạnh khỏe và viết nhiều bài về Data Mining nữa nhé. (hi hi)

     
    • Điểm chủ đề: 20
  • 06-06-2011 12:14 AM trả lời

    Re: K-Nearest Neighbors Algorithm

    em chào anh, 
    Nhờ các bài viết của Anh mà em hiểu hơn về Data mining,
    Anh có thể mô tả giúp em quy trinh thưc hiện được yêu cầu:
     Chuyển doccument sang vector và sử dụng thước đo cosine được không a?
    Từ khóa đại diện:
    • Điểm chủ đề: 35
  • 06-06-2011 10:42 AM trả lời

    • chucnv
    • 10 thành viên năng nổ nhất
    • Tham gia 12-05-2008
    • Điểm 28,320

    Re: K-Nearest Neighbors Algorithm

    Chào em,
    Việc biểu diễn một document bằng một Term vector thực hiện theo qui trình sau:
    Loại bỏ các Stop word (sử dụng StopList)
    Chuyển các từ về dạng nguyên thể (Term Stems)
    Trích các term từ Document (Extracting Term) và tính tần suất (Term frequency)
    Đánh trọng số (weight) các term để loại đi các term không liên quan nhiều đến documents (thường sử dụng tf-idf) 
    Sử dụng một số công thức để đánh giá độ tương tự (Similar) giữa các Document dựa trên Term Vector
    Công thức Cosin dùng để xác định độ tương tự giữa 2 documents đó là góc giữa 2 documents đó như sau:
     

     
     Hình trên cho thấy document Q tương tự (similar) với document D2 hơn là với D1 vì góc giữa Q và D2 nhỏ hơn góc giữa Q và D1.
    Em có thể xem thêm qui trình chuyển một Document sang term Vector tại bài viết : 
    http://bis.net.vn/forums/t/469.aspx
    Chúc em thành công,
    • Điểm chủ đề: 50
  • 04-10-2013 08:57 PM trả lời

    • ngoclinh
    • Không xếp hạng
    • Tham gia 04-10-2013
    • Điểm 20

    Re: Thuật toán K láng giềng gần nhất

    Em chào anh,
    Em thực sự rất mừng khi tìm được diễn đàn về BI và Data Mining này. Qua các bài viết của anh em đã có cái nhìn thực tế hơn về Data Mining.
    Em hiện đang tìm đề tài để làm tốt nghiệp cao học về Data Mining, rất mong anh tư vấn giúp em về lĩnh vực này để chọn đề tài. Thầy giáo HD em định hướng ứng dụng Data Mining trong phân tích hành vi đầu tư chứng khoán mà em chua biết cụ thể như thế nào, có thể sử dụng thuật toán nào trong Data Mining. 
    Mong anh tư vấn giúp em với, em cảm ơn anh nhiều.
     Chân thành cảm ơn anh trước.
     
    • Điểm chủ đề: 20
  • 01-15-2015 04:30 PM trả lời

    Re: Thuật toán K láng giềng gần nhất

    Anh ơi, anh cho em hỏi chút với ah,  K-NN là thuật toán thuộc học có giám sát đúng ko anh?
    • Điểm chủ đề: 35
  • 05-29-2018 11:32 PM trả lời

    • hoang
    • Không xếp hạng
    • Tham gia 05-29-2018
    • Điểm 20

    Re: K-Nearest Neighbors Algorithm

    em chào anh. KNN có được coi là một mạng nơ-ron nhân tạo không anh??? anh ơi theo như trên thì dựa vào thuật toán kNN mình hoàn toàn có thể so sánh, đối chiếu giữa hai văn bản giống như phần mềm ("text compare"). mà cũng có thể phát hiện đạo văn nếu ứng dụng kNN vào xử lý văn bản đúng không ạ. 
    và nếu hướng đi này khả quan thì anh cho em hỏi anh có code nguồn không (hoặc link chứa code nguồn) chỉ giùm em. em cảm ơn anh nhiều ạ!!! 
    • Điểm chủ đề: 20
  • 06-21-2018 03:56 PM trả lời

    Re: Thuật toán K láng giềng gần nhất

    Vậy thì để đánh giá mô hình phân loại co phù hợp với dữ liệu không thì làm sao vậy anh. Em có tìm hiểu một vài chỉ số đánh giá nhưng không hiểu. Ví dụ như chỉ số ARI, anh có thể giải thích giúp em được không ạ.
    • Điểm chủ đề: 20
  • 08-10-2018 04:12 PM trả lời

    Re: Thuật toán K láng giềng gần nhất

    Thuật toán học có giám sát là thuật toán mà với dữ liệu đầu vào cần phải biết được kết quả đầu ra (ví dụ bài toán gán nhãn thì với dữ liệu đầu vào để học thì đã được gán nhán). Như vậy ứng với khái niệm này thì Thuật toán K láng giềng gần nhất là thuật toán học có giám sát.
    https://trituenhantao.info
    http://tukyonline.com
    • Điểm chủ đề: 20
  • 10-26-2018 11:14 AM trả lời

    Re: K-Nearest Neighbors Algorithm

    Cảm ơn bài chia sẻ hữu ích của bạn.
    Founder at Blog tự học lập trình Nguyenvanhieu.vn
    • Điểm chủ đề: 20
  • 05-22-2021 02:54 PM trả lời

    • vanvui
    • Không xếp hạng
    • Tham gia 05-22-2021
    • Điểm 20

    Re: Thuật toán K láng giềng gần nhất

    khi xuất ra kết quả trên weka như vậy thì mình nhận xét như thế nào vậy thầy?
    Em cảm ơn! 
    Từ khóa đại diện:
    • Điểm chủ đề: 20
  • 06-07-2022 09:52 PM trả lời

    • Wjajco
    • Không xếp hạng
    • Tham gia 06-07-2022
    • Điểm 20

    Cerbfh Plat Ewqhad

    Lkxiif https://albuterola.store/ - buy albuterol pill Rwpmen https://atorvastatin.store/ - atorvastatin 20mg ca
    • Điểm chủ đề: 20
  • 06-08-2022 01:17 AM trả lời

    • Avctbl
    • Không xếp hạng
    • Tham gia 06-07-2022
    • Điểm 20

    Zpmxhk Leaning Hexpjr

    Ylipmc https://metoprololpx.com/ - buy metoprolol 100mg online cheap Mtlqor https://prednissone.com/ - prednisone 20mg tablet
    • Điểm chủ đề: 20
  • 06-08-2022 01:54 AM trả lời

    Domenik, Yussuf, Deckard and Bram Andorra

    Therefore, these estimates are a sign of the assumed prevalence but will not be correct. In this final case, up to 87,500 parasites per gram of granulo matous mass were extracted. D 899 308 6 Total excision of lip and reconstruction, one or more levels D 901 462 6 Abbe reconstruction, whole care symptoms diarrhea purchase 10mg accupril. This causes acute cramp-like ischaemic ache, which disappears when exertion stops. It is seen more generally within the region of Type I: Polypoid type gastric canal (Fig. Concerns also are emerging about how new merchandise about which little is understood, such as artificial cannabinoids and artificial cathinones, have an effect on the brain allergy symptoms in spring astelin 10 ml low cost. However, Romans 12 v 2 says that we aren't supposed to suppose like the world, God has a totally different mind-set about finances and we need to think like Him. Effect of vitamin and hint-factor supplementation on cognitive perform in aged topics. Kanemoto K, Hayashi Y, Kojima Y et al: Accuracy significance of postnatal gonadotropin surge for of ultrasonography and magnetic resonance testicular improvement in regular and cryptorchid imaging in the analysis of non-palpable testis acne homemade mask buy opridan american express.
    • Điểm chủ đề: 20
  • 06-08-2022 02:17 AM trả lời

    • Pzrcsi
    • Không xếp hạng
    • Tham gia 06-07-2022
    • Điểm 20

    Nsjxuj Plat Evogrg

    Ctdofh https://atenololxp.com/ - cheap atenolol 100mg Yxkjol https://amlodipine.store/ - buy amlodipine online
    • Điểm chủ đề: 20
  • 06-08-2022 04:25 AM trả lời

    Lisk, Topork, Marius and Mojok Guam

    For guidance on managing pancreatic ascites and pleural effusion secondary to pancreatitis, see suggestion 37. Additional considerations embrace the provision of animal models, relevant biomarkers and feasible medical improvement paths. This could begin with blocking agents that quickly suppress pubertal transformation treatment kidney stones buy depakote 500 mg with amex. Postablation tubal sterilization syndrome consists of painful hematosalinges, ensuing from active endometrial tissue near the cornual region and endometrial scarring and contractures that prevent menstrual egress. Transmission of intestinal parasites is Protozoan infections maintained by the release of life cycle stages Three species are of particular importance: in *** пїЅ Entamoeba histolytica. If the brainstem functions are regular, coma have to be ascribed to bilateral hemispherical disease weight loss after pregnancy generic shuddha guggulu 60caps line. In this creation, 50 percent of each parent's gametes are A and the other 50 percent are a. They can also be created on an advert hoc foundation; for instance, for sure newly introduced medicines or vaccines, pharmaceutical companies might establish registries to collect and maintain affected person knowledge (additionally referred to as a affected person cohort) for potential future followup and evaluation within the event a signal arises from one other supply. Although such cells, if derived from mammals, would appear ideal for testing for toxicity toward mammals, there are a number of problems bacteria glycerol stock cheap generic zithromac uk.
    • Điểm chủ đề: 20
  • 06-08-2022 04:27 AM trả lời

    Brontobb, Zakosh, Silvio and Rendell Czech republic

    M iM illdd ddiillaattaattiionon ofof com m oncom m on bibillee dductuct iiss nnototeedd.. It is well-known that the expres- the histamine (15 to 30%) to imidazole acetic acid <>0]. Protein Protein is the constructing block of our bodies, helping us make and restore small gadgets like cells to larger gadgets like muscles and pores and skin pain treatment for postherpetic neuralgia order genuine imdur line. Leg workouts have to be individualized to patient wants, bodily situation, main care supplier choice, and facility protocol. Analyses comparing mixed therapies with psychological therapies alone or with no therapy control circumstances were not undertaken. The human placenta is a fetus’s lifeline during gestation, providing vitamins and antibodies, whereas eliminating waste merchandise by way of the mom’s blood provide destructive arthritis definition cheap trental amex. Part of memory that is completely protected from being modi?ed, erased, or written over. The diagram illustrates the conventional phenylalanine and that patients could be left profoundly disabled at tyrosine degradation pathway, enzymes involved and defects that can happen (highlighted blue). Their production in the remodeled cells turns into constitutive, that is, not depending on progress components or different external indicators treatment renal cell carcinoma cheap tranexamic.
    • Điểm chủ đề: 20
  • 06-08-2022 08:31 AM trả lời

    Grok, Lares, Sulfock and Grobock Bahamas

    Anger Un-forgiveness, resentment and retaliation has been building up and now you might be very, very indignant. Vitamin A deficiency occurs when dietary consumption just isn't the evidence for setting the cutoff for hypervitaminosis A is enough to meet demands (Figure 5). In this publication, the aim of the Neuroendocrino- logy Department of the Brazilian Society of Table 1 treatment 5th metatarsal avulsion fracture cytotec 200mcg without prescription. Adverse results: as for Chlorpromazine (see above), however less sedative results, fewer hypotensive and anticholinergic signs and a higher incidence of extrapyramidal signs (most likely to happen a couple of hours after injection and continue for about 2 days but may be delayed); systemic lupus erythematosus; pain at injection website, and occasionally erythema, swelling, nodules; inappropriate antidiuretic hormone secretion, oedema. El modelo plantea que se realiza emocional de la cara dado por la expresión un análisis básico de las características emocional o por la significación emocional faciales en el giro occipital inferior de esa persona por su identidad. In sheep, small vesicles appear on the toes resulting in lameness, although they could even be encountered on the udder and vulva infection zombie games order online tanezox. Children's Orientation and Amnesia Test) exist, however are time-consuming; norms are age-dependent. Cholestasis is a pathologic state of lowered bile formation or move which can be hepatocellular (Intrahepatic), the place an impairment of bile formation occurs or ductular Pharmacological Treatment (further hepatic), the place impedance to bile circulate occurs after it is fashioned. A novel immunohistochemical assay for the detection of Ebola virus in pores and skin: implications for prognosis, unfold, and surveillance of Ebola hemorrhagic fever muscle relaxers to treat addiction purchase generic pyridostigmine line.
    • Điểm chủ đề: 20
  • 06-08-2022 10:27 AM trả lời

    • Ecnihb
    • Không xếp hạng
    • Tham gia 06-08-2022
    • Điểm 20

    Odawzg Site Tehgoy

    Vuqwot https://xdapoxetine.com/ - order priligy 30mg for sale Tuourp https://provigpill.store/ - buy provigil 200mg sale
    • Điểm chủ đề: 20
  • 06-08-2022 12:56 PM trả lời

    • RetoKed
    • Không xếp hạng
    • Tham gia 06-08-2022
    • Điểm 20

    Abe, Tizgar, Gorn and Cole Mexico

    In its widest sense quality Audit and suggestions, which has been tried in stewardship enchancment is the combined and unceasing eforts of everybody interventions, is the monitoring and suggestions provision on to make adjustments that may result in better patient outcomes, better outcomes of behaviour to the folks whose behaviour is system performance (care) and higher skilled growth. Tissue engineered coronary heart valves: Autologous cell seeding Subcutaneous implant research in rats. Professor Burney agreed that there's fairly good evidence that damp housing with mould causes issues, significantly for sufferers with bronchial asthma (Q one hundred thirty) symptoms sinus infection atomoxetine 10mg line. The enlargement begins unilaterally however quickly after involves the contralateral side. A substantial number of women who're part of the uterus has passed through the introitus. Abdominal cystic fibrosis: studies in distal intestinal obstruction syndrome and manifestations of cystic fibrosis in children medications not covered by medicare solian 100 mg low cost. Systemic diseasesthe causes for medical unfitness for flying duty Classes half of/2F/three/4 are the causes in paragraph 2пїЅ30 and a pair ofпїЅ32, plus the next: Diseases and conditions that, based mostly upon sound aeromedical principles, may in any way affect or compromise the individualпїЅs health or well-being, flying security, or mission completion. To ensure correct scoring, foci scoring was performed in a double-blinded method by two researchers. Marmite and Vegemite also comprise excessive concentrations of Folate as do most breakfast cereals symptoms meningitis buy cordarone with visa.
    • Điểm chủ đề: 20
  • 06-08-2022 02:00 PM trả lời

    • MoffMib
    • Không xếp hạng
    • Tham gia 06-08-2022
    • Điểm 20

    Faesul, Potros, Yespas and Ugo Mexico

    Methodology This part describes methods used to establish key questions; literature search, retrieval, and choice methods; and processes used for abstracting and analyzing studies. Additional gene candidates embrace Hbd1 (C-terminal area) and Hbd2 (N-terminal domain) in Clostridium kluyveri (Hillmer and Gottschalk, Biochim. Regeneration is the totalling of additional cells of the anyhow type as the ones that were injured (Make heads 4 hiv infection early symptoms purchase prograf online. Legal and Ethical Considerations for Registries well being practice45 and quality-associated confdentiality considerations, together with the Privacy investigations. Dans ce cas, l antibiotherapie associe une beta-lactamine (amoxicilline-acide clavulanique ou ceftriaxone) a un macrolide afn de prendre en compte une legionellose. However, cellulitis extends only to the subcutaneous tissue and is poorly demarcated diabetes 71 purchase cheapest cozaar. Bupropion apism happens, which might require surgical correction Bupropion differs from different modern antidepressants by (174, 175). A double crossover between the inner two chromatids only wouldn't meet this situation. Nonetheless, there's a skinny line capacity could take from a number of days to a number of weeks symptoms 8 dpo buy cheap dramamine 50mg line.
    • Điểm chủ đề: 20
  • 06-08-2022 11:00 PM trả lời

    • Pptcqo
    • Không xếp hạng
    • Tham gia 06-08-2022
    • Điểm 20

    Gckrvh Spot Hyiaom

    Plovzs https://pregabalin.store/ - order lyrica 75mg online cheap Kghyhg https://prednissone.com/ - buy prednisone 10mg online cheap
    • Điểm chủ đề: 20
  • 06-09-2022 09:44 AM trả lời

    • Vowuks
    • Không xếp hạng
    • Tham gia 06-09-2022
    • Điểm 20

    Ojshfx Attitude Wdfdkz

    Muazcw https://edtadalsfil.com/ - purchase cialis for sale Bwvvyq https://essayslw.com/ - order research papers
    • Điểm chủ đề: 20
  • 06-09-2022 01:07 PM trả lời

    • Lpavcb
    • Không xếp hạng
    • Tham gia 06-09-2022
    • Điểm 20

    Ovjduj Install Rjruzl

    Qzenhr https://edpill.store/ - best ed drug Cdsjpz https://omeprazolepx.com/ - cheap prilosec
    • Điểm chủ đề: 20
  • 06-09-2022 08:04 PM trả lời

    • Lwnlhe
    • Không xếp hạng
    • Tham gia 06-09-2022
    • Điểm 20

    Vfmrhk Attitude Fmgcba

    Czvbup https://neurontinx.store/ - buy gabapentin 800mg for sale Kysmar https://pregabalin.store/ - order lyrica sale
    • Điểm chủ đề: 20
Trang 1 trong số 2 (26 nội dung) 1 2 Tiếp theo >
Powered by Community Server (Commercial Edition), by Telligent Systems