Yüksek Boyutlu Özellik Alanında K-En Yakın-Komşular Gibi Parametrik Olmayan Yöntemler


11

K-En Yakın-Komşusunun ana fikri, en yakın noktalarını dikkate alır ve verilerin çoğunluk oyu ile sınıflandırılmasına karar verir. Eğer öyleyse, o zaman daha yüksek boyutlu verilerde problemler olmamalıdır çünkü yöreye duyarlı hash gibi yöntemler en yakın komşuları etkili bir şekilde bulabilir.k

Buna ek olarak, Bayes ağları ile özellik seçimi verilerin boyutunu azaltabilir ve öğrenmeyi kolaylaştırabilir.

Bununla birlikte, istatistiksel öğrenmede John Lafferty'nin bu derleme makalesi , yüksek boyutlu özellik uzaylarında parametrik olmayan öğrenmenin hala bir zorluk ve çözülmediğine işaret etmektedir.

Neler yanlış gidiyor?


1
Lütfen kağıt için tam bir referans veriniz; yazarlar onun içinde (göze çarpan) görünmüyorlar.
Raphael

Yanıtlar:


5

Bu sorun boyutsallığın laneti olarak bilinir . Temel olarak, boyut sayısını artırdıkça, , boşluktaki noktalar genellikle diğer tüm noktalardan uzak olma eğilimindedir. Bu, alanı bölümlere ayırmayı (sınıflandırma veya kümeleme için gerekli olduğu gibi) çok zorlaştırır.d

Bunu kendiniz için çok kolay görebilirsiniz. I oluşturulan rastgele d 20 eşit seçilen değerler birim hiperküp boyutlu noktaları d den 1..1000 . Her bir değeri için, d tüm diğerleri, ilk noktadan mesafe hesaplanabilir ve bu mesafelerin ortalama aldı. Bunu çizerken, her bir boyuttaki noktaları oluşturduğumuz alan aynı kalsa da ortalama mesafenin boyutsallıkla arttığını görebiliriz.50dd1..1000d

Ortalama mesafe ve boyutsallık


Elbette. Eğer bu rastgele 50 puan eşit seçim eğer öyleyse, katlanarak dimensionalty sabit yarıçaplı bir hiperküre noktaların sayısını artırmak vardır gerçekleşmesi. Bu nedenle, gerekçeniz doğruysa, çok sayıda örneğim varsa bölümleme kolaylaşmalıdır; öyle mi?
Raphael

Tersine çevirdiğine inanıyorum. Boyutsallığı arttırarak, bir hiper küredeki nokta sayısını azaltırım. Bölünme daha zorlaşır çünkü mesafe ölçüsü aslında anlamını kaybeder (örneğin her şey çok uzaktadır).
Nick

Demek: noktalarının sayısını yarıçapı bir hiperküre içinde diyelim ki N n , yani | N nS n ( k ) | artar n . kN-n|N-nSn(k)|n
Raphael

Ayrıca ne yüksek boyutlu özellik uzayına karşılık zaman insanlar demek numune sayısına yani dikkat çok daha az her nokta, bir boyutluluk daha, d , ( n < < d ). Yani bu problemlerde 'çok örnek' olmadığını varsayıyorsunuz. ndn<<d
Nick

Bunun tanım gereği geçerli olduğunu görmüyorum; yine de deneyime dayalı bir sözleşme gibi görünüyor.
Raphael

3

Tam bir cevap değil, ancak belirttiğiniz wikipedia sayfası şunları belirtiyor:

K-NN algoritmasının doğruluğu, gürültülü veya alakasız özelliklerin varlığıyla veya özellik ölçekleri önemleriyle tutarlı değilse ciddi şekilde bozulabilir.

Bunun gerçekleşme olasılığı, yüksek boyutlu özellik uzaylarının varlığında artar.


Ancak PCA (temel bileşen analizi) veya boyutsallığı azaltmak ve alakasız verileri kaldırmak için başka yöntemlerle düşünüyorum, k-NN yine de çalışabilir. Ve wikipedia sayfalarının anlamı naif k-NN'nin başarısız olacağıdır. Bu inceleme raporunu açıklamıyor.
Strin

PCA kesinlikle çalışabilir, ancak her durumda çalışamaz.
Dave Clarke
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.