Boyutsallığın laneti nedir?


21

Özellikle, boyutluluk lanetini titizlikle gösterecek ve açıklayacak referanslar (yazılar, kitaplar) arıyorum. Bu soru, bu beyaz makaleyi Lafferty ve Wasserman tarafından okumaya başladıktan sonra ortaya çıktı . Üçüncü paragrafta, en iyi yakınsama oranının olduğu anlamına gelen “iyi bilinen” bir denklemden bahsediyorlar n-4/(4-d); eğer biri bunu açıklarsa (ve açıklarsa), bu çok yardımcı olacaktır.

Ayrıca, herhangi biri beni "iyi bilinen" denklemini türeten bir referansa işaret edebilir mi?


7
Açıklayamam ama küfürün üç farklı versiyonu gibi neye benzediğini duydum: 1) daha yüksek boyutlar katlanarak artan bir iş anlamına gelir ve 2) daha yüksek boyutlarda herhangi bir kısımda daha az ve daha az örnek alırsınız örnek alanınızın ve 3) yüksek boyutlarda, her şey temelde eşit mesafeli olma eğilimindedir, bu da herhangi bir ayrım yapmayı zorlaştırır.
Wayne

5
Bunu geometrik olarak yorumlayabilirsiniz. D boyutunda yarıçapı r = 1 olan bir küreniz olduğunu söyleyin. Daha sonra, r = 1 ve r = 1-e yarıçapı arasında kalan kürenin hacminin ne kadarının olduğu hakkında soru sorabilirsiniz. Bir kürenin hacminin k (d) * r ^ (d) gibi ölçeklendiğini bildiğimiz için, burada d boyut sayısıdır, kesirin 1- (1-e) ^ d ile verildiğini türetebiliriz. Böylece, yüksek boyutlu küreler için hacmin çoğu, yüzeye yakın ince bir kabukta konsantre edilir. Bununla ilgili daha fazla bilgi için Bishops kitabındaki "Desen kayıt etme ve makine öğrenmesi" konusuna bakın.
Doktor Mike

@Wayne Tabii; artı 5) daha fazla dim, genellikle daha fazla gürültü anlamına gelir.

Mike, mantığı takip etmiyorum. “Hacmin çoğu yüksek boyutlu kürenin yüzeyine yakın ince bir kabukta toplandığından, o zaman boyutluluğa bürünüyorsunuz” diyorsunuz. Daha fazla açıklayabilir misiniz ve belki de açıkça analojinin istatistikle nasıl birleştiğini gösterebilir misiniz?
khoda

Yanıtlar:


9

Richiemorrisroe'yi takip eden bölüm , İstatistiki Öğrenmenin Öğeleri , bölüm 2'den (pp22-27) ilgili görüntüdür :

ESL sayfa 25

Sağ üst bölmede görebileceğiniz gibi, 1 boyutta 1 birim uzakta, 2 boyutta 1 birim uzakta olduğundan daha fazla komşunuz var. 3 boyut daha da kötü olurdu!



6

Ona atıfta bulunduğumu biliyorum, ancak bunun İstatistiksel Öğrenmenin Öğeleri , bölüm 2 (sf 22-27) ile ilgili büyük bir açıklaması var . Temel olarak, boyutlar arttıkça veri miktarının (katlanarak) artması gerektiğini veya herhangi bir faydalı analizin yapılması için daha geniş numune alanında yeterli puanın olmayacağına dikkat çekiyorlar.

Burada Amazon'dan edinilen Adaptif Kontrol İşlemleri kitabı gibi görünen kaynaklarından Bellman'ın (1961) yazdığı bir makaleye atıfta bulunuyorlar.


+1. ESL'deki açıklama harika ve ilgili diyagramlar çok yardımcı oluyor.
Zach

2

görüntü tanımını buraya girin

Belki de en ünlü etkisi (yukarıdaki resimde (dolaylı olarak) gösterilen) aşağıdaki sınırlama ile yakalanır:

limdimdistmaxdistmindistmin

L2kLk


Resimlerdeki Boyutluluğun Verilere Etkisi

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.