Birim bilyadan N numunenin ortasına kadar en yakın medyan nokta için formülün açıklaması


13

In İstatistiksel Öğrenme Elements , bir sorun yüksek boyutlu uzaylarda k-nn ile vurgulamak konulara tanıtıldı. Vardır N homojen bir dağıtılan veri noktaları p boyutlu birim top.

Başlangıç ​​noktasından en yakın veri noktasına olan ortalama mesafe ifadesi tarafından verilir:

d(p,N)=(1(12)1N)1p

Zaman en yakın nokta olarak sınırına yaklaşırken, nasıl topun yarı çapına kadar formül sonları ve görebilirsiniz p ∞ iken , bu şekilde sezgi geride hale yüksek boyutlarda yıkmak kNN. Fakat formülün neden N'ye bağımlı olduğunu anlayamıyorum. Birisi açıklığa kavuşturabilir mi?N=1p

Kitap ayrıca bu konuyu daha da ele alarak şunları söylüyor: “... eğitim örneğinin kenarlarına yakın tahmin çok daha zor. Aralarında enterpolasyon yapmak yerine komşu örnek noktalardan tahmin etmek gerekiyor”. Bu derin bir ifade gibi görünüyor, ama ne anlama geldiğini anlayamıyorum. Herkes yeniden düşünebilir mi?


1
Görüntülenen denkleminizi biraz düzenlemelisiniz. Bu üssü sadeceşimdi göründüğü şekilde payda1için geçerli, ya da bütün için geçerli olmasını istediniz11N1 ? 12
Dilip Sarwate

1
Bu (içinde "hiperkürenin" ayırt etmeye yardımcı olur boyutu arasında bir manifolddur p - 1 "birim top" (boyut sahip olan) p ). Hiper küre topun sınırıdır . Başlığınızın söylediği gibi, tüm noktalar hiper küreden örneklenmişse , - tanım gereği - hepsinin başlangıç ​​noktasından 1 mesafesi varsa , ortalama uzaklık 1'dir ve hepsi de başlangıç ​​noktasına eşittir. Rpp1p11
whuber

@DilipSarwate Bütün uygulanır . KitaptaN=500,p=10yanid(p,N)0.5212N=500,p=10d(p,N)0.52
user64773

Yanıtlar:


9

Bir hacmi yarıçapı boyutlu Hyperball r için bir ses orantılı olan r p .prrp

Böylece, hacmin başlangıç ​​noktasından mesafesinden daha fazla oranı r p - ( k r ) pkr.rp(kr)prp=1kp

Tüm bu olasılık rastgele seçilmiş puan daha fazla bir mesafe daha vardır k r kökenli olduğu ( 1 - k s ) , N . En yakın rastgele noktaya medyan mesafeyi almak için, bu olasılığı 1'e ayarlayın.Nkr(1kp)N . Yani(1-kp)N=112

(1kp)N=12
k=(1121/N)1/p.

kN21/NN121/NN1121/NNp


Ah, güzel bir bakış açısı. İkinci sorumdaki alıntıyı yeniden yorumlayabilir misiniz?
user64773

Yüksek boyutlarda, tahmin edilecek noktaların, bir kürenin kenarındaymış gibi, eğitim verilerinden etkili bir şekilde uzun bir yol olduğunu düşündürüyor olabilir, bu yüzden gerçekten enterpolasyonlu değil, daha çok tahmin edersiniz ve belirsizlikler çok daha fazladır. Ama gerçekten bilmiyorum.
Henry

Anlamıyorum - bu ifadenin neden tüm noktaların kr'den daha uzak olma olasılığı olduğunu anlıyorum, ama neden bu olasılığı 1/2 olarak ayarlamak medyan mesafeyi veriyor?
ihadanny

1
k=(1121/N)1/pN12112=12kr

1
Ortanca tanımı, yarısı daha büyük ve yarısı daha küçüktür.
Grant Izmirlian

2

Ve şimdi el sallamadan

  1. P(min1iNYi>y)=(1F(y))N,
    F
  2. Elimizdeki Böylece eğer eşit dağılmış IID birim topu , o zaman boyutları burada mesafelerin ortak CDF olup, . Son olarak, birim topunda eşit dağılmış bir nokta için CDF, nedir? Noktanın yarıçap topu içindeki yarıçap r topunda olma olasılığı hacim oranına eşittir:NXip

    P(min1iN||Xi||>r)=(1F(r))N,
    F||Xi||,i=1,2,,NFRp

F(r)=P(||Xi||r)=Crp/(C1p)=rp

Böylece çözüm

1/2=P(min1iN||Xi||>r)=(1rp)N

dır-dir

r=(1(1/2)1/N)1/p.

Ayrıca örneklem büyüklüğüne, bağımlılıktan hakkında sorun . Sabit için , top daha fazla nokta ile doldurulduğunda, doğal olarak başlangıç ​​noktasına olan minimum mesafe daha küçük olmalıdır.pNp

Son olarak, hacim oranınızda yanlış olan bir şey var. Görünüşe göre , birim topun hacmi olmalıdır .R pkRp


0

Özlü ama kelimelerle:

Bu menşe en yakın noktadan en medyan mesafe bulmak istiyoruz birim yarıçapının orijinde top eşit olarak dağıtılmış nokta boyutları. En küçük mesafenin aşma olasılığı (bu miktar ifadesi [1] olarak adlandırın), istatistiksel bağımsızlık nedeniyle, tekdüze dağılmış bir noktanın aşma olasılığının gücüdür . İkinci bir eksi tek eşit dağılmış noktası daha az olduğu olasılığıdır . Sonuncusu, yarıçapı olan topun birim yarıçapının topuna veya olan orandır . Şimdi [1] ifadesini şu şekilde yazabiliriz:NprNthrrrrp

P(min1iN||Xi||>r)=(1rp)N.

Minimum mesafelerin dağılımının medyanını bulmak için yukarıdaki olasılığı 2'ye ayarlayın ve cevabı elde ederek için çözün .1/2r

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.