Yüksek boyutlu regresyon:


16

Yüksek boyutlu regresyon alanındaki araştırmaları okumaya çalışıyorum; zaman p daha büyüktür n , o, bir p>>n . Görünüşe göre logp/n terimi, regresyon tahmin edicileri için yakınsama oranı açısından sıkça görülmektedir.

Örneğin, burada , denklem (17) der kement uyum β^ tatmin

1nXβ^Xβ22=OP(σlogpnβ1).

Genellikle bu, n'denlogp küçük olması gerektiği anlamına da gelir .n

  1. Bu oranının neden bu logp/nkadar belirgin olduğuna dair herhangi bir sezgi var mı ?
  2. Ayrıca literatürden olduğunda yüksek boyutlu regresyon problemi karmaşıklaşmaktadır logpn. Neden böyle?
  3. p ve n birbirleriyle karşılaştırıldığında ne kadar hızlı büyümesi gerektiği konusunu tartışan iyi bir referans var mı ?

2
1. logp terimi (Gauss) ölçüm konsantrasyonundan gelir. Özellikle,pIID Gauss rasgele değişkenleriniz varsa, maksimumlarıσ düzenindedir.yüksek olasılıkla log p . N - 1 faktör sadece ortalama tahmin hatası bakıyoruz gerçeğini geliyor - yani, bu maçların - 1 diğer tarafta - Eğer toplam hata baktığınızda, orada olmazdı. σlogpn1n1
mweylandt

1
2. Esasen kontrol etmeniz gereken iki gücünüz vardır: i) daha fazla veriye sahip olmanın iyi özellikleri ( büyük olmasını istiyoruz ); ii) zorluklar daha fazla (alakasız) özelliklere sahiptir ( p'nin küçük olmasını isteriz ). Klasik istatistik, biz genellikle düzeltmek p ve izin n sonsuza gidin: yapım düşük boyutlu rejimde olduğu için bu rejim yüksek boyutlu teorisi için süper kullanışlı değildir. Alternatif olarak, p'nin sonsuza ve n'nin sabit kalmasına izin verebiliriz , ama sonra hatamız patlar ve sonsuza gider. nppnpn
mweylandt

1
Bu nedenle, her ikisini de sonsuzluğa gideceğini düşünmeliyiz , böylece teorimiz kıyametsiz (sonsuz özellikler, sonlu veriler) olmaksızın hem alakalı (yüksek boyutlu kalır). İki "topuza" sahip olmak genellikle tek bir topuza sahip olmaktan daha zordur, bu nedenle bazı f için p = f ( n ) düzeltiriz ve n sonsuza kadar gider (ve dolaylı olarak p ). F seçimi sorunun davranışını belirler. Birinci çeyreğe cevabımdaki nedenlerden dolayı, ekstra özelliklerden gelen "kötülük" sadece log p olarak büyürken , ekstra verilerden gelen "iyilik" n olarak büyür .n,pp=f(n)fnpflogpn
mweylandt

1
Bu nedenle, eğer kalır sabiti (eşit biçimde, s = f ( n ) = Θ ( Cı- n ) bazıları için C ), biz su sırt. Eğer log p / n 0 ise ( p = o ( C n ) ) asemptotik olarak sıfır hataya ulaşırız. Ve eğer log p / n ( p = ω ( C n )logp/np=f(n)=Θ(Cn)Clogp/n0p=o(Cn)logp/np=ω(Cn)), hata sonunda sonsuza gider. Bu son rejime bazen literatürde "ultra yüksek boyutlu" denir. Umutsuz değil (yakın olmasına rağmen), ancak hatayı kontrol etmek için sadece Gauss'lu basit bir maksimumdan çok daha karmaşık teknikler gerektirir. Bu karmaşık teknikleri kullanma ihtiyacı, not ettiğiniz karmaşıklığın nihai kaynağıdır.
mweylandt

@mweylandt Teşekkürler, bu yorumlar gerçekten kullanışlıdır. Onları resmi bir cevaba çevirebilir misiniz, böylece daha tutarlı bir şekilde okuyabilir ve sizi oylayabilir miyim?
Greenparker

Yanıtlar:


17

(@Greenparker tarafından istendiği şekilde yorumlardan yanıtlara taşındı)

Bölüm 1)

terimi (Gauss) ölçüm konsantrasyonundan gelir. Özellikle,pIID Gauss rasgele değişkenleriniz [F1] varsa, bunların maksimum değerleriσ düzenindedir.logppyüksek olasılıkla log p .σlogp

faktör sadece ortalama tahmin hatası bakıyoruz gerçeğini geliyor - yani, bu maçları n - 1 diğer tarafta - Eğer toplam hata baktığınızda, orada olmazdı.n1n1

Bölüm 2)

Esasen, kontrol etmeniz gereken iki gücünüz var:

  • i) daha fazla veriye sahip olmanın iyi özellikleri ( büyük olmasını istiyoruz );n
  • ii) zorlukların daha fazla (alakasız) özelliği olması ( küçük olmasını istiyoruz ).p

Klasik istatistiklerde, tipik olarak düzeltiriz ve n sonsuza kadar bırakalım : bu rejim, yüksek boyutlu teori için süper yararlı değildir, çünkü (asimptotik olarak) düşük boyutlu rejimde inşa edilir .pn

Alternatif olarak, sonsuzluğa gitmesine izin verebiliriz ve n sabit kalır, ancak sorun esasen imkansız hale geldiğinden hatamız patlar. Soruna bağlı olarak, hata sonsuza gidebilir veya bazı doğal üst sınırda durabilir ( örn .% 100 yanlış sınıflandırma hatası).pn

Bu durumların her ikisi de biraz işe yaramaz olduğundan, bunun yerine her ikisini de sonsuzluğa gideceğini düşünüyoruz , böylece teorimiz kıyametsiz (sonsuz özellikler, sonlu veriler) olmaksızın hem alakalı (yüksek boyutlu kalır).n,p

Biz düzeltmek böylece, genel olarak sert, tek bir düğmeye sahip iki "düğme" olduğu sahip bir sabit, f ve izin n sonsuza gidin (ve dolayısıyla s dolaylı sonsuza gider). [F2] seçim f problemin davranışını belirler. Bölüm 1'e cevabımdaki nedenlerden dolayı, ekstra özelliklerden "kötülük" sadece log p olarak büyürken , ekstra verilerden "iyilik" n olarak büyür .p=f(n)fnpflogpn

  • Eğer kalır sabiti (eşit biçimde,s=f(n)=Θ(Cı-n)bazıları içinC), biz su basmak ve problem (hata kalır asimptotik sabit) bir yıkama olduğu;logpnp=f(n)=Θ(Cn)C
  • eğer (s=O(Cı-n)) biz asimptotik sıfır hata elde edilmesi;logpn0p=o(Cn)
  • ve eğer (p=ω(Cn)), hata sonunda sonsuza gider.logpnp=ω(Cn)

Bu son rejime bazen literatürde "ultra yüksek boyutlu" denir. "Ultra yüksek boyutlu" terimi bildiğim kadarıyla titiz bir tanıma sahip değil, ama gayri resmi olarak sadece "kement ve benzer tahmincileri kıran rejim".

Bunu oldukça idealize edilmiş koşullar altında küçük bir simülasyon çalışması ile gösterebiliriz. Burada optimal seçimine teorik rehberlik almak [BRT09] den ve almak λ = 3 λ .λ=3log(p)/n

İlk önce bir durumu düşünün . Bu, yukarıda açıklanan 'izlenebilir' yüksek boyutlu rejimdedir ve teorinin öngördüğü gibi, tahmin hatasının sıfıra yaklaştığını görüyoruz:p=f(n)=3n

High-Dimensional Asymptotics

Çoğaltılacak kod:

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

Bunu log p'nin bulunduğu durumla karşılaştırabiliriz. yaklaşık olarak sabit kalır: Ben buna "borderline" ultra yüksek boyutlu rejim diyorum, ama bu standart bir terim değil:logpn

P <- 10 + ceiling(exp(N/120))

Burada tahmin hatası (yukarıdakiyle aynı tasarımı kullanarak) sıfıra devam etmek yerine azalıyor.

Borderline Ultra High Dimensional Asyptotics

Penen2en2

P <- 10 + ceiling(exp(N^(1.03)/120))

Ultra-High Dimensional Asymptotics

Xen1.5

Yukarıda söylediklerime ve nasıl görünebileceğine rağmen, ultra yüksek boyutlu rejim aslında tamamen umutsuz değil (yakın olmasına rağmen), ancak hatayı kontrol etmek için sadece Gauss rasgele değişkenlerinin basit bir maksimumundan çok daha karmaşık teknikler gerektirir. Bu karmaşık teknikleri kullanma ihtiyacı, not ettiğiniz karmaşıklığın nihai kaynağıdır.

p,np=f(n)

Bölüm 3)

logpn

n,pn,p

Eğer araştırma literatürünü araştırmak için rahat ve istekli iseniz, Jianqing Fan ve Jinchi Lv'in ultra yüksek boyutlu problemler üzerine temel çalışmalarının çoğunu yapmış olan eserlere bakardım. ("Tarama", arama yapmak için iyi bir terimdir)

[F1] Aslında, herhangi bir subgaussian rastgele değişken, ama bu tartışmaya o kadar fazla katkıda bulunmaz.

sns=g(n)

[F3] T. Hastie, R. Tibshirani ve M. Wainwright. Seyreklik ile İstatistiksel Öğrenme. İstatistikler ve Uygulamalı Olasılık 143 Monografları. CRC Press, 2015. https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf adresinden ücretsiz olarak indirilebilir.

[BRT] Peter J. Bickel, Ya'acov Ritov ve Alexandre B. Tsybakov. "Kement ve Dantzig Seçicisinin Eşzamanlı Analizi." Yıllık İstatistikler 37 (4), s. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620


1
logp/n

Tabii - "su üzerinde yürümek" dinamiklerini netleştirmek için küçük bir simülasyon çalışması ekledim. Asimptotik dinamikler açısından, sabitin ne olduğu önemli değildir, ancak hata bu sabitle orantılı olacaktır, bu yüzden elbette daha küçük ceteris paribus (daha fazlasına sahip olmakla eşdeğer)nki bu her zaman iyi bir şeydir).
mweylandt
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.