Yüksek boyutlu regresyon:

Yüksek boyutlu regresyon alanındaki araştırmaları okumaya çalışıyorum; zaman $p$ daha büyüktür $n$ , o, bir $p >> n$ . Görünüşe göre $\log p/n$ terimi, regresyon tahmin edicileri için yakınsama oranı açısından sıkça görülmektedir.

Örneğin, burada , denklem (17) der kement uyum $\hat{\beta}$ tatmin

\frac{1}{n} ‖ X \hat{β} - X β ‖_{2}^{2} = O_{P} (σ \sqrt{\frac{\log p}{n}} ‖ β ‖_{1}) .

$\dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,.$

Genellikle bu, $\log p$ küçük olması gerektiği anlamına da gelir . $n$

Bu oranının neden bu $\log p/n$ kadar belirgin olduğuna dair herhangi bir sezgi var mı ?
Ayrıca literatürden olduğunda yüksek boyutlu regresyon problemi karmaşıklaşmaktadır $\log p \geq n$ . Neden böyle?
$p$ ve $n$ birbirleriyle karşılaştırıldığında ne kadar hızlı büyümesi gerektiği konusunu tartışan iyi bir referans var mı ?

— Greenparker
kaynak

\sqrt{\log p}

$\sqrt{\log p}$ terimi (Gauss) ölçüm konsantrasyonundan gelir. Özellikle,

p

$p$ IID Gauss rasgele değişkenleriniz varsa, maksimumları

düzenindedir.

yüksek olasılıkla

faktör sadece ortalama tahmin hatası bakıyoruz gerçeğini geliyor - yani, bu maçları

diğer tarafta - Eğer toplam hata baktığınızda, orada olmazdı.

σ \sqrt{\log p}

$\sigma \sqrt{\log p}$

n^{- 1}

$n^{-1}$

n^{- 1}

$n^{-1}$

— mweylandt

2. Esasen kontrol etmeniz gereken iki gücünüz vardır: i) daha fazla veriye sahip olmanın iyi özellikleri (

büyük olmasını istiyoruz ); ii) zorluklar daha fazla (alakasız) özelliklere sahiptir (

küçük olmasını isteriz ). Klasik istatistik, biz genellikle düzeltmek

ve izin

sonsuza gidin: yapım düşük boyutlu rejimde olduğu için bu rejim yüksek boyutlu teorisi için süper kullanışlı değildir. Alternatif olarak,

sonsuza ve

sabit kalmasına izin verebiliriz , ama sonra hatamız patlar ve sonsuza gider.

n

$n$

p

$p$

p

$p$

n

$n$

p

$p$

n

$n$

— mweylandt

Bu nedenle,

her ikisini de sonsuzluğa gideceğini düşünmeliyiz

böylece teorimiz kıyametsiz (sonsuz özellikler, sonlu veriler) olmaksızın hem alakalı (yüksek boyutlu kalır). İki "topuza" sahip olmak genellikle tek bir topuza sahip olmaktan daha zordur, bu nedenle bazı

için

düzeltiriz ve

sonsuza kadar gider (ve dolaylı olarak

seçimi sorunun davranışını belirler. Birinci çeyreğe cevabımdaki nedenlerden dolayı, ekstra özelliklerden gelen "kötülük" sadece

olarak büyürken , ekstra verilerden gelen "iyilik"

olarak büyür .

n, p

$n, p$

p = f (n)

$p = f(n)$

f

$f$

n

$n$

p

$p$

f

$f$

\log p

$\log p$

n

$n$

— mweylandt

Bu nedenle, eğer

kalır sabiti (eşit biçimde,

bazıları için

), biz su sırt. Eğer

(

) asemptotik olarak sıfır hataya ulaşırız. Ve eğer

(

\log p / n

$\log p / n$

p = f (n) = Θ (C^{n})

$p = f(n) = \Theta(C^n)$

C

$C$

\log p / n \to 0

$\log p / n \to 0$

p = o (C^{n})

$p = o(C^n)$

\log p / n \to \infty

$\log p / n \to \infty$

p = ω (C^{n})

$p = \omega(C^n)$ ), hata sonunda sonsuza gider. Bu son rejime bazen literatürde "ultra yüksek boyutlu" denir. Umutsuz değil (yakın olmasına rağmen), ancak hatayı kontrol etmek için sadece Gauss'lu basit bir maksimumdan çok daha karmaşık teknikler gerektirir. Bu karmaşık teknikleri kullanma ihtiyacı, not ettiğiniz karmaşıklığın nihai kaynağıdır.

— mweylandt

@mweylandt Teşekkürler, bu yorumlar gerçekten kullanışlıdır. Onları resmi bir cevaba çevirebilir misiniz, böylece daha tutarlı bir şekilde okuyabilir ve sizi oylayabilir miyim?

— Greenparker

(@Greenparker tarafından istendiği şekilde yorumlardan yanıtlara taşındı)

Bölüm 1)

terimi (Gauss) ölçüm konsantrasyonundan gelir. Özellikle,IID Gauss rasgele değişkenleriniz [F1] varsa, bunların maksimum değerleri düzenindedir. $\sqrt{\log p}$ $p$ yüksek olasılıkla . $\sigma\sqrt{\log p}$

faktör sadece ortalama tahmin hatası bakıyoruz gerçeğini geliyor - yani, bu maçları diğer tarafta - Eğer toplam hata baktığınızda, orada olmazdı. $n^{-1}$ $n^{-1}$

Bölüm 2)

Esasen, kontrol etmeniz gereken iki gücünüz var:

i) daha fazla veriye sahip olmanın iyi özellikleri ( büyük olmasını istiyoruz ); $n$
ii) zorlukların daha fazla (alakasız) özelliği olması ( küçük olmasını istiyoruz ). $p$

Klasik istatistiklerde, tipik olarak düzeltiriz ve sonsuza kadar bırakalım : bu rejim, yüksek boyutlu teori için süper yararlı değildir, çünkü (asimptotik olarak) düşük boyutlu rejimde inşa edilir . $p$ $n$

Alternatif olarak, sonsuzluğa gitmesine izin verebiliriz ve sabit kalır, ancak sorun esasen imkansız hale geldiğinden hatamız patlar. Soruna bağlı olarak, hata sonsuza gidebilir veya bazı doğal üst sınırda durabilir ( örn .% 100 yanlış sınıflandırma hatası). $p$ $n$

Bu durumların her ikisi de biraz işe yaramaz olduğundan, bunun yerine her ikisini de sonsuzluğa gideceğini düşünüyoruz böylece teorimiz kıyametsiz (sonsuz özellikler, sonlu veriler) olmaksızın hem alakalı (yüksek boyutlu kalır). $n, p$

Biz düzeltmek böylece, genel olarak sert, tek bir düğmeye sahip iki "düğme" olduğu sahip bir sabit, ve izin sonsuza gidin (ve dolayısıyla dolaylı sonsuza gider). [F2] seçim problemin davranışını belirler. Bölüm 1'e cevabımdaki nedenlerden dolayı, ekstra özelliklerden "kötülük" sadece olarak büyürken , ekstra verilerden "iyilik" olarak büyür . $p=f(n)$ $f$ $n$ $p$ $f$ $\log p$ $n$

Eğer kalır sabiti (eşit biçimde,bazıları için), biz su basmak ve problem (hata kalır asimptotik sabit) bir yıkama olduğu; $\frac{\log p}{n}$ $p=f(n)=Θ(C^n)$ $C$
eğer () biz asimptotik sıfır hata elde edilmesi; $\frac{\log p}{n} \to 0$ $p=o(C^n)$
ve eğer (), hata sonunda sonsuza gider. $\frac{\log p}{n}→\infty$ $p=\omega(C^n)$

Bu son rejime bazen literatürde "ultra yüksek boyutlu" denir. "Ultra yüksek boyutlu" terimi bildiğim kadarıyla titiz bir tanıma sahip değil, ama gayri resmi olarak sadece "kement ve benzer tahmincileri kıran rejim".

Bunu oldukça idealize edilmiş koşullar altında küçük bir simülasyon çalışması ile gösterebiliriz. Burada optimal seçimine teorik rehberlik almak [BRT09] den ve almak $\lambda$ . $\lambda = 3 \sqrt{\log(p)/n}$

İlk önce bir durumu düşünün . Bu, yukarıda açıklanan 'izlenebilir' yüksek boyutlu rejimdedir ve teorinin öngördüğü gibi, tahmin hatasının sıfıra yaklaştığını görüyoruz: $p = f(n) = 3n$

Çoğaltılacak kod:

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

Bunu bulunduğu durumla karşılaştırabiliriz. yaklaşık olarak sabit kalır: Ben buna "borderline" ultra yüksek boyutlu rejim diyorum, ama bu standart bir terim değil: $\frac{\log p}{n}$

P <- 10 + ceiling(exp(N/120))

Burada tahmin hatası (yukarıdakiyle aynı tasarımı kullanarak) sıfıra devam etmek yerine azalıyor.

$P$ $e^n$ $e^{n^2}$ $e^{n^2}$

P <- 10 + ceiling(exp(N^(1.03)/120))

$X$ $e^{n^1.5}$

Yukarıda söylediklerime ve nasıl görünebileceğine rağmen, ultra yüksek boyutlu rejim aslında tamamen umutsuz değil (yakın olmasına rağmen), ancak hatayı kontrol etmek için sadece Gauss rasgele değişkenlerinin basit bir maksimumundan çok daha karmaşık teknikler gerektirir. Bu karmaşık teknikleri kullanma ihtiyacı, not ettiğiniz karmaşıklığın nihai kaynağıdır.

$p, n$ $p = f(n)$

Bölüm 3)

$\log p$ $n$

$n, p$ $n, p$

Eğer araştırma literatürünü araştırmak için rahat ve istekli iseniz, Jianqing Fan ve Jinchi Lv'in ultra yüksek boyutlu problemler üzerine temel çalışmalarının çoğunu yapmış olan eserlere bakardım. ("Tarama", arama yapmak için iyi bir terimdir)

[F1] Aslında, herhangi bir subgaussian rastgele değişken, ama bu tartışmaya o kadar fazla katkıda bulunmaz.

$s$ $n$ $s = g(n)$

[F3] T. Hastie, R. Tibshirani ve M. Wainwright. Seyreklik ile İstatistiksel Öğrenme. İstatistikler ve Uygulamalı Olasılık 143 Monografları. CRC Press, 2015. https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf adresinden ücretsiz olarak indirilebilir.

[BRT] Peter J. Bickel, Ya'acov Ritov ve Alexandre B. Tsybakov. "Kement ve Dantzig Seçicisinin Eşzamanlı Analizi." Yıllık İstatistikler 37 (4), s. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620

— mweylandt
kaynak

\log p / n

$\log p/n$

Tabii - "su üzerinde yürümek" dinamiklerini netleştirmek için küçük bir simülasyon çalışması ekledim. Asimptotik dinamikler açısından, sabitin ne olduğu önemli değildir, ancak hata bu sabitle orantılı olacaktır, bu yüzden elbette daha küçük ceteris paribus (daha fazlasına sahip olmakla eşdeğer)

n

$n$ ki bu her zaman iyi bir şeydir).

— mweylandt