(@Greenparker tarafından istendiği şekilde yorumlardan yanıtlara taşındı)
Bölüm 1)
terimi (Gauss) ölçüm konsantrasyonundan gelir. Özellikle,pIID Gauss rasgele değişkenleriniz [F1] varsa, bunların maksimum değerleriσ √ düzenindedir.logp−−−−√pyüksek olasılıkla log p .σlogp−−−−√
faktör sadece ortalama tahmin hatası bakıyoruz gerçeğini geliyor - yani, bu maçları n - 1 diğer tarafta - Eğer toplam hata baktığınızda, orada olmazdı.n−1n−1
Bölüm 2)
Esasen, kontrol etmeniz gereken iki gücünüz var:
- i) daha fazla veriye sahip olmanın iyi özellikleri ( büyük olmasını istiyoruz );n
- ii) zorlukların daha fazla (alakasız) özelliği olması ( küçük olmasını istiyoruz ).p
Klasik istatistiklerde, tipik olarak düzeltiriz ve n sonsuza kadar bırakalım : bu rejim, yüksek boyutlu teori için süper yararlı değildir, çünkü (asimptotik olarak) düşük boyutlu rejimde inşa edilir .pn
Alternatif olarak, sonsuzluğa gitmesine izin verebiliriz ve n sabit kalır, ancak sorun esasen imkansız hale geldiğinden hatamız patlar. Soruna bağlı olarak, hata sonsuza gidebilir veya bazı doğal üst sınırda durabilir ( örn .% 100 yanlış sınıflandırma hatası).pn
Bu durumların her ikisi de biraz işe yaramaz olduğundan, bunun yerine her ikisini de sonsuzluğa gideceğini düşünüyoruz , böylece teorimiz kıyametsiz (sonsuz özellikler, sonlu veriler) olmaksızın hem alakalı (yüksek boyutlu kalır).n,p
Biz düzeltmek böylece, genel olarak sert, tek bir düğmeye sahip iki "düğme" olduğu sahip bir sabit, f ve izin n sonsuza gidin (ve dolayısıyla s dolaylı sonsuza gider). [F2] seçim f problemin davranışını belirler. Bölüm 1'e cevabımdaki nedenlerden dolayı, ekstra özelliklerden "kötülük" sadece log p olarak büyürken , ekstra verilerden "iyilik" n olarak büyür .p=f(n)fnpflogpn
- Eğer kalır sabiti (eşit biçimde,s=f(n)=Θ(Cı-n)bazıları içinC), biz su basmak ve problem (hata kalır asimptotik sabit) bir yıkama olduğu;logpnp=f(n)=Θ(Cn)C
- eğer (s=O(Cı-n)) biz asimptotik sıfır hata elde edilmesi;logpn→0p=o(Cn)
- ve eğer (p=ω(Cn)), hata sonunda sonsuza gider.logpn→∞p=ω(Cn)
Bu son rejime bazen literatürde "ultra yüksek boyutlu" denir. "Ultra yüksek boyutlu" terimi bildiğim kadarıyla titiz bir tanıma sahip değil, ama gayri resmi olarak sadece "kement ve benzer tahmincileri kıran rejim".
Bunu oldukça idealize edilmiş koşullar altında küçük bir simülasyon çalışması ile gösterebiliriz. Burada optimal seçimine teorik rehberlik almak [BRT09] den ve almak λ = 3 √λ .λ=3log(p)/n−−−−−−−√
İlk önce bir durumu düşünün . Bu, yukarıda açıklanan 'izlenebilir' yüksek boyutlu rejimdedir ve teorinin öngördüğü gibi, tahmin hatasının sıfıra yaklaştığını görüyoruz:p=f(n)=3n
Çoğaltılacak kod:
library(glmnet)
library(ggplot2)
# Standard High-Dimensional Asymptotics: log(p) / n -> 0
N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N
ERROR_HD <- data.frame()
for(ix in seq_along(N)){
n <- N[ix]
p <- P[ix]
PMSE <- replicate(20, {
X <- matrix(rnorm(n * p), ncol=p)
beta <- rep(0, p)
beta[1:10] <- runif(10, 2, 3)
y <- X %*% beta + rnorm(n)
g <- glmnet(X, y)
## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009.
## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n}
## is good scaling for controlling prediction error of the lasso
err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
mean(err^2)
})
ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}
ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() +
xlab("Number of Samples (n)") +
ylab("Mean Prediction Error (at observed design points)") +
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") +
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) +
scale_y_log10()
Bunu log p'nin bulunduğu durumla karşılaştırabiliriz. yaklaşık olarak sabit kalır: Ben buna "borderline" ultra yüksek boyutlu rejim diyorum, ama bu standart bir terim değil:logpn
P <- 10 + ceiling(exp(N/120))
Burada tahmin hatası (yukarıdakiyle aynı tasarımı kullanarak) sıfıra devam etmek yerine azalıyor.
Penen2en2
P <- 10 + ceiling(exp(N^(1.03)/120))
Xen1.5
Yukarıda söylediklerime ve nasıl görünebileceğine rağmen, ultra yüksek boyutlu rejim aslında tamamen umutsuz değil (yakın olmasına rağmen), ancak hatayı kontrol etmek için sadece Gauss rasgele değişkenlerinin basit bir maksimumundan çok daha karmaşık teknikler gerektirir. Bu karmaşık teknikleri kullanma ihtiyacı, not ettiğiniz karmaşıklığın nihai kaynağıdır.
p,np=f(n)
Bölüm 3)
logpn
n,pn,p
Eğer araştırma literatürünü araştırmak için rahat ve istekli iseniz, Jianqing Fan ve Jinchi Lv'in ultra yüksek boyutlu problemler üzerine temel çalışmalarının çoğunu yapmış olan eserlere bakardım. ("Tarama", arama yapmak için iyi bir terimdir)
[F1] Aslında, herhangi bir subgaussian rastgele değişken, ama bu tartışmaya o kadar fazla katkıda bulunmaz.
sns=g(n)
[F3] T. Hastie, R. Tibshirani ve M. Wainwright. Seyreklik ile İstatistiksel Öğrenme. İstatistikler ve Uygulamalı Olasılık 143 Monografları. CRC Press, 2015. https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf adresinden ücretsiz olarak indirilebilir.
[BRT] Peter J. Bickel, Ya'acov Ritov ve Alexandre B. Tsybakov. "Kement ve Dantzig Seçicisinin Eşzamanlı Analizi." Yıllık İstatistikler 37 (4), s. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620