İşte bir ayrımcılık probleminde boyutun etkisini gösteren basit bir oyuncak örneği; örneğin, bir şey gözlemlenip söylenmediğini veya yalnızca rastgele etki gözlenip kirlenmediğini söylemek istediğinizde karşılaştığınız problem (bilimde klasiktir).
Sezgisel. Buradaki kilit husus, Öklid normunun herhangi bir yöne aynı önemi vermesidir. Bu, önceden bir eksikliktir ve kesinlikle yüksek boyutta bildiğiniz gibi ücretsiz öğle yemeği yoktur (yani, aradığınız şey hakkında önceden bir fikriniz yoksa, o zaman bazı gürültülerinizin sizin gibi görünmemesi için hiçbir neden yoktur) aranıyor, bu tautology ...).
Herhangi bir problem için gürültüden başka bir şey bulmak için gerekli olan bilgi sınırının olduğunu söyleyebilirim. Bu sınır, bir şekilde “gürültü” seviyesine (yani bilgi vermeyen içeriğin seviyesi) ilişkin araştırmaya çalıştığınız alanın “boyutu” ile ilişkilidir.
Yüksek boyutta, sinyalinizin seyrek olması önceliğine sahipseniz, o zaman seyrek vektörle veya bir eşikleme tekniği kullanarak alanı dolduran bir metrik ile seyrek olmayan vektörü kaldırabilirsiniz (yani cezalandırır).
Çerçeve varsayın ortalama bir Gauss vektörü ν ve diyagonal kovaryans σ ben d ( σ bilinir) ile basit hipotezi test etmek istediğiniziξνσIdσ
(belirli bir için İçeride ISTV melerin RWMAIWi'nin ∈ R n ) θ mutlaka önceden bilinmemektedir.
H0:ν=0,VsHθ:ν=θ
θ∈Rnθ
Enerji ile istatistiği test edin . Kesinlikle var sezgi bu norm / enerji değerlendirmek için iyi bir fikir olduğudur size gözlemKarsılıkbir test istatistik oluşturmak için. Aslında merkezli standart bir gerçekleştirebilmesi altında (lH0versiyonu)TnenerjisiT, n=ΣiKarsılık 2 ı -σ2En=1n∑ni=1ξ2iξH0Tn . Bu,iyi seçilmiş birv1-αiçin{Tn≥v1-α}şeklindekiαdüzeyinde kritik bir bölge yapar.Tn= ∑benξ2ben- σ22 n σ4√α{ Tn≥ v1 - α}v1 - α
Testin gücü ve boyut. Bu durumda, testinizin gücü için aşağıdaki formülü göstermek kolay bir olasılık alıştırmasıdır:
ileZbir miktarNile Rasgele değişkenlerinE[Z]=0veV, birR(Z)=1.
Pθ( T≤ v1 - α) = P⎛⎝⎜Z≤ v1 - α1 + 2 ∥ θ ∥22/ (n σ2)-------------√- ∥ θ ∥222 n σ4+ 2 σ2∥ θ ∥22/ (n σ2)------------------√⎞⎠⎟
ZnE [Z] = 0Vbir r ( Z) = 1
Bu, testinizin gücünün sinyalinizin enerjisi ile arttırıldığı ve n azaldığı anlamına gelir . Pratik olarak bu boyut artırmak zaman anlamına gelir konuşan n aynı anda sinyal gücünü artırmak etmezse sorunun ardından Gözlemin için uninformative bilgiyi ekliyoruz (veya bilgilerinde yararlı bilgiler oranını azaltmaktadır sahipsin): Bu, gürültü eklemek gibidir ve testin gücünü azaltır (yani, aslında bir şey varken hiçbir şeyin gözlemlenmediğini söyleme olasılığınız daha yüksektir).∥ θ ∥22nn
Eşik istatistikli bir teste doğru. Sinyalinizde çok fazla enerji yoksa, ancak bu enerjinin sinyalinizin küçük bir bölümünde yoğunlaşmasına yardımcı olabilecek doğrusal bir dönüşüm biliyorsanız, o zaman enerjiyi yalnızca küçük olanlar için değerlendirecek bir test istatistiği oluşturabilirsiniz. sinyalin bir parçası. Nerede yoğunlaştığını önceden biliyorsanız (örneğin, sinyalinizde yüksek frekanslar olamayacağını biliyorsunuzdur), önceki testte yerine küçük bir sayı ve ‖ θ ‖ 2 2 kullanılmışsa bir güç elde edebilirsiniz . .. Bunu önceden bilmiyorsanız, bunun iyi bilinen eşikleme testlerine yol açtığını tahmin etmeniz gerekir.n∥ θ ∥22
Bu argümanın tam olarak kökündeymiş gibi birçok makalenin olduğunu unutmayın.
- Bir Antoniadis, F Abramovich, T Sapatinas ve B Vidakovic. Varyans modellerinin fonksiyonel analizinde test için dalgacık yöntemleri. Uluslararası Dalgacık Dalları Dergisi ve uygulamaları, 93: 1007–1021, 2004.
- MV Burnashef ve Begmatov. Sabit bir dağılıma yol açan bir sinyal algılama probleminde. Olasılık teorisi ve uygulamaları, 35 (3): 556-560, 1990.
- Y. Baraud. Sinyal tespitinde asimptotik olmayan minimax test oranı. Bernoulli, 8: 577-606, 2002.
- J Fan. Dalgacık eşiği ve Neyman'ın kısalmasına dayanan önem testi. JASA, 91: 674-688, 1996.
- J. Fan ve SK Lin. Veri eğrileri olduğunda önemlilik testi. JASA, 93: 1007-1021, 1998.
- V. Spokoiny. Dalgacık kullanarak uyarlamalı hipotez testi. İstatistik Annals, 24 (6): 2477-22498, Aralık 1996.