Hangi modeller için MLE'nin sapması varyanstan daha hızlı düşer?


14

Izin vermek bir maksimum bir gerçek parametrenin maksimum olasılık tahmini olabilir bazı model. Veri noktası sayısı arttıkça, genellikle O (1 / \ sqrt n) olarak azalır . Üçgen eşitsizliğini ve beklentinin özelliklerini kullanarak, bu hata oranının hem "yanlılık" \ lVert \ mathbb E \ hat \ theta - \ theta ^ * \ rVert ve "sapma" \ lVert \ mathbb E anlamına geldiğini göstermek mümkündür. \ hat \ theta - \ hat \ theta \ rAynı O'da azalma (1 / \ sqrt {n})θ^θnθ^θO(1/n)Eθ^θEθ^θ^O(1/n)oranı. Elbette, modellerin daha hızlı küçülen önyargıya sahip olması mümkündür. Birçok modelin (oridinary en küçük kareler regresyonu gibi) yanlılığı yoktur.

O (1 / \ sqrt n) daha hızlı küçülen önyargıları olan modeller ile ilgileniyorum O(1/n), ancak sapma hala O (1 / \ sqrt n) küçülür çünkü hata bu daha hızlı oranda küçülmezO(1/n) . Özellikle, bir modelin önyargısının O (1 / n) oranında küçülmesi için yeterli koşulları bilmek istiyorum O(1/n).


Mu θ^θ=(θ^θ)2 ? Veya?
Alecos Papadopoulos

Özellikle L2 normunu soruyordum, evet. Ancak, soruyu cevaplamayı kolaylaştırırsa diğer normlarla da ilgilenirim.
Mike Izbicki

(θ^θ)2 , Op(1/n) .
Alecos Papadopoulos

Üzgünüm, yorumunu yanlış okudum. boyutlarındaki L2 normu için ve dolayısıyla yakınsama . Karesini alırsak, olarak yakınsak olacağını kabul ediyorum . dab=i=1d(aibi)2O(1/n)O(1/n)
Mike Izbicki

Sırt regresyonu (Hoerl & Kennard 1970) belgesini gördünüz mü? Bunun tasarım matrisi + bunun doğru olması beklenen ceza üzerinde koşullar verdiğine inanıyorum.
dcl

Yanıtlar:


5

Genel olarak, MLE'nin asemptotik olarak normal olmadığı, ancak başka bir dağıtımla birleştiği (ve bunu daha hızlı bir oranda) modellere ihtiyacınız vardır. Bu genellikle tahmin altındaki parametre parametre alanının sınırında olduğunda olur. Sezgisel olarak, bu, MLE'nin "sadece bir taraftan" parametresine yaklaşacağı anlamına gelir, bu nedenle parametre etrafında "ileri ve geri" giderek "dikkat dağılması" olmadığı için "yakınsama hızını" iyileştirir.

Standart bir örnek, üniforma rv'nin bir iid örneğinde için MLE'dir Burada MLE, maksimum sipariş istatistiğidir,θU(0,θ)

θ^n=u(n)

Sonlu örnek dağılımı

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

E(θ^n)=nn+1θB(θ^)=1n+1θ

Bu nedenle . Ancak aynı artış oranı varyans için de geçerli olacaktır.B(θ^n)=O(1/n)

Sınırlayıcı bir dağılım elde etmek için değişkenine bakmamız gerektiğini de doğrulayabiliriz (yani ile ölçeklendirmemiz gerekir )n(θθ^n)n

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1ez/θ

Üstel dağılımın CDF'si.

Umarım bu bir yön sağlar.


Bu yaklaşıyor, ancak özellikle önyargının varyanstan daha hızlı küçüldüğü durumlarla ilgileniyorum.
Mike Izbicki

2
@MikeIzbicki Hmm ... sapma yakınsaması dağılımın ilk anına bağlıdır ve varyansın (kare kökü) de bir "birinci dereceden" büyüklüktür. O zaman bunun mümkün olabileceğinden emin değilim, çünkü sınırlama dağılımının anlarının birbiriyle uyumlu olmayan yakınsama hızlarında "ortaya çıktığı" ima edileceği anlaşılıyor ... Yine de düşüneceğim.
Alecos Papadopoulos

2

Diğer cevabımdaki yorumlardan sonra (ve OP'nin sorusunun başlığına tekrar bakın!), Burada sorunun çok titiz bir teorik araştırması yok.

Önyargı Varyansın karekökünden farklı yakınsama hızına sahip olup olmadığını belirlemek istiyoruz ,B(θ^n)=E(θ^n)θ

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

Sahibiz

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

(1)[E(θ^n)]2=O(1/n2δ)

süre

Var(θ^n)=O(1/nγ)limnγE(θ^n2)[E(θ^n)]2<M

limn2γE(θ^n2)n2γ[E(θ^n)]2<M

(2)limn2γE(θ^n2)limn2γ[E(θ^n)]2<M

Biz görüyoruz durumunda ne tutabilir (2)

A) her iki bileşen de , bu durumda sadece . O(1/n2γ)γ=δ

B) Ama aynı zamanda

(3)limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)

İçin ile uyumlu olacak şekilde , biz sahip olmalıdır(3)(1)

(4)n2γ<n2δδ>γ

Bu yüzden, prensip olarak, Sapmanın varyansın kare kökünden daha hızlı bir oranda birleşmesi mümkün görünmektedir. Ancak varyansın kareköküne Önyargıdan daha hızlı bir oranda yaklaşamayız.


Bunu sıradan en küçük kareler gibi tarafsız tahmin edicilerin varlığıyla nasıl uzlaştırırsınız? Bu durumda, , ancak . B(θ^)=0Var(θ^)=O(1/n)
Mike Izbicki

@MikeIzbicki Yakınsama / big-O kavramı bu durumda uygulanabilir mi? Çünkü burada ile başlamak için " -her şey" değildir . B(θ^)O()
Alecos Papadopoulos

Bu durumda, , dolayısıyla . Eθ^=θB(θ^)=Eθ^θ=0=O(1)=O(1/n0)
Mike Izbicki

@MikeIzbicki Ama ayrıca veya ya da yazmayı düşündüğünüz herhangi bir şey. Peki burada hangisi yakınsama oranı? B(θ^)=O(n)B(θ^)=O(1/n)
Alecos Papadopoulos

@MikeIzbicki Cevabımı, "sıfır yanlılık" örneğinin sorunlu olduğunu düşünsem de, prensipte Bias'ın daha hızlı yakınlaşmasının mümkün olduğunu göstermek için düzelttim.
Alecos Papadopoulos
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.