Maksimum Olabilirlik Tahmini - birçok durumda taraflı olmasına rağmen neden kullanılır?


25

Maksimum olabilirlik tahmini genellikle taraflı tahmin edicilere yol açar (örneğin, örnek varyans için olan tahmin Gauss dağılımı için önyargılıdır).

Sonra ne bu kadar popüler kılan? Tam olarak neden bu kadar çok kullanılıyor? Ayrıca, onu alternatif yaklaşımdan daha iyi yapan şey nedir?

Ayrıca, Gaussian için MLE tahmincisinin basit bir ölçeklemesinin onu tarafsız kıldığını fark ettim. Bu ölçeklendirme neden standart bir prosedür değil? Demek istediğim - Neden MLE hesaplamasından sonra, tahmin ediciyi tarafsız kılmak için gerekli ölçeklendirmeyi bulmak rutin değildir? Standart uygulama, MLE tahminlerinin basit bir şekilde hesaplanması gibi görünüyor; elbette, ölçeklendirme faktörünün iyi bilindiği iyi bilinen Gaussian durumu hariç.


11
Bu arada, ML'nin alternatif momentler üretme eğiliminde olan, sadece anların yöntemi değil, aynı zamanda taraflı tahmin ediciler üretme eğilimi de var. Bunun yerine sormak isteyebileceğiniz şey "neden birileri tarafsız bir tahminci kullanmak istesin ki?" Bu konuyu araştırmaya başlamanın iyi bir yolu, yanlılık varyansı değişiminin araştırılmasıdır .
whuber

7
Whuber'un işaret ettiği gibi, tarafsız olmanın içsel bir üstünlüğü yoktur.
Xi'an

4
Sanırım @whuber, "neden önyargılı bir tahminci kullanmak istesin ki ?" Anlamına geliyor. Birisini tarafsız bir tahmin edicinin makul biri olabileceğine ikna etmek çok fazla zaman almaz.
Cliff AB

5
Bkz en.wikipedia.org/wiki/... sadece tarafsız tahmincisi kesinlikle kullanmak isterdim biri olmayan bir örnek.
Scortchi - Monica'yı Yeniden Başlatın

4
@Cliff Soruyu daha kışkırtıcı, potansiyel olarak daha gizemli bir biçimde sormayı amaçladım. Bunun arkasını gizlemek, bir tahmincinin kalitesini değerlendirmek için pek çok yol olduğu ve çoğunun önyargı ile ilgisi olmadığı düşüncesidir. Bu açıdan, birisinin neden tarafsız bir tahminci önereceğini sormak en doğal olanıdır . Bu açıdan daha fazla bilgi için glen_b'in cevabına bakınız.
whuber

Yanıtlar:


18

Tarafsızlık mutlaka kendi başına önemli değildir.

Çok sınırlı bir koşul kümesinin yanı sıra, en faydalı tahmin ediciler önyargılıdır, ancak elde edilirler.

Eğer iki tahminci aynı varyansa sahipse, tarafsız bir kişiyi tarafsız bir kişiye tercih etmek için kolayca bir argüman kurabilir, ancak bu, içinde olması olağandışı bir durumdur (yani, makul olarak tarafsızlığı tercih edebilirsiniz, ceteris paribus - ama bu sinir bozucu ceteris neredeyse hiçbir zaman paribus değildir ).

Daha genel olarak, tarafsızlığı istiyorsanız, onu elde etmek için bazı değişiklikler ekleyeceksiniz ve o zaman soru neden bunu yapardınız ?

Önyargı, tahmin edicimin beklenen değerinin ortalama olarak çok yüksek olacağı (negatif önyargı çok düşük).

Küçük bir örnek tahmincisi göz önüne alındığında, bunu gerçekten umursamıyorum. Tahmin edicimin bu durumda ne kadar yanlış olacağına genellikle daha fazla ilgi duyuyorum - sağdan tipik mesafem ... bir kök-ortalama-kare hatası veya ortalama bir mutlak hata gibi bir şey daha anlamlı olur.

Bu nedenle, düşük varyans ve düşük önyargıdan hoşlanıyorsanız, minimum ortalama kare hata tahmincisi demek istemek mantıklı olacaktır; bunlar çok nadiren tarafsızdır.

Önyargı ve tarafsızlık, farkında olmak için faydalı bir kavramdır, ancak tahmin edicileri yalnızca aynı varyansla kıyaslamadıkça aramak, özellikle yararlı bir özellik değildir.

ML tahmin edicileri düşük varyans olma eğilimindedir; genellikle minimum MSE değildirler, ancak genellikle tarafsız olmalarını değiştirmekten daha düşük MSE'ye sahiptirler (ne zaman yapabilirsin).

σ^MMSE2=S2n+1,σ^MLE2=S2n,σ^Unb2=S2n1n1


1
+1. Son-paragraftan önceki ikinci paragrafınız için herhangi bir sezginiz var mı (veya arkasındaki teoriden bazıları)? ML tahminciler neden düşük varyans eğilimindedir? Neden genellikle tarafsız bir tahminciden daha düşük MSE'ye sahipler? Ayrıca, MMSE varyansı tahmincisi için ifadeyi gördüğüme şaşırdım; bir şekilde daha önce hiç karşılaşmadım. Neden bu kadar nadir kullanılır? Ve büzülme ile ilgisi var mı? Görünüşe göre sıfırdan sıfıra doğru "küçülmüş" görünüyor, ancak büzülmeyi sadece çok değişkenli bağlamda (James-Stein çizgileri boyunca) düşünmeye alışkın olduğum için kafam karıştı.
amip Reinstate Monica

1
amoeba MLE'ler genellikle yeterli istatistiklerin bir fonksiyonudur ve en azından asimptotik olarak en az varyansı yansızdır, bu nedenle bunların büyük numunelerde düşük varyans olmasını beklersiniz; bu genellikle daha küçük örneklere yansır.MMSE tahmin edilmektedir varyansı (ve tipik olarak MSE azaltacaktır küçük büzülmesinden ortaya 0 eğilimli dolayısıyla az miktarda) azalttığından, genel olarak sıfıra doğru daralmıştır.
Glen_b

σ^MMSE2=S2n+1

Ayrıca, bu varyansın ML tahmincisi minimum varyans tahmincisi değildir mi? Aksi halde, minimum MSE tahmincisi, MLE ve tarafsız tahmin edicinin ağırlıklı bir ortalamasıdır (pozitif ağırlıklarla), ancak şimdi bu aralığın dışında. Mantıklı olduğunu düşünüyorsanız bunu ayrı bir soru olarak sorabilirim.
Richard Hardy

1
MSE hakkında bir Vikipedi makalesinde bir türev bulundu , sanırım hepsini açıklar.
Richard Hardy

16

MLE , model ve eldeki veriler göz önüne alındığında model parametrelerinin en muhtemel değerini verir - ki bu oldukça çekici bir kavramdır. Verileri herhangi bir değer kümesi arasında en muhtemel gözlemlenen değerleri seçebiliyorken, gözlemlenen verileri daha az olası hale getiren parametre değerlerini neden seçtiniz ? Bu özelliği tarafsızlık için feda etmek ister misiniz? Cevabın her zaman net olduğunu söylemiyorum ama MLE'nin motivasyonu oldukça güçlü ve sezgisel.

Ayrıca, MLE, bildiğim kadarıyla, anların yönteminden daha yaygın olarak uygulanabilir. MLE gizli değişkenlerde daha doğal görünür; örneğin, hareketli bir ortalama (MA) modeli veya genelleştirilmiş bir otoregresif koşullu heteroskedasticity (GARCH) modeli, doğrudan MLE tarafından tahmin edilebilir (doğrudan demek istediğim, bir olasılık fonksiyonunu belirtip bir optimizasyon rutini için sunması yeterlidir) - ama Momentler metodu ile değil (Momentler metodunu kullanan dolaylı çözümler mevcut olsa da).


4
+1. Tabii ki, Gauss Karışımı Modelleri (örneğin sınırsız olabilirlik) gibi en olası tahminin yapılmasını istemediğiniz durumlar da vardır. Genel olarak, MLE'lerin sezgisine yardımcı olacak harika bir cevap.
Cliff AB

3
(+1) Ancak verilerin en açık olması muhtemel olduğu verilen "en muhtemel" parametre değerinin bir tanımını eklemeniz gerektiğini düşünüyorum. Tekrarlanan örneklemede uzun vadeli davranışıyla ilgili olmayan bir tahmincinin sezgisel olarak istenen özellikleri, bir modeli nasıl parametrelediğinize bağlı olmamasını ve gerçek parametre değerinin imkansız tahminlerini üretmemesini içerebilir .
Scortchi - Eski Monica

6
Hala "en muhtemel" olarak "en muhtemel" olarak okunma riski olduğunu düşünüyorum.
Scortchi - Eski Monica


2
@dsaxton: İstatistikciler ayırt edilmiştir olasılığını verileri verilen bir parametre değerinin olasılık yaklaşık bir yüzyıldır bir parametre değeri verilen verilerin - bkz "Bir korelasyonun 'muhtemel hata Üzerine" Fisher (1921), Metron , 1 , s. 3-32 ve Pawitan (2013), Her Olabilirlik Durumunda: İstatistiksel Modelleme ve Olabilirliği Kullanan Çıkarım - terimler sıradan kullanımda eşanlamlı olsa bile, şimdi itiraz etmek biraz geç görünüyor.
Scortchi - Eski Monica

12

Aslında, en çok olabilirlik ölçeklendirme tarafsız tahminleri elde etmek için tahmin olduğunu pek tahmin problemlerinin standart prosedür. Bunun nedeni, farenin yeterli istatistiklerin bir fonksiyonudur ve Rao-Blackwell teoremi tarafından, eğer yeterli istatistiklere dayanan tarafsız bir tahminci bulabilirseniz, o zaman Minimum Varyansa Özel Olmayan Tahmincisine sahip olursunuz.

Sorunuzun bundan daha genel olduğunu biliyorum ama vurgulamak istediğim şey, temel kavramların buna dayalı olasılık ve tahminlerle yakından ilgili olduğudur. Bu tahminler sonlu örneklerde tarafsız olmayabilir, ancak bunlar asimptotik olarak öyledirler ve ayrıca asimptotik olarak verimlidirler, yani her zaman MOM tahmin edicileri için geçerli olmayabilir, tarafsız tahmin ediciler için varyansa bağlı Cramer-Rao varyansı elde ederler.


11

MLE'nin neden bu kadar popüler olduğu sorunuzu yanıtlamak için, önyargılı olabilmesine rağmen, standart koşullar altında tutarlı olduğunu düşünün. Ek olarak, asimptotik olarak verimlidir, bu nedenle en azından büyük numuneler için, MLE'nin pişirebileceğiniz diğer tahmin ediciler kadar iyi veya daha iyi yapması muhtemeldir. Son olarak, MLE basit bir tarifle bulunur; olabilirlik fonksiyonunu al ve maksimize et. Bazı durumlarda, bu tarifi takip etmek zor olabilir, ancak çoğu sorun için değildir. Artı, bu tahminde bulunduktan sonra, Fisher'ın bilgilerini kullanarak asimptotik standart hataları derhal türetebiliriz. Fisher'ın bilgilerini kullanmadan , hata sınırlarını türetmek genellikle çok zordur.

Bu nedenle, MLE tahmininin tahmin ediciye çok sık gitmesidir (eğer bir Bayesian değilseniz); Uygulaması kolaydır ve pişirmek için daha fazla iş yapmanız gereken herhangi bir şeyden daha iyi değilse, o kadar iyi olması muhtemeldir.


1
Lütfen OP'nin önemli bir parçası gibi göründüğü için, anların yöntemiyle nasıl karşılaştırılacağını açıklayabilir misiniz?
Antoni Parellada

1
Whuber'in belirttiği gibi, MOM tahmin edicileri de önyargılıdır, dolayısıyla MOM tahmin edicilerine bir "tarafsızlık" avantajı yoktur. Ayrıca, MOM ve MLE tahmin edicileri aynı fikirde olmadığında, MLE düşük MSE'ye sahip olma eğilimindedir. Ancak bu cevap, MLE'lerin neden diğer yöntemlerle doğrudan bir karşılaştırma yapmak yerine, neden varsayılan olma eğiliminde oldukları ile ilgilidir.
Cliff AB

2
@AntoniParellada ilginç bir iplik MLE ve aya, karşılaştırarak yoktur stats.stackexchange.com/q/80380/28746
Alecos Papadopoulos

3

Bazen (çoğu zaman) bir MLE tahmincisi kullandığımızı da eklerdim, çünkü sahip olduğumuz buydu, ideal bir dünyada istediğimiz gibi olmasa bile. (Genellikle istatistiği mühendislik gibi, ne elde ettiğimizi, istediğimizi değil, kullandığımızı düşünüyorum.) Çoğu durumda, MLE için tanımlamak ve çözmek ve sonra yinelemeli bir yaklaşım kullanarak bir değer elde etmek kolaydır. Belirli bir durumda verilen bir parametre için daha iyi bir tahminci olabilirken ("daha iyi" bir değer için) olabilir, ancak bulunması çok zekice olmayı gerektirebilir; ve akıllı olmayı bitirdiğinde, hala sadece belirli bir problem için daha iyi bir tahminciye sahipsin.


1
Meraktan, ne (ideal dünyada) istediğinin bir örneği nedir?
Glen_b

2
@Glen_b: Dunno. Tarafsız, en düşük varyans, kapalı formda hesaplamak kolay? Tahmin edicileri en küçük kareler regresyonu için ilk öğrendiğinizde, hayat göründüğünden daha basit görünüyor.
eac2222
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.