Maksimum olasılık tahmini neden sık kullanılan bir teknik olarak kabul edilir?


19

Benim için sık istatistikler, tüm olası örnekler için iyi karar vermeye çalışmakla eş anlamlıdır. Yani, sık sık bir karar kuralı her zaman, bir kayıp fonksiyonu ve gerçek doğanın durumuna bağlı olan sıklık riskini en aza indirmeye çalışmalıdır :δLθ0

Rfreq=Eθ0(L(θ0,δ(Y))

Maksimum olasılık tahmini sıklık riskine nasıl bağlıdır? Sıkça kullanılanlar tarafından en çok kullanılan nokta tahmin tekniği olduğu düşünüldüğünde, bir miktar bağlantı olmalıdır. Bildiğim kadarıyla, maksimum olabilirlik tahmini, sık sık risk kavramından daha eskidir, ancak yine de neden bu kadar çok insanın sık sık bir teknik olduğunu iddia etmesine neden olabilir?

Bulduğum en yakın bağlantı

"Zayıf düzenlilik koşullarını karşılayan parametrik modeller için, maksimum olabilirlik tahmincisi yaklaşık olarak minimumdur" Wassermann 2006, s. 201 "

Kabul edilen cevap ya maksimum olasılık noktası tahminini sıklık riskine daha güçlü bağlar ya da MLE'nin sıklık yaratan bir çıkarım tekniği olduğunu gösteren sık sık çıkarımın alternatif bir biçimsel tanımını sağlar.


6
ML, riske hiç dikkat etmez! Aslında bu, ML'nin sıkça karar-teorik eleştirisinin bir parçasıdır. Bu sorunun cevaplanmasının zor olabileceğinden şüpheleniyorum çünkü iki uyumsuz anlamda örtük olarak "Frequentist" kullanıyor - biri karar-teorik, bir kayıp fonksiyonuna atıfta bulunuyor, diğeri ise dolaylı olarak daha önceki bir dağılım varsaymamak anlamına geliyor.
whuber

@whuber ML riske dikkat eder. Aslında daha önce uygunsuz bir üniforma altında logaritmik kayıp altında minimizasyon.
Çağdaş Özgenç

4
@Cagdas Bunun genellikle karar verici için risk değil inanıyoruz: bu sadece ML sergiler sanki o riski minimize edildi logaritmik kaybı kendilerine önemi risk olsaydı. "Önceden uygun olmayan bir üniforma" giymek kesinlikle bu arada sık rastlanan bir şey değildir!
whuber

1
@whuber Bayes kestirim prosedürleri ayrıca birikmiş log kaybı da kullanmaktadır. Ancak bundan sonra karar verici riski uygulanır. Karar verici riskini doğrudan (log-loss step basamak taşıyla değil) optimize etmekten bahsediyorsak, o zaman sıkça uygulanan prosedürler bu açıdan daha meşhurdur, yani OLS.
Çağdaş Özgenç

Yanıtlar:


16

Sıklık ve MLE'nin nispeten dar bir tanımını uygularsınız - eğer biraz daha cömertsek ve

  • Sıklık: Gerçek parametrelerden bağımsız olarak tekrarlı örnekleme altında tutarlılık hedefi (asimtotik) optimallik, tarafsızlık ve kontrollü hata oranları

  • MLE = puan tahmini + güven aralıkları (CI)

o zaman MLE'nin tüm frekansçı idealleri karşıladığı oldukça açık görünüyor. Özellikle, MLE'deki CI'ler, p-değerleri olarak, tekrarlanan örnekleme altında hata oranını kontrol eder ve birçok kişinin düşündüğü gibi, gerçek parametre değeri için% 95 olasılık bölgesi vermezler - dolayısıyla sık sık ve sık sık.

Bu fikirlerin hepsi Fisher'in temel kuramı olan "Teorik istatistiklerin matematiksel temelleri hakkında" makalesinde zaten mevcut değildi , ancak iyimserlik ve tarafsızlık fikri vardı ve Neyman son olarak sabit hata oranlarıyla CI oluşturma fikrini ekledi. Efron, 2013, "250 yıllık bir tartışma: İnanç, davranış ve önyükleme" Bayes / Frequentist tartışmasının çok okunabilir tarihinde özetliyor:

Sık sık bandwagon gerçekten 1900'lerin başında yuvarlandı. Ronald Fisher bir tahminde mümkün olan en iyi davranışı gösteren en uygun tahmin teorisini geliştirdi ve Jerzy Neyman da güven aralıkları ve testleri için aynısını yaptı. Fisher ve Neyman'ın prosedürleri, Bayesinizmi gölge bir varoluşa dönüştüren yirminci yüzyıl biliminin bilimsel ihtiyaçlarına ve hesaplama sınırlarına neredeyse mükemmel bir uyum sağladı.

Daha dar tanımınıza gelince - Bir yöntemin frekansçı felsefeyi izleyip izlemediğine karar vermenin ana ölçütü, sıklık riskini (FR) en aza indirmenin öncül olduğuna itiraz ediyorum. Ben FR minimize arzu edilen bir özelliktir aslında söyleyebilirim şu ziyade ondan önceki daha frequentist felsefesinden. Bu nedenle, bir karar kuralı / tahmincisinin FR'yi frekansçı olarak en aza indirmesi gerekmez ve FR'yi en aza indirgemek de bir yöntemin sıklıklaist olduğu anlamına gelmez, ancak bir sıkıcı şüphesiz FR'nin en aza indirilmesini tercih eder.

Özellikle MLE'ye bakarsak: Fisher, MLE'nin asemptotik olarak optimal olduğunu (FR'yi en aza indirmeye genel olarak eşdeğer) gösterdi ve bu kesinlikle MLE'yi tanıtmak için bir sebepti. Ancak, optimumluğun sonlu örneklem büyüklüğü için yeterli olmadığının farkındaydı. Yine de, tutarlılık, asimptotik normallik, parametre dönüşümleri altında değişmezlik gibi diğer istenen özelliklerden dolayı bu tahminciden memnun kaldı ve unutmayalım: hesaplamak kolay. Özellikle değişmezlik, 1922 makalesinde bolca vurgulanmıştır - okumadan, parametre dönüşümü altında değişmezliği korumanın ve genel olarak önceliklerden kurtulma yeteneğinin MLE'yi seçmedeki ana motivasyonlarından biri olduğunu söyleyebilirim. Akıl yürütmesini daha iyi anlamak istiyorsanız, 1922 belgesini gerçekten öneriyorum, '


2
Maksimum olasılık noktası tahmini en çok CI'lerle birlikte veya bir hipotez testinin bir parçası olarak (örneğin bir olasılık oranı testi) kullanıldığı için cevabınızı özetleyebilir miyim, bu nedenle bu sıkça yapılan bir tekniktir? Bu durumda, bunun geçerli bir cevap olduğunu düşünüyorum, ancak umduğum cevap değil. Maksimum olabilirlik tahmininin neden sık kullanılan bir nokta tahmin tekniği olarak kabul edilebileceğine dair resmi bir argüman hedefliyordum. Bu, frekansçı çıkarımın başka bir resmi tanımını gerektiriyorsa, bu da iyidir.
Julian Karls

1
MLE'yi genellikle Fisher'ın Ney tahminleri ile birlikte puan tahminlerini içeren bir çerçeve olarak düşünüyorum. MLE'nin tek başına, nasıl ve neden kullanıldığına bakılmaksızın, sık sık bir tahminci olup olmadığını tartışmanın ne kadar anlamlı olduğunu merak ediyorum. Fisher'ın nedenlerini istiyorsanız, 1922 belgesini gerçekten tavsiye ediyorum - o zamanlar bu kelime olmasa da, devletlerin nedenlerinin sık olduğunu söyleyebilirim. Bu konudaki yorumumu uzattım.
Florian Hartig

1

Temel olarak, iki nedenden dolayı:

  • Maksimum olasılık, model parametrelerinin noktadan tahminidir . Biz Bayesliler posterior dağılımları severiz.
  • Maksimum olasılık önceden dağıtım olmadığını varsayar , Biz Bayesliler önceliklerimize ihtiyaç duyarız, bilgilendirici veya bilgilendirici olabilir, ancak var olması gerekir

6
+1 Ben sadece bu cevapta dolaylı olarak "frekansçı" yı "Bayesci olmayan" ile eşitlediğinizi belirtmek isterim. "Biz Bayesyalılar" ın dili de "Bayesci" nin bir tür teknik ve yorumdan ziyade bir tür kişisel karaktere veya kabile üyeliğine (neredeyse bir çeşit Eskimo gibi) atıfta bulunduğunu göstermektedir.
whuber

4
Öte yandan MLE kolayca Bayesci bir teknik olarak türetilebilir. Daha önce tek tip bir ünite kullanan herhangi bir istatistiksel model için MAP tahminidir.
Julian Karls

3
MAPayrıca akıllıca bir tahmin ve "Gerçek Bayesyalılar" tarafından kaşlarını çattı
Uri Goren
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.