Bayesçiye karşı sıkça yorum yapan Olasılık


37

Birisi Bayesan ve sıklığa yaklaşma yaklaşımı arasındaki farklılıkları iyi anlayabilir mi?

Anladığım kadarıyla:

Araştırmacılar görüşü, verinin belirli bir frekans / olasılık ile (deneme sayısının sonsuzluğa yaklaştığı bir olayın göreceli frekansı olarak tanımlanır) olan tekrarlanabilir rastgele bir örnek (rastgele değişken) olduğu yönündedir. Temel parametreler ve olasılıklar bu tekrarlanabilir işlemi sırasında ve varyasyon değişkenliğe bağlı olduğu sabit kalır ve olmayan (belirli bir olay / işlem için sabittir) olasılık dağılımı.Xn

Bayes görünümünde, verilerin sabit olduğu ve belirli bir olay için frekans / olasılık dağılım parametrelerinin değiştiği anlamına gelebileceği görülmektedir. Aslında, aldığınız veriler, her veri kümesi için güncellenen bir parametrenin önceki dağılımını değiştirir.

Bana göre, sıkça görülen yaklaşımın daha pratik / mantıklı olduğu görülüyor, çünkü olayların belirli bir olasılığı olması ve varyasyonun örneklememiz içinde olması makul görünüyor.

Ayrıca, araştırmalardan elde edilen çoğu veri analizi, genellikle, anlaşılabilir bir yaklaşım (örneğin, güven aralıkları, p-değerleri ile hipotez testleri vb.) Kullanılarak kolayca anlaşılabilirdir.

Kimsenin bana sık sık p-değerinin bayes istatistiki eşdeğerleri ve güven aralıkları dahil olmak üzere, bayesyen ve frekansçı yaklaşım hakkındaki yorumlarının kısa bir özetini verip vermeyeceğini merak ediyordum. Ek olarak, 1 yönteminin diğerine tercih edilebileceği özel örnekler takdir edilmektedir.


1
İstatistiki çıkarımlara sıkça yaklaşmanın daha pratik olduğunu söylerseniz, bazı mekanlarda öfkeli bir kalabalık tarafından saldırıya uğrayacaksınız. (Tamam, belki de bu ifadede bazı abartılar vardır .) Güven aralıklarının anlaşılmasının arka olasılık aralıklarından daha kolay olduğunu kabul etmiyorum. (Her neyse, aşağıdaki cevabımı görün. Sanırım, bunun 2'nin ne olduğunu bilmenin ötesinde bir matematik olmasa da, doğrudan konunun özüne vardığını düşünüyorum .)1/2
Michael Hardy

@DilipSarwate ay, bunu bir dahakine aklımda tutacağım. ama bu sefer birkaç iyi cevap aldım, bu yüzden belki burada bitirmeye çalışacağım: D
BYS2

Yanıtlar:


27

Gelen frequentist yaklaşım, olasılıklar anlamına geldiği tek anlamda olarak, yani çalışmaların bir dizi bölgesi başarılara sayısı sınır değeri olarak olduğu ileri sürülmektedir

p=limnkn

nerede başarı sayısı ve deneme sayısıdır. Özellikle, bir olasılık dağılımını bir parametreyle ilişkilendirmenin bir anlamı yoktur .kn

Örneğin , Bernoulli dağılımından parametresi olan örneklerini göz önünde bulundurun (yani, olasılıklı değerine ve olasılık ile 0 değerine sahipler ). Biz tanımlayabilirsiniz örnek başarı oranını olmakX1,,Xnpp1p

p^=X1++Xnn

ve dağılımı hakkında konuşmak değerine koşullu , ancak soruyu ters ve olasılık dağılımı hakkında konuşmaya başlamak için mantıklı değil gözlemlenen değen şartına . Özellikle, bir güven aralığı hesapladığımızda, güven aralığının sonlarını rastgele değişkenler olarak yorumlarız ve "aralığın gerçek parametreyi içerme olasılığı" hakkında, "parametrenin olma olasılığı" hakkında konuşuruz. güven aralığı içinde ".p^ppp^

Gelen Bayes yaklaşımı, dünya hakkındaki belirsizlik miktarının olarak olasılık dağılımlarını yorumlayabilir. Özellikle, bu, parametrelerin olasılık dağılımları hakkında anlamlı bir şekilde konuşabileceğimiz anlamına gelir, çünkü parametre sabit olmasına rağmen, gerçek değer hakkındaki bilgilerimiz sınırlı olabilir. Yukarıdaki örnekte, Bayes yasasını kullanarak olasılık dağılımını tersine çevirebiliriz.f(p^p)

f(pp^)posterior=f(p^p)f(p^)likelihood ratiof(p)prior

Buradaki sorun, önceki dağıtımı analizimize dahil etmemiz gerektiğidir - bu , gerçek değerlerini görmeden önce değeri hakkındaki inancımızı yansıtır . Birincinin rolü, sık sık yaklaşımda sıklıkla özneldir, aksi halde öznelliği başka türlü sade ve nesnel olasılık dünyasına soktuğu iddia edilir.pXi

Bayesian yaklaşımında artık güven aralıkları konuşulmuyor, ancak daha doğal bir yorumu olan güvenilir aralıklar yerine -% 95 güvenilir aralıklar göz önüne alındığında, parametrenin aralığın içinde olma olasılığı% 95 olarak belirlenebilir.


6
Öte yandan, sıkça yaklaşımın bir eleştirisi, insanların olasılık hakkında nasıl düşündükleriyle karışmadığıdır. İnsanların dinozorların neslinin tükenmesi gibi tek seferlik olayların "olasılığı" veya yarın

14
Ayrıca, frekansçı ve Bayesci yaklaşımlar arasındaki farkın pratik düzeyde neredeyse büyük olmadığını söylemek iyi olabilir: yararlı ve kendi kendine tutarlı sonuçlar üreten herhangi bir frekansçı yönteme genel olarak bir Bayesian yorumu verilebilir ve bunun tersi de geçerlidir . Özellikle, Bayes terimlerindeki sıkça bir hesaplamanın tekrar yapılması, tipik olarak önceden belirli olan belirli bir posteriorun hesaplanması için bir kural verir . Birisi daha sonra "Peki, önceden varsayılması gereken makul bir şey mi?" Diye sorabilir.
Ilmari Karonen

Bu cevap için teşekkür ederim, benim genel anlayışım doğrultusunda. Bununla birlikte, bir şeyi açıklığa kavuşturabiliyor muydunuz, Baye Yasası formülünde veri / örnek başarı oranı (f (p-hat)) olasılığını nasıl bulacaksınız? Çalıştığım bazı örnekleri okudum ve genellikle f (p-hat | p) ve önceki f (p) 'nin nasıl türetileceğini anlıyorum ama f (p-hat) beni şimdiye kadar atlatıyor. Bazı kaynaklarla bazı bağlantılarınız olsaydı, o zaman müthiş olurdu: D. Teşekkürler!
BYS2

@IlmariKaronen. Tamam, yani güven aralıkları olarak ifade edilen belirli sonuçlar üreten bir çalışmam olsaydı, verileri yeniden değerlendirebilir ve bunun yerine bir bayes analizi yapabileceğimi mi söylüyorsunuz? ve sonuçlar az çok tutarlı mı?
BYS2

@Karonen'ın söylediği tam olarak doğru değil. En sık karşılaşılan iki teknik, nokta tahminleridir (genellikle maksimum olabilirlik tahmini) ve hipotez testleridir ve bunlara hiçbir şekilde doğal bir Bayesian yorumu yapılamaz.
Jules

20

Frequentist olasılık hakkındaki yorumunuz konusunda haklısınız: bu kurulumdaki rastlantısallık yalnızca eksik örneklemeden kaynaklanmaktadır. Bayes bakış açısına göre, olasılıklar “özneldir”, çünkü bir ajanın dünya hakkındaki belirsizliğini yansıtırlar. Dağılım parametrelerinin "değiştiğini" söylemek doğru değil. Parametreler hakkında tam bilgi sahibi olmadığımızdan, daha fazla bilgi topladıkça onlar hakkındaki belirsizliğimiz değişir.

Her iki yorum da uygulamalarda faydalıdır ve hangisi daha faydalıdır duruma göre değişir. Dışarı kontrol edebilirsiniz Andrew Gelman en Bayes uygulamalar hakkında fikirler için blog. Pek çok durumda, Bayesanların "öncelikli" dedikleri şey, Frequentists "normalleşme" dır ve bu yüzden (benim açımdan) heyecan odadan oldukça hızlı bir şekilde ayrılabilir. Gerçekte, Bernstein-von Mises teoremine göre, Bayesian ve Frequentist çıkarım, oldukça zayıf varsayımlar altında (aslında teorem sonsuz boyutlu dağılımlar için başarısız olsa da) aslında asimptotik olarak eşdeğerdir. Bununla ilgili birçok referans bulabilirsiniz .

Yorum sorduğundan beri: Bence Frequentist bakış açısı, bilimsel deneyleri yapmak için tasarlandığı gibi modellerken çok anlamlı. Makine öğreniminde veya endüktif akıl yürütmeyi modellemek için (veya öğrenmeyi) bazı uygulamalar için, Bayesian olasılık bana daha mantıklı geliyor. Sabit, "gerçek" bir olasılık olan bir olayı modellemenin uygunsuz göründüğü birçok durum vardır.

Laplace'e geri dönen bir oyuncak örneği için , güneşin yarın yükselme ihtimalini düşünün. Sıklıkçı bakış açısına göre, olasılığı tanımlamak için sonsuz sayıda evren gibi bir şeyi ortaya koymak zorundayız. Bayesliler olarak sadece bir evren var (ya da en azından pek fazlasına gerek yok). Güneşin doğuşuyla ilgili belirsizliğimiz, yarın tekrar artacağı konusundaki inancımızın çok, çok kuvvetli etkisiyle azalır.


17

Bayesian olasılık yorumu, bir inanç derecesi yorumu.

Bayes, Mars'ta milyarlarca yıl önce yaşam olasılığı ihtimalinin olduğunu söyleyebilir .1/2

Bir uzman, bu önermeye bir olasılık vermeyi reddedecektir. Tüm vakaların yarısında doğru olduğu söylenebilecek bir şey değildir, bu yüzden kimse atayamaz .1/2


2
Bayesian yaklaşımın genelliğine (mantığın yayılması) karşı RT Cox'un klasik makalesine göre daha dar frekansçı yaklaşımın sınırlarını düşünmek için muhtemelen daha iyi bir yer yoktur .
gwr

2
Cox ayrıca, bununla ilgili olarak Johns Hopkins tarafından yayınlanan Muhtemel Çıkarım Cebiri başlıklı bir kitap yazdı . @gwr
Michael Hardy

1
Ian Hacking, “Olasılığa ve Endüktif Mantığa Giriş” adlı kitabında iyi söyledi. Dedi ki: "Bayes, kişisel olasılıkları veya inanç derecelerini bireysel önermelere bağlayabilir. Sert frekanslı dogmatist, olasılıkların sadece bir dizi olaya eklenebileceğini düşünüyor."
Buttons840

9

Chris olasılıkla iki yaklaşımı doğru şekilde farklılaştıran güzel ve basit bir açıklama sunar. Ancak, sık sık olasılık teorisi, başarıların uzun menzilli oranına bakmaktan daha fazladır. Ayrıca bir dağılımdan rastgele örneklenen verileri göz önünde bulundururuz ve verilerin ortalamalarının belirli türlerini alarak ortalama ve varyans gibi dağılım parametrelerini tahmin ederiz (örneğin, gözlemlerin aritmetik ortalamasıdır. Tahmini örnekleme dağılımı denir.

Frekans teorisinde, tahminin gerçek parametreye yakınsayacağı örneklerden ortalama alınarak alınan ortalama gibi parametreler gösterilebilir. Örnekleme dağılımı, tahminin herhangi bir sabit örneklem büyüklüğü n parametresine ne kadar yakın olduğunu açıklamak için kullanılır. Yakınlık bir doğruluk ölçüsü ile tanımlanır (örn. Ortalama kare hatası).

Chris, Bayesian’nin üzerine önceden bir olasılık dağılımı eklediği ortalama gibi herhangi bir parametrenin altını çiziyor. Daha sonra verilere bakıldığında Bayes kuralı parametrenin arka dağılımını hesaplamak için kullanılır. Bayesian için parametre hakkındaki bütün çıkarımlar bu posterior dağılıma dayanır.

Sıklık yapanlar, parametre için makul değerlerin aralığı olan güven aralıkları oluşturur. Yapıları, sık sık oluşturucu olasılıklara dayanıyorsa, aralığı üretmek için kullanılan işlem, bağımsız numuneler için defalarca tekrarlandıysa, gerçekte parametrenin gerçek değerini içerecek aralıkların oranı, en azından önceden belirlenmiş bir güven seviyesi olacaktır (örneğin,% 95). ).

Bayesanlar, parametre için güvenilir bölgeler oluşturmak için posteriori dağılımını kullanır. Bunlar sadece önceden belirlenmiş bir olasılık elde etmek için posterior dağıtmanın entegre olduğu parametre alanındaki bölgelerdir (ör. 0,95). Güvenilir bölgeler, Bayesanlar tarafından parametrenin gerçek değerini de içerme olasılığı yüksek (örneğin, belirtilen 0.95) olan bölgeler olarak yorumlanır.


1
Güvenilir bölgeler, Bayesanlar tarafından parametrenin gerçek değerini de içerme olasılığı yüksek (örneğin, belirtilen 0.95) olan bölgeler olarak yorumlanır . Parametre rastgele bir değişken ise bu nasıl mümkün olabilir?

@Procrastinator Tamam, belki de sadece parametre dağılımının önceden belirlenmiş bir oranını kapsadığını söylememi tercih edersiniz. Fakat eğer X dağılımı f olan rastgele bir değişken ise ve bunun için güvenilir bir bölge inşa edersek, bölge rastgele değişkenin gerçekleşmesinin bölgede yatma ihtimalini temsil eder.
Michael Chernick

Bu açıklamaya katılıyorum. Rasgele değişkenin gerçekleşmesinin parametrenin gerçek değeri olmadığını açıklığa kavuşturmak önemlidir.

@Procrastinator, ortaya attığınız ilginç bir nokta. Bununla birlikte, bayesans olasılığını anlıyorum, birçok Bayesan'ın klasik istatistikçilerle söz konusu parametrenin tek bir DOĞRU değeri olduğu konusunda hemfikir olduğu (sabit ama bilinmeyen). Öyle belirsizlik nedeniyle bilginin bizim kusurlu devletin dağıtılır bu parametreye hakkında. Öyleyse bu şekilde düşünürseniz, o zaman Michael Chernick'in ilk ifadesi geçerli değil mi?
BYS2

2
@MichaelChernick Bir Bayesian güvenilirlik bölgesinin ne anlama geldiğinin yanlış bir yorumu olduğunu düşünüyorum. Parametrenin gerçek değerinin ve önce bir üniforma seçtiğinizi varsayalım . Bu nedenle, hiçbir güvenilirlik aralığı, gerekçenizle çelişen parametrenin gerçek değerini içermez. θ0=1(1,100)

2

"Gerçek dünya" bakış açısına göre, en az üç ana senaryo için geçerli olan, sık ve klasik ya da Bayesian bir "çözüm" arasında büyük bir fark buluyorum. Bir metodoloji seçmedeki fark, nüfus olasılığından etkilenen veya bireysel olasılıktan etkilenen bir çözüme ihtiyacınız olup olmamasına bağlıdır. Aşağıdaki örnekler:

  1. 40 yaşından büyük erkeklerin belirli bir yıl içinde ölecekleri ve hayat sigortası ödemeleri gerektirecekleri bilinen% 5 olasılık varsa, bir sigorta şirketi maliyetlerini tahmin etmek için% 5 POPULATION yüzdesini kullanabilir, ancak her 40 erkeğin sadece 40 yaşın üzerindeki her bir erkeğin % 5'lik bir ölüm şansı ... anlamsızdır ... Çünkü% 5'inin ölüm olasılığı% 100'dür - ki bu sıkça bir yaklaşımdır. Bireysel düzeyde olay ya meydana gelir (% 100 olasılık) ya da olmaz (% 0 olasılık) Bununla birlikte, bu sınırlı bilgiye dayanarak,% 100 ölüm olasılığı olan bireyleri tahmin etmek mümkün değildir ve 5 Bireysel düzeyde% "ortalama" nüfus olasılığı bir işe yaramaz.

  2. Yukarıdaki argüman, binalardaki yangınlara da eşit olarak uygulanır, bu nedenle bir fıskiyenin bir popülasyondaki tüm binalarda kullanılması gerekir.

  3. Yukarıdaki argümanların her ikisi de bilgi sistemleri rüşvetleri, hasarları veya "saldırıları" için aynı derecede geçerlidir. Nüfus yüzdeleri işe yaramaz, bu nedenle tüm sistemler korunmalıdır.


2
Bu üç durumdan hiçbirinde sıkça bir yaklaşımı tanımıyorum. Hepsi klasik modellerde kullanılmayan geçmişe dayanan - ve dolayısıyla yararsız - olasılık kavramına bağlı görünüyor. Örneğin, "olayın gerçekleştiği ... veya gerçekleşmediği" iddiası önemsiz olarak doğrudur, ancak olasılıklarla ilgisi yoktur.
whuber

0

Yorum seçimi soruya bağlıdır. Şans oyunundaki olasılıkları bilmek istiyorsanız, klasik yorumlama probleminizi çözecektir, ancak adil zarların hafızası olmadığı için istatistiksel veriler kullanışsızdır.

Geçmiş deneyimlere dayanarak gelecekteki bir olayı tahmin etmek istiyorsanız, sık yorumlama doğru ve yeterlidir.

Geçmiş bir olayın meydana gelip gelmediğini bilmiyorsanız ve bunun olasılığını değerlendirmek istiyorsanız, önceki inançlarınızı almalısınız, yani, olayın gerçekleşmesi ve edindiğiniz andaki inancınızı güncelleme şansı hakkında zaten bildikleriniz. yeni veri.

Soru bir derece inançla ilgili olduğu ve her insanın öncelikler hakkında farklı bir fikri olabileceği için, yorumlamanın mutlaka öznel, yani Bayesian olduğu söylenebilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.