Neden genellikle Gauss dağılımı olduğu varsayılır?


14

Bir saf Bayes sınıflandırıcısı için parametre tahmini hakkındaki Wikipedia makalesinden alıntı : "tipik bir varsayım, her sınıfla ilişkili sürekli değerlerin bir Gauss dağılımına göre dağıtıldığıdır."

Gauss dağılımının analitik nedenlerle uygun olduğunu anlıyorum. Ancak, bu varsayımı yapmak için başka bir gerçek dünya nedeni var mı? Nüfus iki alt popülasyondan oluşuyorsa (akıllı / dilsiz insanlar, büyük / küçük elmalar)?


5
Belki de merkezi limit teoremi nedeniyle Gauss dağılımları, fiziksel fenomenlerin ölçümleri olmasa da pek çoğuna uyuyor? Alt popülasyonlarda, karışım Gauss dağılımları elde edilebilir .
Dilip Sarwate

1
Aynı bölüm (Naive Bayes makalesine baktığınızı varsayıyorum) dağıtımı bilmiyorsanız binning'in muhtemelen daha iyi bir fikir olduğuna dikkat çekiyor. Birisi muhtemelen sadece gauss olduğunu iddia ederse gaussian varsayması gerektiğini daha açık hale getirmek için wikipedia makalesini düzenlemelidir (örn. Verileri çizin veya CLT'nin katkı modelini izler).
rm999

Yanıtlar:


6

En azından benim için, normallik varsayımı iki (çok güçlü) nedenden kaynaklanıyor:

  1. Merkezi Limit Teoremi.

  2. Gauss dağılımı maksimum entropidir (Shannon'ın entropisinin sürekli versiyonuna göre) dağılımı.

Sanırım ilk noktanın farkındasınız: eğer örneğiniz birçok sürecin toplamı ise, o zaman bazı hafif koşullar sağlandığı sürece, dağılım oldukça gausstur (aslında CLT'nin genellemediğiniz yerler vardır) toplamın rvs'lerinin aynı şekilde dağıldığını varsaymak gerekir, bakınız, örneğin, Lyapunov CLT).

İkinci nokta, bazı insanlar (özellikle fizikçiler) için daha mantıklı olan bir konudur: bir dağılımın ilk ve ikinci anları göz önüne alındığında, sürekli Shannon'un entropi ölçüsüne (yani en muhafazakar) ilişkin ( sürekli davada biraz keyfi, ama en azından benim için, ayrı davada tamamen objektif, ama bu başka bir hikaye), gauss dağılımı. Bu, entropi formunun gerçek kullanımı biraz keyfi olduğu için "maksimum entropi prensibi" olarak adlandırılan bir şeklidir ( bu önlem hakkında daha fazla bilgi için bu Wikipedia makalesine bakın ).

Tabii ki, bu son ifade çok değişkenli durum için de geçerlidir, yani, ilk verilen ( ) ve ikinci dereceden bilgiler ( yani, kovaryans matrisi ), çok değişkenli bir gaussian olarak gösterilebilir.μΣ

PD: Maksimum entropi prensibini eklemeliyim ki, bu makaleye göre , değişkeninizin varyasyon aralığını biliyorsanız, maksimum entropi prensibi ile elde ettiğiniz dağılımda ayarlamalar yapmanız gerekir.


3

Cevabım ilk cevaplayıcı ile aynı fikirde. Merkezi limit teoremi, istatistiğiniz bir toplam veya ortalama ise, her bir numunenin dağılımına bakılmaksızın belirli teknik koşullar altında yaklaşık normal olacağını söyler. Ama haklısın, bazen insanlar bunu uygun göründüğü için çok ileri taşıyorlar. İstatistiğiniz bir oransa ve payda sıfır ya da ona yakınsa, oran normal için çok ağır olacaktır. Gosset, normal dağılım sabiti için örnek standart sapmasının kullanıldığı normal bir ortalamadan örnek aldığınızda bile dağılımın, n örnek büyüklüğü olduğunda n-1 serbestlik dereceli t dağılımı olduğunu bulmuştur. Guiness Brewery'deki saha deneylerinde 5-10 aralığında olabilecek örnek büyüklükleri vardır. Bu durumlarda, t dağılımı standart normal dağılıma benzerdir, çünkü yaklaşık 0 simetriktir ancak çok daha ağır kuyrukları vardır. N dağılımı büyüdükçe t dağılımının standart normale yaklaştığını unutmayın. Birçok durumda, iki popülasyonun bir karışımı olduğu için sahip olduğunuz dağılım bimodal olabilir. Bazen bu dağılımlar normal dağılımların bir karışımı olarak sığabilir. Ancak normal bir dağılım gibi görünmediğinden eminler. Temel istatistik ders kitabına bakarsanız, genellikle çıkarım problemlerinde ortaya çıkan birçok parametrik sürekli ve ayrık dağılım bulacaksınız. Ayrık veriler için binom, Poisson, geometrik, hipergeometrik ve negatif binom var. Sürekli örnekler, ki kare, lognormal, Cauchy, negatif üstel, Weibull ve Gumbel'dir.


2

CLT'nin Gauss dağılımının kullanımını haklı çıkarmak için kullanımı yaygın bir yanlıştır çünkü CLT bireysel gözlemlere değil örnek ortama uygulanır. Bu nedenle, numune büyüklüğünüzü artırmak, numunenin normalliteye daha yakın olduğu anlamına gelmez.

Gauss dağılımı yaygın olarak kullanılır, çünkü:

  1. Maksimum olabilirlik tahmini basittir.
  2. Bayes çıkarsayıları basittir (eşlenik öncüler veya Jeffreys tipi öncüler kullanılarak).
  3. Sayısal paketlerin çoğunda uygulanır.
  4. Bu dağılım hakkında hipotez testi açısından birçok teori vardır.
  5. Diğer seçenekler hakkında bilgi eksikliği (daha esnek). ...

Tabii ki, en iyi seçenek, bağlamınızın özelliklerini dikkate alan bir dağıtım kullanmaktır, ancak bu zor olabilir. Ancak, insanların yapması gereken bir şeydir

"Her şey mümkün olduğunca basit olmalı, ancak daha basit olmamalıdır." (Albert Einstein)

Umarım bu yardımcı olur.

En iyi dileklerimle.


Neden inişli çıkışlı? bu açıklama için ne gibi bir karşıtı?
lmsasu

4
"CLT'nin Gauss dağılımının kullanımını haklı çıkarmak için kullanılması yaygın bir yanılgıdır, çünkü CLT örnek ortalamasına uygulanır" ifadesinin kendisi yanlıştır. Örneğin, bir iletkendeki elektronlar rastgele hareket eder. Küçük net her elektron katkıda üzerindeki yük gürültü iletken terminallerinden ölçülebilir (ısıl gürültü olarak adlandırılır) voltaj. Her katkı küçüktür, birçok elektron vardır ve bu nedenle CLT aracılığıyla gürültü Gauss rasgele bir süreç olarak modellenir . Bu model çok sayıda deneysel çalışmada çapraz doğrulanmıştır.
Dilip Sarwate

1
Bu ilk paragraf kafa karıştırıcı ve konu dışı görünüyor. CLT'yi uygularken, genellikle bir dağılımın gauss olduğunu söyleriz, çünkü her bir gözlem birçok sürecin toplamı / ortalamasıdır. İlk paragraf çıkarılırsa bunun iyi bir cevap olacağını düşünüyorum.
rm999

1
@ rm999 "İlk paragraf kaldırılsaydı, bunun iyi bir cevap olacağını düşünüyorum". Aslında, ilk paragraf olan OP zaten anlayan hangi - - ve soru sorulan tepki veremeyen kalanı sadece Gauss modeli analitik yararlıdır nasıl işaret beri cevabın püf noktası.
Dilip Sarwate

1
@Dilip: (+1) İlk yorumunuzda çok iyi bir cevabın çekirdeği var. Lütfen ayrı bir yayında genişletmeyi düşünün.
kardinal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.