Verilerin normal olarak dağıtılma nedenleri


19

Gerçek dünya verilerinin neden normal olarak dağılmasının beklendiğini (yani üretken olarak) açıklayabilecek bazı teoremler nelerdir?

Bildiğim iki tane var:

  1. Bize ortalama ve varyanslı (aynı şekilde dağılmamış olsalar bile) birkaç bağımsız rastgele değişkenin toplamının normal olarak dağılmaya eğilimli olduğunu söyleyen Merkezi Limit Teoremi (elbette)

  2. X ve Y, eklem yoğunlukları sadece + y 2'ye bağlı olacak şekilde, farklı yoğunluklara sahip bağımsız sürekli RV'ler olsun . O zaman X ve Y normaldir.x2y2

( mathexchange'ten çapraz gönderi )

Düzenleme: Açıklığa kavuşturmak için, ne kadar gerçek dünya verilerinin normal olarak dağıtıldığı hakkında herhangi bir iddiada bulunmuyorum. Ben sadece ne tür süreçlerin normal olarak dağıtılmış verilere yol açabileceğine dair fikir verebilecek teoremleri soruyorum.


7
İstatistiklerle ilgili ilginç materyalleri stat.stackexchange.com/questions/4364 adresinde bulabilirsiniz . Bazı okuyucular arasında olası karışıklığı önlemek için, sorunuzun gerçek veri kümelerinin hepsinin veya hatta çoğunun normal bir dağılımla yeterince yakınlaştırılabileceğini düşündürecek şekilde okunmaması gerektiğini eklemek istiyorum (ve umarım bu niyetinizdir). Daha ziyade, bazı durumlarda belirli koşulların geçerli olduğu durumlarda, verileri anlamak veya yorumlamak için bir referans çerçevesi olarak normal bir dağılım kullanmak yararlı olabilir: peki bu koşullar ne olabilir?
whuber

Bağlantı için teşekkürler! Ve bu kesinlikle doğru, açıklama için teşekkür ederim. Orijinal yazıda düzenleyeceğim.
anonim

@ user43228, " Tabii ki, gerçek dünya sorunlarında normal görünmeyen tonlarca başka dağılımlar var. " askamathematician.com/2010/02/…
Pacerier

Yanıtlar:


17

Ayrık RV'lerin (poisson, binomial, vb.) Birçok sınırlayıcı dağılımı yaklaşık olarak normaldir. Plinko düşünün. Yaklaşık normallerin geçerli olduğu hemen hemen tüm durumlarda, normallik sadece büyük numuneler için devreye girer.

Çoğu gerçek dünya verisi normalde dağıtılmaz. Micceri (1989) tarafından yayınlanan " Tek boynuzlu at, normal eğri ve diğer olası yaratıklar " 440 büyük ölçekli başarı ve psikometrik önlemleri incelemiştir. Anlarında dağılımlarda çok fazla değişkenlik buldu ve (hatta yaklaşık) normallik için çok fazla kanıt bulunamadı.

1977'de Steven Stigler tarafından hazırlanan " Sağlam Tahminciler Gerçek Verilerle Çalışıyor mu? " , dünyadan güneşe olan mesafeyi ölçmek için ünlü 18. yüzyıl girişimlerinden ve 19. yüzyılın ışık hızını ölçmeye yönelik girişimlerinden toplanan 24 veri setini kullandı. Tablo 3'te örnek çarpıklığı ve basıklık olduğunu bildirdi. Veriler ağır kuyrukludur.

İstatistiklerde, çoğu zaman normallik olduğunu varsayıyoruz çünkü maksimum olasılığı (veya başka bir yöntemi) uygun hale getiriyor. Bununla birlikte, yukarıda belirtilen iki makalenin gösterdiği şey, varsayımın genellikle yavaş olduğunu göstermektedir. Bu nedenle sağlamlık çalışmaları faydalıdır.


2
Bu yazının çoğu harika, ama giriş paragrafı beni rahatsız ediyor çünkü bu çok kolay yorumlanabiliyor. Görünüyor oldukça açıkça - - genel olarak "büyük örnek" normal dağılıma sahip bakacağız söylemek. Sonraki açıklamaların ışığında, bunu gerçekten söylemek istediğine inanmıyorum.
whuber

Daha açık olmalıydım - gerçek dünyadaki verilerin çoğunun normal olarak dağıtıldığını önermiyorum. Ama bu yükseltmek için harika bir nokta. Demek istediğim, büyük n ile binom dağılımının normal ve büyük ortalama ile poisson dağılımının normal olduğunu varsayıyorum. Başka hangi dağılımlar normalliğe eğilimlidir?
anonim

Teşekkürler, ilk paragrafı düzenledim. Örneğin permütasyon altındaki doğrusal formlar hakkında bir teorem için Wald ve Wolfowitz'e (1944) bakınız. Yani permütasyon altındaki iki örneklem istatistiğinin asemptotik olarak normal olduğunu gösterdiler.
bsbk

Bir örnekleme dağılımı "gerçek dünya veri seti" değildir! Belki de mesajınızdaki görünür tutarsızlıklar ile yaşadığım zorluk, dağıtım ve veri arasındaki bu karışıklıktan kaynaklanıyor. Belki de aslında aklınızda hangi "sınırlayıcı" süreç hakkında netlik eksikliğinden kaynaklanmaktadır.
whuber

3
Orijinal soru, normal gerçek dünya verilerinin nasıl ortaya çıkabileceğini "üretken" olarak açıklamaktı. Gerçek verilerin, her ikisi de normal dağılım ile yaklaşık olarak tahmin edilebilecek bir binom veya poisson işleminden üretilebileceği düşünülebilir. Operasyon diğer örnekleri istedi ve akla gelen, asimptotik olarak normal olan (bağların yokluğunda) permütasyon dağılımı idi. Gerçek dağıtımın bu dağıtımdan üretilebileceği bir yol olduğunu düşünemiyorum, bu yüzden belki de bir streç.
bsbk

10

Normal dağılımın kullanımı için bir bilgi teorik gerekçesi de vardır. Ortalama ve varyans göz önüne alındığında, normal dağılım, tüm gerçek değerli olasılık dağılımları arasında maksimum entropiye sahiptir. Bu mülkü tartışan birçok kaynak var. Kısa bir tane burada bulunabilir . Şu ana kadar bahsedilen argümanların çoğunu içeren Gauss dağılımını kullanma motivasyonunun daha genel bir tartışması, Signal Processing dergisinden bu makalede bulunabilir .


6
Anladığım kadarıyla bu geriye dönük. Normallik varsayımının kesin olarak tanımlanmış bir anlamda nasıl zayıf bir varsayım olduğu ile ilgilidir. Bunun gerçek dünya verileri için ne anlama geldiğini anlamıyorum. Eğrilerin tipik olarak düz olduğunu da iddia edebilirsiniz, çünkü bu eğrilik hakkında yapabileceğiniz en basit varsayımdır. Epistemoloji ontolojiyi sınırlamaz! Alıntı yaptığınız referans bunun ötesine geçerse, lütfen argümanları heceleyin.
Nick Cox

3

Fizikte genellikle birçok ölçümde normal olarak dağıtılmış hataların bir nedeni olarak belirtilen CLT'dir.

Deneysel fizikteki en yaygın iki hata dağılımı normal ve Poisson'dur. İkincisi genellikle radyoaktif bozunma gibi sayım ölçümlerinde görülür.

Bu iki dağılımın bir başka ilginç özelliği Gauss ve Poisson'dan rastgele değişkenlerin toplamının Gauss ve Poisson'a ait olmasıdır.

Deneysel bilimlerde istatistik gibi bu konuda birkaç kitap vardır : Gerhard Bohm, Günter Zech, Fizikçiler için İstatistik ve Veri Analizine Giriş, ISBN 978-3-935702-41-6


0

CLT, popülasyon ortalaması gibi şeyler hakkında çıkarımlar yaparken son derece yararlıdır, çünkü oraya bir grup bireysel ölçümün bir çeşit doğrusal kombinasyonunu hesaplayarak ulaşırız. Bununla birlikte, bireysel gözlemler, özellikle gelecekteki gözlemler ( örneğin , tahmin aralıkları) hakkında çıkarımlar yapmaya çalıştığımızda , dağılımın kuyruklarıyla ilgilenirsek normallikten sapmalar çok daha önemlidir. Örneğin, 50 gözlemimiz varsa, gelecekteki bir gözlemin ortalamadan en az 3 standart sapma olma olasılığı hakkında bir şey söylediğimizde çok büyük bir ekstrapolasyon (ve inanç sıçraması) yapıyoruz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.