Ampirik bir ölçümün “normal dağılımını varsaydık” yazmak ne zaman uygun olur?


9

Tıp gibi uygulamalı disiplinlerin öğretiminde, popülasyondaki biyo-tıbbi miktarların ölçümlerinin normal bir "çan eğrisi" ni takip ettiği anlaşılmaktadır. "Normal bir dağıtım olduğunu varsaydık" dizesinde bir Google araması döndürür23,900Sonuçlar! Gibi onlar ses "aşırı veri noktaları az sayıda göz önüne alındığında, biz sıcaklık anomalileri için normal bir dağılım varsayılır" iklim değişikliği bir çalışmada; veya penguenlerle ilgili daha az tartışmalı bir belge üzerinde "civciv çıkım tarihlerinin normal dağılımını varsaydık" ; veya " piyasalardaki makroekonomik değişimlere atıfta bulunarak (GSYİH büyüme şoklarının normal dağılımını üstlendik" varsaydık) ( bu kitabı ve diğer şeyleri hatırlamak için ).

Son zamanlarda, kendimi sayım verilerinin kesinlikle olumlu doğası nedeniyle normal olarak dağıtılmış olarak ele alındığını sorguladım. Tabii ki, sayım verileri ayrıktır ve normalliklerini daha yapay hale getirir. Ancak bu son noktayı bir kenara bırakırsak, prototipik olarak "sürekli" kabul edilen ağırlık, boy veya glikoz konsantrasyonu gibi sürekli ampirik önlemler neden normal kabul edilmelidir? Sayımlardan daha fazla negatif gerçekleşmiş gözlem yapamazlar!

Standart sapma, ortalamadan önemli ölçüde düşük olduğunda, birkaç negatif değeri ("% 95 aralık kontrolü") belirten pratik bir varsayım olabileceğini ve frekans histogramlarının çok eğik değilse bunu destekleyebileceğini anlıyorum. Ancak soru önemsiz görünmüyordu ve hızlı bir arama ilginç şeyler verdi.

In Nature biz şu ifadeyi bulabilirsiniz DF Heath tarafından harfi : "Ben belirli veri tiplerinin istatistiksel analiz için veri normal popülasyondan çizilir varsayımı genellikle yanlış olduğunu belirtmek istiyoruz ve alternatif olduğunu mantık-normal dağılım varsayımı daha iyidir. Bu alternatif, istatistikçiler, ekonomistler ve fizikçiler tarafından yaygın olarak kullanılmaktadır, ancak bazı nedenlerden dolayı diğer bazı disiplinlerin bilim adamları tarafından genellikle göz ardı edilmektedir. "

Limpert, "log-normal modelin, birçok bilim insanının normali şu anda geçerli bir yaklaşım olarak algılaması anlamında bir yaklaşım olarak hizmet edebileceğini" belirtirken, normalliğin uyum iyiliği testlerinin düşük gücünü ve seçim zorluklarını da not ediyor küçük numunelerle uğraşırken ampirik olarak doğru dağılım.

Bu nedenle şu soru, "Uygulamalı bilimlerde daha fazla destekleyici kanıt olmadan normal ampirik bir ölçümün ne zaman kabul edileceği kabul edilebilir?" Ve, neden log-normal gibi diğer alternatifler neden olmadı ve muhtemelen kabul görmeyecek?


Yanıt, ne tür bir şey yaptığınıza ve normallikten potansiyel sapmalara olan duyarlılığına bağlı olacaktır (yani, oranın F testini kullanarak varyansların eşitliğini test ediyorsanız, çok normale çok yakın ... ancak ortalamalar arasındaki fark için bir t aralığı oluşturuyorsanız, büyük örneklerle, bunları normalliğe çok yakın tutmanız gerekmeyebilir). ... ve yaptığınız çıkarımlar üzerindeki etkilerine karşı toleransınız (veya kitlenizin) üzerinde.
Glen_b

Yanıtlar:


6

Sorunuzu gerçekten ilginç buluyorum. Dikkate alalım:

  1. Gerçek hayatta gözlemlenen bir değişkenin sürekli olduğunu söylemek her zaman yanlış olacaktır, çünkü gerçekten sürekli ölçmek çok zordur.
  2. Şimdi normal bir rastgele değişkenin özelliklerini ekleyin N(μ,σ2): Aralık (;+), simetrik dağılım (ortalama = mod = medyan), olasılık yoğunluk fonksiyonu fX(x) bükülme noktaları var x=μσ ve x=μ+σ.
  3. Rastgele bir değişken olduğunu söylemek için X bir Log-Normal dağılımını izleyen değişkenin Y=log(X) normal dağılım gösterir.

Bununla birlikte, gözlemlenen herhangi bir değişkenin normal veya Log-Normal dağılımını takip ettiğini söylemek biraz çılgınca geliyor. Uygulamada, bu değişken normal (veya başka bir dağılım) popülasyondan geliyorsa, gözlemlenen frekansların beklenen frekanslardan sapmalarını ölçmenizdir . O sapmalar Eğer örnekleme çünkü gibi, o zaman bir şeyler söyleyebiliriz, sadece rastgele olduğunu söyleyebiliriz Eğer bu değişken normal popülasyonda geldiğini hipotezini reddetmek için yeterli kanıt değil çevrilmiştir içine biz (sanki çalışacaktır varsayarak) değişken normal bir dağılım izler .

İlk sorunuza cevap olarak, bir değişkenin normalde daha fazla kanıt olmadan dağıtıldığı söylenecek kadar cesur biri olduğunu düşünmüyorum . Böyle bir şey söylemek için, en azından bir qq-grafiğine, bir histograma, bir uyum iyiliği testine veya bunların bir kombinasyonuna ihtiyacınız vardır.

İkinci soruyu cevaplamak için, normal dağılıma özel ilgi, klasik testlerin çoğunun, t-testi gibi değişkenin normallik varsayımına dayanmasıdır. χ2varyans testi. Yani, normallik işi basitleştirir, hepsi bu.


Birçok kilit noktaya değinen cevabınız için teşekkür ederiz. Ancak, uygulamalı bilimlerin "gerçek dünyasındaki" şeylerin daha az yapılandırılmış olduğunu ve genellikle normalliği üstlenmek için doğrudan tanjant alındığını düşünmeye meyilliyim.
Antoni Parellada

1
Bahsetmediğim bir şey, normal dağılım ise tarihin diğer kısmıdır: merkezi sınır teoreminde belirtildiği gibi, iid rasgele değişkenlerin bir toplamının standardizasyonunun sınır dağılımıdır. Değişkeninizin, brownian hareketinin ardındaki mantıkta olduğu gibi, birçok iid rastgele değişkenin toplamı olduğunu söyleyebilirseniz, bunun normal bir rastgele değişken olduğunu söyleyebilirsiniz. Bildiğim tek geçerli kısayol bu. İsterseniz cevaba ekleyebilirim.
toneloy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.