“Normal Dağılım” için ortalama = medyan = mod olması gerekiyor mu?


17

Lisansüstü istatistik profesörümle "normal dağılımlar" konusunda bir tartışma içerisindeyim. Gerçekten normal bir dağılım elde edebilmek için ortalama = medyan = moda sahip olması gerektiğini, tüm verilerin çan eğrisi altında yer alması ve ortalama etrafında mükemmel simetrik olması gerektiğini iddia ediyorum. Bu nedenle, teknik olarak, gerçek çalışmalarda neredeyse hiç normal dağılım yoktur ve onlara başka bir şey demeliyiz, belki de "normale yakın" diyelim.

Çok seçici olduğumu söylüyor ve eğer çarpıklık / basıklık 1.0'dan küçükse normal bir dağılımdır ve bir sınavda puan alır. Veri seti, daha büyük bir nüfusun rastgele bir örneği olan 52 bakımevinin rastgele örneklemesinde toplam düşme / yıl sayısıdır. Herhangi bir fikir?

Sorun:

SORU: 3. Bu veriler için çarpıklık ve basıklık ölçülerini hesaplayın. Normal eğriye sahip bir histogram ekleyin. Bulgularınızı tartışın. Veriler normal olarak dağıtılıyor mu?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

a. Birden çok mod mevcuttur. En küçük değer gösterilir

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

Cevabım:

Veriler platykurtiktir ve sadece hafif pozitif eğriliğe sahiptir ve ortalama ve medyan ve mod eşit olmadığından ve veriler ortalamaya eşit olarak dağıtılmadığından normal bir dağılım DEĞİLDİR. Gerçekte neredeyse hiçbir veri mükemmel bir normal dağılım değildir, ancak büyük nüfus gruplarında yetişkin yüzük parmağının boyu, ağırlığı, sıcaklığı veya uzunluğu gibi “yaklaşık normal dağılımları” tartışabiliriz.

Profesörün cevabı:

Tamamen normal bir dağılımın olmadığı doğrudur. Fakat mükemmellik arayışında değiliz. Histograma ve merkezi eğilim ölçülerine ek olarak verilere bakmamız gerekir. Çarpıklık ve basıklık istatistikleri dağılım hakkında ne söylüyor? İkisi de -1 ile +1 arasındaki kritik değerler arasında olduğundan, bu verilerin normal olarak dağıtıldığı kabul edilir.


3
Profesörünüzün tam ifadesini bilmek istiyorum. Prensipte normal bir dağılım ortalama, medyan ve mod özdeştir (ancak diğer birçok dağılımda olduğu gibi) ve çarpıklığı 0 ve (fazlalık denilen) basıklık 0'dır (ve diğer bazı dağılımlarda da). En iyi ihtimalle (örn.) Hafif çarpıklık veya basıklık ile dağılım yaklaşık normaldir. Neredeyse tüm gerçek verilerin teorik hayvancılıkta adlandırılmış dağılımlara en iyi yaklaşımlar olduğunu unutmayın.
Nick Cox

22
Katılıyorum @ user2974951 Her iyi metinle birlikte normal dağılımın medyan ve moda sahip olduğunu düşünmekten çok mutlu olduğumu biliyorum. Ve bu, sürekli dağılımlar için geniş ölçüde geçerlidir, ancak patolojik karşı örneklerin tanımlanabileceğinden şüphe etmiyorum.
Nick Cox

4
Her iki tarafta da liyakat gösteren özel ayrıntı için teşekkürler, ama ikinizi de derecelendirmiyorum. Bununla birlikte, çarpıklık ve basıklık için ± 1 limitlerinin kullanılabilecek temel kuralların ötesinde hiçbir konumu olmadığından , Profesörünüz tarafından kullanılan kritik değerler teriminden güçlü bir şekilde ayrıldım . Verilerle ne yaptığınıza bağlı olarak, < 1 bir çarpıklık , verileri dönüştürmek istemeyle birlikte gidebilir ve > 1'in bir çarpıklığı , veriler oldukları gibi ve benzer şekilde basıklık için ayrılmaya devam edebilir. ±1<1>1
Nick Cox

6
Kendimizi nitpick sanatını kucaklamamıza izin verirsek, olumsuz düşüşlerin olmadığını ve bu düşüşlerin ayrı olduğunu gözlemlemeliyiz, bu yüzden fiili dağılım normal olamaz. Bu ilk etapta soruyu geçersiz kılar. Daha ciddi bir notta, soru açıkça, belirli başparmak kurallarını kontrol etmeyi amaçlayan uydurulmuş bir örnektir. Gerçekte, çalışmamızın amacına bağlı olarak, normal bir dağılım varsaymak makul olabilir veya olmayabilir. Aslında sadece bir örneğimiz olduğu için asla bilemeyiz.
Ioannis

5
@ user2974951 Şimdi yorumunuzu reddettiğinizden, ilk yorumunuzu silmeyi düşünmelisiniz. Şimdiye kadar, üç okuyucuyu kabul ettiklerini belirtmek için kandırdı!
whuber

Yanıtlar:


25

Profesörle tartışmanızla ilgili bir sorun terminolojidir, potansiyel olarak yararlı bir fikri iletme yolunda bir yanlış anlama vardır. Farklı yerlerde, ikiniz de hata yaparsınız.

Bu yüzden ele alınması gereken ilk şey: Bir dağıtımın ne olduğu konusunda oldukça net olmak önemlidir. .

Normal dağılım , sonsuz bir değer popülasyonu için bir model olarak düşünebileceğiniz belirli bir matematik nesnesidir. (Hiçbir sonlu popülasyonun aslında sürekli bir dağılımı olamaz.)

Gevşek olarak, bu dağılımın ne yaptığı (parametreleri belirledikten sonra) (bir cebirsel ifade yoluyla) gerçek satırdaki herhangi bir aralıkta bulunan nüfus değerlerinin oranını tanımlar. Biraz daha az gevşek bir şekilde, bu popülasyondan tek bir değerin herhangi bir aralıkta yatma olasılığını tanımlar.

Gözlenen bir numunenin gerçekten normal bir dağılımı yoktur; eğer bir örnek mevcutsa normal bir dağılımdan (potansiyel olarak) bir örnek alınabilir. Örneğin ampirik cdf'sine bakarsanız, bu ayrıktır. Çöp kutusu (histogramda olduğu gibi) örnekte bir "frekans dağılımı" vardır ancak bunlar normal dağılım değildir. Dağılım bize popülasyondan rastgele bir örnek hakkında (olasılıklı bir şekilde) bazı şeyler söyleyebilir ve bir örnek bize nüfus hakkında da bazı şeyler söyleyebilir.

"Normal olarak dağıtılmış örnek" * gibi bir ifadenin makul bir yorumu, "normal olarak dağıtılmış bir popülasyondan rastgele bir örnek" tir.

* (Genellikle umarım burada yeterince açıklığa kavuşturulmuş nedenlerden dolayı kendim söylemekten kaçınırım; genellikle kendimi ikinci ifade türüyle sınırlamayı başardım.)

Terimleri tanımladıktan sonra (hala biraz gevşekse), şimdi soruyu ayrıntılı olarak inceleyelim. Sorunun belirli kısımlarına değineceğim.

normal dağılım ortalama = medyan = mod olmalıdır

Bu, normal dağılımdan alınan bir örnek üzerinde bir gereksinim olmamasına rağmen, kesinlikle normal olasılık dağılımında bir koşuldur; örnekler asimetrik olabilir, ortalama medyandan farklı olabilir vb. [Bununla birlikte, eğer örnek gerçekten normal bir popülasyondan gelmişse, ne kadar birbirlerinden makul bir şekilde bekleyebileceğimizi öğrenebiliriz.]

tüm veriler çan eğrisinin altında olmalıdır

Bu bağlamda "altında" ifadesinin ne anlama geldiğinden emin değilim.

ve ortalama etrafında mükemmel simetriktir.

Hayır; buradaki verilerden bahsediyorsunuz ve (kesinlikle simetrik) normal popülasyondan bir örnek, mükemmel bir şekilde simetrik olmazdı.

Bu nedenle, teknik olarak, gerçek çalışmalarda neredeyse hiç normal dağılım yoktur,

Sonucunuza katılıyorum, ancak gerekçe doğru değil; verilerin mükemmel bir şekilde simetrik (vb.) olmasının bir sonucu değildir; popülasyonların kendilerinin tamamen normal olmadığı gerçeğidir .

eğer çarpıklık / basıklık 1.0'dan küçükse normal dağılımdır

Bunu böyle söylerse, kesinlikle yanlıştır.

Bir örnek çarpıklığı 0'dan çok daha yakın olabilir (gerçek değer değil mutlak büyüklükte "daha az" almak) ve örnek fazla basıklık da 0'dan çok daha yakın olabilir (şans eseri veya potansiyel olarak hemen hemen sıfır olabilir) ve yine de numunenin çekildiği dağılım kolayca normal olmayabilir.

Daha da ileri gidebiliriz - nüfusun çarpıklığını ve basıklık tam olarak normal bir şey olduğunu sihirli bir şekilde bilsek bile, yine de kendi başına popülasyonun normal olduğunu, hatta normale yakın bir şey olduğunu söyleyemezdi.

Veri seti, daha büyük bir nüfusun rastgele bir örneği olan 52 bakımevinin rastgele örneklemesinde toplam düşme / yıl sayısıdır.

Sayıların nüfus dağılımı asla normal değildir. Sayımlar kesikli ve negatif olmayan, normal dağılımlar süreklidir ve tüm gerçek çizgi üzerindedir.

Ama burada yanlış konuya gerçekten odaklandık. Olasılık modelleri, sadece o vardır modeller . Bize vermeyelim gerçeğiyle bizim modellerini karıştırmayın .

Sorun " verilerin kendileri değil mi?" normal mi?" (olamazlar) ve hatta "verilerin alındığı nüfus normal değil mi?" (bu neredeyse hiç böyle olmayacak).

Tartışılması daha yararlı bir soru, "topluma normal dağılmış gibi davranırsam çıkarımım ne kadar kötü etkilenir?"

Aynı zamanda iyi cevaplamak çok daha zor bir soru ve birkaç basit tanıya bakmaktan çok daha fazla iş gerektirebilir.

Gösterdiğiniz örnek istatistikler normallikle özellikle tutarsız değildir (normal popülasyonlardan bu boyutta rastgele örneklere sahipseniz, bunun gibi istatistikleri veya "daha kötü" nadiren nadiren değil) görebilirsiniz, ancak bu, gerçek nüfusun kendisi olduğu anlamına gelmez. numunenin alındığı belirli bir amaç için otomatik olarak normale "yeterince yakın" olur. Amacı (cevapladığınız soruları) ve bunun için kullanılan yöntemlerin sağlamlığını dikkate almak önemlidir ve o zaman bile bunun "yeterince iyi" olduğundan emin olamayabiliriz; bazen a priori varsaymak için iyi bir nedenimiz olmadığını varsaymak daha iyi olabilir (örneğin, benzer veri kümeleriyle deneyime dayanarak).

normal bir dağılım DEĞİL

Veriler - normal bir popülasyondan alınan veriler bile - asla nüfusun özelliklerine tam olarak sahip değildir; sadece bu rakamlardan, burada nüfusun normal olmadığı sonucuna varmak için iyi bir temeliniz yok.

Öte yandan, normale "yeterince yakın" olduğunu söylemek için makul bir dayanak da yok - normallik varsaymayı bile düşünmedik, bu yüzden hangi dağıtım özelliklerine duyarlı olabileceğini bilmiyoruz.

Örneğin, sınırlı bir ölçüm için iki örneğim olsaydı, çok ayrık olmayacağını (çoğunlukla sadece birkaç farklı değer almakla kalmayacağını) ve makul olarak simetriğe yakın olacağını bilsem, iki numuneyi kullanmaktan nispeten mutlu olabilirim çok küçük olmayan bazı örnek boyutlarında t testi; varsayımlardan orta derecede hafif ila hafif sapmalar (biraz sağlam, o kadar güçlü değil). Ancak, örneğin, yayılım eşitliğini test ederken normallik nedensel olduğu varsayımı konusunda daha temkinli olurum, çünkü bu varsayım altındaki en iyi test, varsayımlara oldukça duyarlıdır.

İkisi de -1 ile +1 arasındaki kritik değerler arasında olduğundan, bu verilerin normal olarak dağıtıldığı kabul edilir. "

Bu normal bir dağılımsal modeli kullanmaya karar verdiği kriter ise, bazen sizi oldukça zayıf analizlere yönlendirecektir.

Bu istatistiklerin değerleri bize numunenin alındığı nüfus hakkında bazı ipuçları verir, ancak bu, değerlerinin herhangi bir şekilde bir analiz seçmek için 'güvenli bir rehber' olduğunu öne sürmekle aynı şey değildir.


Şimdi, altta yatan sorunu, sahip olduğunuz soru gibi daha iyi bir ifade sürümü ile ele almak için:

Bir model seçmek için bir örneğe bakma sürecinin tamamı problemlerle doludur - bunu yapmak, gördüklerinize dayanarak sonraki analiz seçeneklerinin özelliklerini değiştirir! Örneğin, bir hipotez testi için, önem seviyeleriniz, p-değerleriniz ve gücünüz, onları seçeceğiniz / hesaplayacağınız şey değildir , çünkü bu hesaplamalar, verilere dayanmayan analize dayanmaktadır.

Örneğin , bu tür verilere bağlı analizlerle ilgili sorunları tartışan Gelman ve Loken (2014), " Bilimde İstatistiksel Kriz ," Amerikalı Bilim İnsanı , Cilt 102, Sayı 6, s 460 (DOI: 10.1511 / 2014.111.460).


Merhaba Peter, Üzgünüm, yazınızı orada görmedim bile.
Glen_b -Reinstate Monica

Bu sohbet sohbete taşındı .
Glen_b -Reinstate Monica

41

Bu noktayı kaçırıyorsunuz ve muhtemelen sektörde takdir edilmeyen "zor" oluyorsunuz. Size bir veri setinin normalliğini değerlendirmek için sizi eğitmek için bir oyuncak örneği gösteriyor, yani veri setinin normal bir dağılımdan gelip gelmediği . Dağıtım anlarına bakmak normalliği kontrol etmenin bir yoludur, örneğin Jarque Bera testi böyle bir değerlendirmeye dayanmaktadır.

Evet, normal dağılım mükemmel simetriktir. Ancak, gerçek bir normal dağılımdan bir örnek çizerseniz, bu örnek büyük olasılıkla mükemmel simetrik olmayacaktır. Tamamen kaçırdığınız nokta bu. Bunu kendiniz kolayca test edebilirsiniz. Sadece Gauss dağılımından bir örnek oluşturun ve anını kontrol edin. Gerçek dağılım böyle olmasına rağmen asla mükemmel "normal" olmazlar .

İşte aptal bir Python örneği. 100 rastgele sayıdan 100 örnek üretiyorum, sonra araçlarını ve medyanlarını alıyorum. Ortalama ve medyanın farklı olduğunu göstermek için ilk örneği yazdırıyorum, daha sonra ortalamalar ve medyanlar arasındaki farkın histogramını gösteriyorum. Oldukça dar olduğunu görebilirsiniz, ancak fark temelde asla sıfır değildir. Sayıların gerçekten normal bir dağılımdan geldiğini unutmayın .

kod:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

çıktılar: resim açıklamasını buraya girin

PS

Şimdi, sorunuzdaki örneğin normal kabul edilip edilmeyeceği bağlama bağlıdır. Sınıf odanızda öğretilenler bağlamında yanılıyorsunuz, çünkü profesörünüz size verdiği başparmak testinin kuralını bilip bilmediğinizi görmek istedi, bu da çarpıklık ve aşırı basıklık -1 ila 1 arasında olmalı Aralık.

Şahsen bu özel kuralını hiç kullanmadım (test diyemem) ve var olduğunu bile bilmiyordum. Görünüşe göre, bazı alanlarda bazı insanlar bunu kullanıyor. Veri kümesi açıklamalarınızı JB testine eklerseniz, normalliği reddederdi . Bu nedenle, elbette veri kümesinin normal olmadığını önermek yanlış olmaz, ancak sınıfta öğretilenlere dayanarak sizden beklenen kuralı uygulayamadığınız bir anlamda yanılıyorsunuz.

Ben olsaydım, kibarca profesörünüze yaklaşıp kendimi açıkladım ve JB test çıktısını gösterirdim. Testine dayanarak cevabımın yanlış olduğunu kabul ediyorum. Onunla burada tartıştığınız şekilde tartışmaya çalışırsanız, teste geri dönme şansınız çok düşüktür, çünkü medyanlar, araçlar ve numuneler hakkındaki mantığınız zayıftır, örneklere ve popülasyonlara karşı anlayış eksikliği gösterir. Melodinizi değiştirirseniz, bir davanız olur.


23
(+1) Tam olarak nokta. Rastgele değişkeni karıştırmak ve bu rastgele değişkenden gerçekleşmeler örneği.
Xi'an

15
t

Numuneleriniz normal olarak mükemmel şekilde dağıtıldıysa, örneklerin rastgele olmadığını gösteren ipucu olduğunu söylemek doğru olur mu?
JimmyJames

@JimmyJames, 4 yıl önce Science'da eşcinsel bir canvasser ile 20 dakikalık bir sohbetin eşcinsel insanlara karşı duygularınızı değiştirebileceğini iddia eden bir makale vardı. Yazarların anket verilerini oluşturdukları ortaya çıkıyor. Çok tembellerdi ve mükemmel bir Gauss gürültüsü ürettiler ve bu şekilde yakalandılar - bkz. Brockman ve arkadaşları
Aksakal

@Aksakal Bunun istediğimle tam olarak aynı şey olduğundan emin değilim. Bu durumda, bu durumda argüman, gerçek verilerin hiçbir zaman tam olarak normal olmadığıydı. "Ancak, normal bir normal dağılımdan bir örnek çizerseniz, bu örnek büyük olasılıkla mükemmel simetrik olmayacaktır." İfadesinden başlıyorum. Mükemmel bir normal dağılımdan rastgele örnek alıyorsam, birbirini izleyen her veri noktasının, mükemmel bir normal eğriyi doldurması gereken yere düşmesini beklemezdim. Bu benim için rastgele olmayan bir seçim süreci gibi görünüyor.
JimmyJames

6

Öğretmen açıkça kendi öğesinin dışındadır ve muhtemelen istatistik öğretmemelidir. Yanlış öğretmek hiç öğretmemekten daha kötü görünüyor.

"Veri" ve "veri üreten süreç" arasındaki ayrım daha açık bir şekilde yapılmışsa, bu sorunların hepsi kolayca giderilebilir. Veriler, verileri üreten süreci hedefler. Normal dağılım bu işlem için bir modeldir.

Verilerin normal olarak dağıtılıp dağıtılmadığı hakkında konuşmak mantıklı değildir. Bir sebepten dolayı, veriler her zaman ayrıktır. Başka bir nedenle, normal dağılım, gözlemlenen spesifik miktarların sonlu kümesini değil, potansiyel olarak gözlemlenebilir miktarların sonsuzluğunu tanımlar.

Ayrıca, " veriyi normal olarak dağıtılmış bir süreçte üreten süreç " sorusu da, veriden bağımsız olarak her zaman "hayır" dır. İki basit neden: (i) aldığımız ölçümlerin mutlaka belirli bir seviyeye yuvarlanması. (ii) mükemmel simetri, mükemmel bir daire gibi, gözlemlenebilir doğada mevcut değildir. Her zaman kusurlar vardır.

En iyi ihtimalle, "bu veriler size veri oluşturma sürecinin normalliği hakkında ne anlatıyor" sorusunun cevabı şu şekilde verilebilir: "bu veriler, gerçekte bir normal dağıtılmış işlem. " Bu cevap doğru bir şekilde dağıtımın normal olduğu sonucuna varmaz.

Bu sorunlar simülasyon kullanılarak çok kolay anlaşılır. Verileri normal bir dağılımdan simüle edin ve mevcut verilerle karşılaştırın. Veriler sayılırsa (0,1,2,3, ...), o zaman açıkçası normal model yanlıştır, çünkü 0,1,2,3, ... gibi sayılar üretmez; bunun yerine, sonsuza kadar devam eden ondalık sayıları (veya en azından bilgisayarın izin verdiği ölçüde) üretir. Normal simülasyon sorusunu öğrenirken yaptığınız ilk şey bu simülasyon olmalıdır. Ardından grafikleri ve özet istatistikleri daha doğru bir şekilde yorumlayabilirsiniz.


10
Cevabınızı eski sürüme düşürmedim, ancak bir öğrenciyi yüksek lisans profesörü olarak değerlendirdiğinizi düşünün. Bir öğrencinin doğru ve bir öğretmenin yanlış olması ihtimali nedir? Öğrencinin profesörünü ve konuşmanın içeriğini yanlış temsil etmesi daha olası değil mi?
Aksakal

Deneyimlerime ve öğrencilerin sözlerine dayanarak, öğretmenin yanlış olma olasılığının daha yüksek olduğunu söyleyebilirim. Her yerde üniversitelerde dersler, hatta lisansüstü dersler veren çok az resmi eğitime sahip öğretmenler var. Eğer akreditasyon kurumları sadece gerçeği bilseydi!
Peter Westfall

6
@ Possum-Pie, sizden ne beklendiğini tahmin edebilirim. Muhtemelen istatistiklerde 101-ish rotasıdır, bu yüzden çarpıklığa ve basıklığa bakmak zorundasınız. Eğer 0 ve 3'e yeterince yakın değillerse, normal olmadığını söylüyorsunuz. Bu kadar. Aslında JB testinin daha resmi bir şekilde yaptığı budur. Egzersizin amacı Gauss'un 0 ve basıklık 3'ü eğdiğini hatırlamanızdır. Bu saçma ama gerekli egzersizi felsefi bir tartışmaya dönüştürüyorsunuz.
Aksakal

2
Öğretmenin "İkisi de -1 ve +1'nin kritik değerleri arasında olduğu için bu verilerin normal olarak dağıtıldığı düşünülür" yorumu kesinlikle (i) anlama eksikliği veya (ii) bildiklerini öğretmeye istekli olduğunu gösterir. yanlış olmak. Öğretmen hazırlığı veya pedagojik yöntemleri sorgulamanın felsefi bir tartışma olduğunu düşünmüyorum.
Peter Westfall

3
"Tutarlılık" dili iyi. Ancak Possum-Pie'ın belirttiği gibi, öğretmenler öğrencilere "bu test / tanılamaya dayanarak, veriler normaldir" derler, bu da birkaç açıdan yanlıştır. Öğretmenler (psişik ve başka türlü) (i) veri oluşturma sürecini verilerden ayırmalı, (ii) öğrencilere normal ve diğer modellerin veri oluşturma süreci için model olduğunu söylemeli, (iii) normal dağılımın daima teşhisi ne olursa olsun bir model olarak yanlış ve (iv) onlara egzersizin amacının normallik derecesini teşhis etmek olduğunu söyleyin, evet / hayır. Sonra neden önemli olduğunu açıklayın.
Peter Westfall

4

Ben bir mühendisim, bu yüzden dünyamda, uygulanan istatistikçi en çok gördüğüm şey ve en somut değeri elde ediyorum. Eğer uygulamalı olarak çalışacaksanız, o zaman teorik olarak pratikte sağlam bir şekilde topraklanmanız gerekir: zarif olup olmadığı, uçağın uçması ve çökmemesi gerekir.

Bu soruyu düşündüğümde, buradaki teknik bahislerimin çoğunun yaptığı gibi, ona yaklaşma şeklim, "gürültü varlığında gerçek dünyada neye benzediğini" düşünmektir.

Yaptığım ikinci şey, genellikle, ellerimi soruya sokmamı sağlayan bir simülasyon yapmaktır.

İşte çok kısa bir keşif:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

Bunu çıktı olarak verir: enter image description here

Not: x ekseni konusunda dikkatli olun, çünkü günlük ölçeklidir, eşit ölçeklendirilmez.

Ortalama ve medyanın tamamen aynı olduğunu biliyorum. Kod söylüyor. Ampirik gerçekleştirme, örneklem büyüklüğüne büyük ölçüde duyarlıdır ve eğer gerçekten sonsuz örnekleme yoksa, teoriyle mükemmel şekilde eşleşemezler.

Ortancadaki belirsizliğin tahmini ortalamayı veya tam tersi olup olmadığını düşünebilirsiniz. Ortalamanın en iyi tahmini, medyan tahmininin% 95 CI'sı içindeyse, veriler farkı söyleyemez. Veriler teoride aynı olduklarını söylüyor. Daha fazla veri alırsanız, ne dediğine bakın.


1
İlginç bir grafik. Ortalama kovalamaca aykırı değerleri göz önüne alındığında, Ortalama'nın ortalamadan medyandan daha büyük olacağını düşünürdüm ... Bir başka deyişle kırmızı çubuklar ortalama ve yeşilin medyan olacağını düşünürdüm. Neyi kaçırıyorum?
Possum-Pie

1
@ Possum-Pie Aykırı değerlerin her iki yönde de olabileceğini unutmayın ... normal dağılımın hem sol kuyruğu hem de sağ kuyruğu vardır!
Gümüş Balık

2
@Bu bir kutu grafiğinin oldukça standart bir uygulaması olacak.
Glen_b -Ricatate Monica

1
@Glen_b Aykırı noktalar için nokta kullanımını öğretmeyen çok sayıda ders kitabı gördüm, bu yüzden onlara kullanılmayan birini anlayabiliyorum. Ama Hadley göre Tukey 1970 yılında "şematik arsa" tanıtıldı bile, noktalar olmuştur
Silverfish

1
Evet, içinde aykırı olmayan bir versiyon (sadece 5 sayı özetine dayanarak) esasen Mary Spear'ın menzil planı (1952) olacaktır. (Bildirinin 1952 öncesi bazı önemli tarihi boxpur habercilerini
kaçırdığı not

4

Tıbbi istatistiklerde, sadece dağılımların şekilleri ve görünüşleri hakkında yorum yaparız. Hiçbir ayrık sonlu numunenin normal olamayacağı gerçeği alakasız ve bilgiçtir. Bunun için seni yanlış işaretlerdim.

Bir dağıtım "çoğunlukla" normal görünüyorsa, normal olarak adlandırmaktan rahat oluruz. İstatistiksel olmayan bir kitle için dağılımları tanımladığımda, normal dağılımın altında yatan olasılık modeli olmadığını bilsem bile yaklaşık normal bir şey çağırmaktan çok rahatım, burada öğretmeninizle birlikte olacağım hissini anlıyorum ... ama biz doğrulanacak histogram veya veri kümeniz yok.

Bahşiş olarak, aşağıdaki denetimleri çok yakından izlerdim:

  • aykırı değerler kimler, kaç tanesi ve değerleri nelerdir?
  • Veri bimodal mı?
  • Bazı dönüşümlerin (kütük gibi) gözlemler arasındaki "mesafeyi" daha iyi ölçebilmesi için veriler çarpık bir şekil alıyor mu?
  • Testlerin veya laboratuvarların belirli bir değer aralığını güvenilir bir şekilde tespit edememesi için belirgin bir kesme veya yığınlama var mı?

Öyle görünüyor ki, çok fazla matematik alan bir alanda, insanlar bir şeylerin çok katı karışıklıkları olan "normal dağılım" olduğunu söylemek ve "neredeyse normal" demek arasında daha katı olurdu. 1.932'nin 2 olduğunu asla söyleyemem ama neredeyse 2 olduğunu söyleyebilirim.
Possum-Pie

1
"Alakasız ve bilgiçlik"? Ciddi anlamda? Possum-Pie'a katılıyorum. Ayrıca, 1.932'nin 2.0 ile aynı olduğunu asla söylemem. Verilerin "normal" olduğunu söylemek, verileri üreten süreç için bir model olarak normal dağılımın anlamından normal dağılımların süreçlerimizi hiçbir zaman kesin olarak modellemediği gerçeğine kadar her şeyi karıştırır . Herkese normal dağılımı öğrendiklerinde saçma ifadeler yapmamaları öğretilmelidir.
Peter Westfall

2
@PeterWestfall Ben burada sorunun bir parçası "veri normal bir dağıtım geliyor" neredeyse hiçbir zaman doğru değildir ve doğru olsa bile, kesin olarak kanıtlamak imkansız olacağını düşünüyorum. Bu yüzden, cümle kelimenin tam anlamıyla doğru olmayacağından, insanlar bunun yerine "veriler normaldir" ifadesini "veriler pratik amaçlar için normalliğe yeterince yakın görünüyor" veya "normal dağılım iyi DGP için yeterli model ".
Silverfish

Öyleyse neden neyin doğru olduğunu öğretmek bu kadar basit olduğunda neyin yanlış olduğunu öğretiyorlar?
Peter Westfall

3
@PeterW Dilbilimsel nokta sadece öğretme ile ilgili değildir, bu ifadenin günlük hayatta nasıl kullanıldığı (ve yorumlanması amaçlanan) ile ilgilidir: "veriler normaldir" demek için neredeyse hiç kullanılmaz. verilerin örneklendiği popülasyon normaldir ", çünkü bunu yapmak neredeyse hiç mümkün değildi. İnsanlar "veri söyledi Eğer daha hoş olurdu görünüyor " veri görünüyor normal "veya hatta normalish (yani biz normaliteden onun sapma umurumda değil o normale yakın yeterince görünüyor) ama özellikle uygulamalı bir ortamda insanlar genellikle diyecekler" Bunun gibi şeyler.
Silverfish

2

Bence siz ve profesörünüz farklı bağlamlarda konuşuyorsunuz. Ortalama = medyan = mod eşitliği teorik dağılımın karakteristikleridir ve tek özellik bu değildir. Mülkiyet ambarının üzerindeki herhangi bir dağıtım için dağıtımın normal olduğunu söyleyemezsiniz. T dağılımı da simetriktir ancak normal değildir. Yani, normal dağılım için her zaman doğru olan normal dağılımın teorik özelliklerinden bahsediyorsunuz.

Profesör örnek verilerin dağıtımı hakkında konuşuyor. Haklı, ortalama = medyan = mod bulacağınız hiçbir zaman gerçek hayatta veri alamazsınız. Bunun nedeni sadece örnekleme hatasıdır . Benzer şekilde, çok olası değildir, örnek veriler için sıfır çarpıklık katsayısı ve sıfır fazla basıklık elde edersiniz. Profesörünüz, örnek istatistiklerden dağılım hakkında fikir edinmek için size basit bir kural veriyor. Bu genel olarak doğru değil (daha fazla bilgi almadan).


3
Profesörün femaie olduğu söylenir.
Nick Cox

Neden ortalama = median = modunu almıyorsunuz, çünkü birçok dağıtım gerçekten çarpıktır! (Kesinlikle, ortalama = medyan = mod, birçok ders kitabının söylediklerine rağmen, çarpık dağılımlarla da mümkündür.)
Nick Cox

1
Ortalama / medyan / mod eşitliği eksikliğinin = örnekleme hatası olduğuna katılmıyorum. Düşme oranları için rastgele örneklenmiş 52 bakım evini varsayalım. 27, 34 ve 52 numaralı evler kronik olarak kısa personellidir ve her zaman ortalamanın üzerinde düşüşe sahiptir. Bu evler kuyruğa doğru itiyor ve örnekleme hatasından kaynaklanmıyor.
Possum-Pie

1
@Possum Pie Verilerin burada ikincil olduğu, ancak farklı yerlerde farklı sinyaller veriyorsunuz. Burada birkaç bakım evi hakkında konuşuyorsunuz - ancak sorunuzda "bakım evinde" belirtiyorsunuz. Arızi detaylar hakkında bile belirsiz olmak yardımcı olmaz.
Nick Cox

@Nick Cox Üzgünüm, açıklığa kavuştum. 52 huzurevindeki bir örnekte düşen yıl / yıl
Possum-Pie

1

Pratik amaçlar için, bunun gibi altta yatan süreçler, herhangi bir kaş kaldırmadan genellikle normal dağılıma çok iyi yaklaşır.

Bununla birlikte, bilgiçlikçi olmak istiyorsanız, bu durumda temel süreç normal olarak dağıtılamaz, çünkü negatif değerler üretemez (düşme sayısı negatif olamaz). Aslında en azından ikinci pik sıfıra yakın iki-modlu bir dağılım olsaydı şaşırmazdım.


4 ve 13 düşüş modları ile bimodal IS. Bildirilen sıfır düşüş yoktur.
Possum-Pie
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.