Profesörle tartışmanızla ilgili bir sorun terminolojidir, potansiyel olarak yararlı bir fikri iletme yolunda bir yanlış anlama vardır. Farklı yerlerde, ikiniz de hata yaparsınız.
Bu yüzden ele alınması gereken ilk şey: Bir dağıtımın ne olduğu konusunda oldukça net olmak önemlidir. .
Normal dağılım , sonsuz bir değer popülasyonu için bir model olarak düşünebileceğiniz belirli bir matematik nesnesidir. (Hiçbir sonlu popülasyonun aslında sürekli bir dağılımı olamaz.)
Gevşek olarak, bu dağılımın ne yaptığı (parametreleri belirledikten sonra) (bir cebirsel ifade yoluyla) gerçek satırdaki herhangi bir aralıkta bulunan nüfus değerlerinin oranını tanımlar. Biraz daha az gevşek bir şekilde, bu popülasyondan tek bir değerin herhangi bir aralıkta yatma olasılığını tanımlar.
Gözlenen bir numunenin gerçekten normal bir dağılımı yoktur; eğer bir örnek mevcutsa normal bir dağılımdan (potansiyel olarak) bir örnek alınabilir. Örneğin ampirik cdf'sine bakarsanız, bu ayrıktır. Çöp kutusu (histogramda olduğu gibi) örnekte bir "frekans dağılımı" vardır ancak bunlar normal dağılım değildir. Dağılım bize popülasyondan rastgele bir örnek hakkında (olasılıklı bir şekilde) bazı şeyler söyleyebilir ve bir örnek bize nüfus hakkında da bazı şeyler söyleyebilir.
"Normal olarak dağıtılmış örnek" * gibi bir ifadenin makul bir yorumu, "normal olarak dağıtılmış bir popülasyondan rastgele bir örnek" tir.
* (Genellikle umarım burada yeterince açıklığa kavuşturulmuş nedenlerden dolayı kendim söylemekten kaçınırım; genellikle kendimi ikinci ifade türüyle sınırlamayı başardım.)
Terimleri tanımladıktan sonra (hala biraz gevşekse), şimdi soruyu ayrıntılı olarak inceleyelim. Sorunun belirli kısımlarına değineceğim.
normal dağılım ortalama = medyan = mod olmalıdır
Bu, normal dağılımdan alınan bir örnek üzerinde bir gereksinim olmamasına rağmen, kesinlikle normal olasılık dağılımında bir koşuldur; örnekler asimetrik olabilir, ortalama medyandan farklı olabilir vb. [Bununla birlikte, eğer örnek gerçekten normal bir popülasyondan gelmişse, ne kadar birbirlerinden makul bir şekilde bekleyebileceğimizi öğrenebiliriz.]
tüm veriler çan eğrisinin altında olmalıdır
Bu bağlamda "altında" ifadesinin ne anlama geldiğinden emin değilim.
ve ortalama etrafında mükemmel simetriktir.
Hayır; buradaki verilerden bahsediyorsunuz ve (kesinlikle simetrik) normal popülasyondan bir örnek, mükemmel bir şekilde simetrik olmazdı.
Bu nedenle, teknik olarak, gerçek çalışmalarda neredeyse hiç normal dağılım yoktur,
Sonucunuza katılıyorum, ancak gerekçe doğru değil; verilerin mükemmel bir şekilde simetrik (vb.) olmasının bir sonucu değildir; popülasyonların kendilerinin tamamen normal olmadığı gerçeğidir .
eğer çarpıklık / basıklık 1.0'dan küçükse normal dağılımdır
Bunu böyle söylerse, kesinlikle yanlıştır.
Bir örnek çarpıklığı 0'dan çok daha yakın olabilir (gerçek değer değil mutlak büyüklükte "daha az" almak) ve örnek fazla basıklık da 0'dan çok daha yakın olabilir (şans eseri veya potansiyel olarak hemen hemen sıfır olabilir) ve yine de numunenin çekildiği dağılım kolayca normal olmayabilir.
Daha da ileri gidebiliriz - nüfusun çarpıklığını ve basıklık tam olarak normal bir şey olduğunu sihirli bir şekilde bilsek bile, yine de kendi başına popülasyonun normal olduğunu, hatta normale yakın bir şey olduğunu söyleyemezdi.
Veri seti, daha büyük bir nüfusun rastgele bir örneği olan 52 bakımevinin rastgele örneklemesinde toplam düşme / yıl sayısıdır.
Sayıların nüfus dağılımı asla normal değildir. Sayımlar kesikli ve negatif olmayan, normal dağılımlar süreklidir ve tüm gerçek çizgi üzerindedir.
Ama burada yanlış konuya gerçekten odaklandık. Olasılık modelleri, sadece o vardır modeller . Bize vermeyelim gerçeğiyle bizim modellerini karıştırmayın .
Sorun " verilerin kendileri değil mi?" normal mi?" (olamazlar) ve hatta "verilerin alındığı nüfus normal değil mi?" (bu neredeyse hiç böyle olmayacak).
Tartışılması daha yararlı bir soru, "topluma normal dağılmış gibi davranırsam çıkarımım ne kadar kötü etkilenir?"
Aynı zamanda iyi cevaplamak çok daha zor bir soru ve birkaç basit tanıya bakmaktan çok daha fazla iş gerektirebilir.
Gösterdiğiniz örnek istatistikler normallikle özellikle tutarsız değildir (normal popülasyonlardan bu boyutta rastgele örneklere sahipseniz, bunun gibi istatistikleri veya "daha kötü" nadiren nadiren değil) görebilirsiniz, ancak bu, gerçek nüfusun kendisi olduğu anlamına gelmez. numunenin alındığı belirli bir amaç için otomatik olarak normale "yeterince yakın" olur. Amacı (cevapladığınız soruları) ve bunun için kullanılan yöntemlerin sağlamlığını dikkate almak önemlidir ve o zaman bile bunun "yeterince iyi" olduğundan emin olamayabiliriz; bazen a priori varsaymak için iyi bir nedenimiz olmadığını varsaymak daha iyi olabilir (örneğin, benzer veri kümeleriyle deneyime dayanarak).
normal bir dağılım DEĞİL
Veriler - normal bir popülasyondan alınan veriler bile - asla nüfusun özelliklerine tam olarak sahip değildir; sadece bu rakamlardan, burada nüfusun normal olmadığı sonucuna varmak için iyi bir temeliniz yok.
Öte yandan, normale "yeterince yakın" olduğunu söylemek için makul bir dayanak da yok - normallik varsaymayı bile düşünmedik, bu yüzden hangi dağıtım özelliklerine duyarlı olabileceğini bilmiyoruz.
Örneğin, sınırlı bir ölçüm için iki örneğim olsaydı, çok ayrık olmayacağını (çoğunlukla sadece birkaç farklı değer almakla kalmayacağını) ve makul olarak simetriğe yakın olacağını bilsem, iki numuneyi kullanmaktan nispeten mutlu olabilirim çok küçük olmayan bazı örnek boyutlarında t testi; varsayımlardan orta derecede hafif ila hafif sapmalar (biraz sağlam, o kadar güçlü değil). Ancak, örneğin, yayılım eşitliğini test ederken normallik nedensel olduğu varsayımı konusunda daha temkinli olurum, çünkü bu varsayım altındaki en iyi test, varsayımlara oldukça duyarlıdır.
İkisi de -1 ile +1 arasındaki kritik değerler arasında olduğundan, bu verilerin normal olarak dağıtıldığı kabul edilir. "
Bu normal bir dağılımsal modeli kullanmaya karar verdiği kriter ise, bazen sizi oldukça zayıf analizlere yönlendirecektir.
Bu istatistiklerin değerleri bize numunenin alındığı nüfus hakkında bazı ipuçları verir, ancak bu, değerlerinin herhangi bir şekilde bir analiz seçmek için 'güvenli bir rehber' olduğunu öne sürmekle aynı şey değildir.
Şimdi, altta yatan sorunu, sahip olduğunuz soru gibi daha iyi bir ifade sürümü ile ele almak için:
Bir model seçmek için bir örneğe bakma sürecinin tamamı problemlerle doludur - bunu yapmak, gördüklerinize dayanarak sonraki analiz seçeneklerinin özelliklerini değiştirir! Örneğin, bir hipotez testi için, önem seviyeleriniz, p-değerleriniz ve gücünüz, onları seçeceğiniz / hesaplayacağınız şey değildir , çünkü bu hesaplamalar, verilere dayanmayan analize dayanmaktadır.
Örneğin , bu tür verilere bağlı analizlerle ilgili sorunları tartışan Gelman ve Loken (2014), " Bilimde İstatistiksel Kriz ," Amerikalı Bilim İnsanı , Cilt 102, Sayı 6, s 460 (DOI: 10.1511 / 2014.111.460).