Bir t testi gerçekleştirmek için Excel kullanarak normal dağılım kontrolü nasıl yapılır?


21

Sadece bir t-testi kullanma şartlarının yerine getirildiğini doğrulamak için Excel'de normallik için bir veri setinin nasıl kontrol edileceğini bilmek istiyorum .

Sağ kuyruk için, sadece bir ortalama ve standart sapma hesaplamak, bir aralık oluşturmak için ortalamadan 1, 2 ve 3 standart sapma eklemek, ardından kullandıktan sonra standart normal dağılım için normal 68/95 / 99.7 ile karşılaştırmak uygun olur. Her standart sapma değerini test etmek için norm.dist işlevi excel işlevindedir.

Yoksa normalliği test etmenin daha iyi bir yolu var mı?


Yanıtlar:


15

Doğru fikrin var. Bu sistematik, kapsamlı ve nispeten basit hesaplamalar ile yapılabilir. Sonuçların grafiğine normal bir olasılık grafiği (veya bazen bir PP grafiği) denir . Ondan diğer grafiksel gösterimlerde, özellikle histogramlarda göründüğünden çok daha fazla ayrıntı görebilirsiniz ve küçük bir uygulama ile, verilerinizi, gerektiği durumlarda Normal'e daha yakın hale getirmek için yeniden ifade etmenin yollarını belirlemeyi bile öğrenebilirsiniz.

İşte bir örnek:

Olasılık arsa ile elektronik tablo

Veri sütununda A(ve adlandırılmış Data). Gerisi tüm hesaplama, ancak arsaya bir referans çizgisine uymak için kullanılan "menteşe sırası" değerini kontrol edebilirsiniz.

Bu çizim, verileri standart bir Normal dağılımdan bağımsız olarak çekilen sayılarla elde edilebilecek değerlerle karşılaştıran bir dağılım grafiğidir. Noktalar diyagonal boyunca sıralandığında, Normal'e yakındır; yatay kalkışlar (veri ekseni boyunca) normallikten ayrılmaları gösterir. Bu örnekte, noktalar referans çizgisine oldukça yakındır; en büyük kalkış çizginin solundaki yaklaşık birim olan en yüksek değerde gerçekleşir . Bu nedenle, bir bakışta bu verilerin Normal dağılıma çok yakın olduğunu, ancak belki de hafif bir "hafif" sağ kuyruğa sahip olduğunu görüyoruz. Bu bir t testi uygulamak için mükemmel.1.5

Dikey eksendeki karşılaştırma değerleri iki adımda hesaplanır. İlk önce her veri değeri ile arasında (veri hücresinde gösterilen alanda ) veri miktarı olarak sıralanır . Bunlar orantılı olarak ila arasındaki değerlere dönüştürülür . Kullanılacak iyi bir formül (Bkz. Http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm nereden geldiği için.) Ardından, bunlar işlev aracılığıyla standart Normal değerlere dönüştürülür . Bu değerler sütunda görünür . Sağdaki arsa bir XY dağılım grafiğidir.1n0 1 ( seviye - 1 / 6 ) / ( n + 2 / 3 ) .CountF201(rank1/6)/(n+2/3).NormSInvNormal scoreNormal Scoreverilere karşı. (Bazı referanslarda belki daha doğal olan bu arsanın transpoze edildiğini göreceksiniz, ancak Excel en soldaki sütunu yatay eksene ve en dik sütunu dikey eksene yerleştirmeyi tercih ediyor, bu yüzden tercih ettiği şeyi yapmasına izin verdim. )

Elektronik tablo: normal puan hesaplaması

(Görebildiğiniz gibi, bu verileri, ortalama ve standart sapma olan bir Normal dağılımdan bağımsız rastgele çizimlerle simüle ettim . Bu nedenle, olasılık grafiğinin çok hoş görünmesi şaşırtıcı değildir.) Gerçekten de yazmanız gereken iki formül var. Verileri eşleştirmek için aşağıya doğru ilerlersiniz: hücrelerde görünürler ve hücrede hesaplanan değere güvenirler . Komplo dışında, hepsi orada gerçekten var.52B2:C2CountF2

Bu sayfanın geri kalan kısmı gerekli değildir, ancak taslağı değerlendirmek için faydalıdır: bir referans hattının sağlam bir tahminini sunar. Bu, arsanın sol ve sağından eşit uzaklıkta iki nokta toplayarak ve bunları bir çizgiyle birleştirerek yapılır. Örnekte bu noktalar , hücredeki tarafından belirlendiği üzere üçüncü en düşük ve üçüncü en yüksektir . Bir bonus olarak, eğimi ve kesişmesi, sırasıyla standart sapma ve verilerin ortalamasıdır.3Hinge RankF3

Referans çizgisini çizmek için iki uç nokta hesaplanır ve grafiğe eklenir: hesaplamaları ve I:Jetiketli sütunlarda gerçekleşir .XY

Elektronik tablo: referans çizgisi hesaplama


Sütun B'deki formüllerde, 1 ekleyip 6 ve 3'e (“+ 1/6” ve “+ 1/3”) bölmenin nedenini açıklar mısınız? Ayrıca Menteşe Sıra Hücresinde 6'ya bölmeyi seçmenizin bir nedeni var mı?

@Michael İyi sorular. olasılık komplo noktaları belirlemenin basit, iyi bilinen bir yoludur . John Tukey'in EDA adlı kitabında bunu tavsiye ettiğini hatırlıyorum . Menteşe sıralaması formülü gizemlidir: ve yüzdelik noktalarda uçlardan eşit uzaklıkta iki nokta seçtiğimi söylemeliydim . Büyük ölçüde büyük ve 2'den küçük olan herhangi bir çarpan işe . popülerdir: çeyreklere karşılık gelir. Yani olan Normal dağılımı için 1 SD karşılık gelen. 100 x 1 / 6 100 x 5 / 6 0 1 / 2 1 / 4 0.161/6100×1/6100×5/601/21/40.16
whuber

Formül (rütbe + 1/6) / (n + 1/3) beklediğimiz gibi simetrik görünmüyor. Örneğin, 3'ün ortadaki gözlemi ile sıralama 2'dir ve bu, ortadaki gözlem için doğal görünecek olandan ziyade, 0.65'e karşılık gelen bir yüzdelik oranına işaret edecektir (0.5). Açık bir şeyi mi özledim? [Tukey’in farklı yerlerde birkaç farklı formül kullandığını gördüm (i-1/3) / (n + 1/3). Bağlantınızdaki formül ortak (ia) / (n + 1-2a) şemasına uyuyor ancak cevabınıza verdiğiniz formül]]
Glen_b -Reinstate Monica

@Glen_b Bunu yakaladığınız için teşekkür ederiz. Formülü yanlış yazmıştım. Kaynağım de (! Kendi sayfası) quantdec.com/envstats/notes/class_02/... genellikle bir kullanır: Doğru formülü verilen ve haklı olduğunu, nerede olan sıralaması (dan ile ) ve tipik arasında bir sayıdır ve , genellikle, . Bu , istenen formül olarak 2/3) verir. ( 1/3, verdiğiniz Tukey formülünü verir.) Formülü ve Excel resmini düzelttim. R1, nbir011/6(r-1/6)/(n+2/3), bir=1/3
ran+12a
r1na011/6(r1/6)/(n+2/3)a=1/3
whuber

5

Sen olabilir Excel'de veri analizi toolpack kullanarak bir histogram çizmek . Grafiksel yaklaşımların normal olmayan dereceyi bildirme olasılığı daha yüksektir; bu normalde varsayım testi için daha uygundur ( bu normalite tartışmasına bakınız ).

Excel'deki veri analizi araç paketi, açıklayıcı istatistikler ister ve "özet istatistikler" seçeneğini seçerseniz, size çarpıklık ve kurtosis verecektir . Örneğin, üstündeki çarpıklık değerlerini artı veya eksi, normal olmayan bir biçim biçimi olarak düşünebilirsiniz.

Bu, t testleri ile yapılan varsayımın, artıkların normal olarak dağıldığını ve değişken olmadığını söyledi. Dahası, oldukça sağlamdırlar ki, oldukça büyük miktarlarda normallik olmasa bile, p değerleri hala oldukça geçerlidir.


4

Bu soru istatistik teorisi ile de sınırlıdır - sınırlı verilerle normallik testi yapmak şüpheli olabilir (zaman zaman bunu hepimiz yapmış olsak da).

Alternatif olarak, kurtosis ve eğriltme katsayılarına bakabilirsiniz. Gönderen Hahn ve Shapiro: Mühendisliğinde İstatistiksel Modeller bazı arka plan Bunun arkasında 197. Ek teori Wikipedia bulunabilir özellikleri b1 ve Beta2 (sayfa 49 ile 42) ve Sayfa Şekil 6-1 (Pearson Dağılımı bakınız) sağlanır.

Temel olarak, Beta1 ve Beta2 denilen özellikleri hesaplamanız gerekir. Bir Beta1 = 0 ve Beta2 = 3, veri setinin normale yaklaştığını gösteriyor. Bu kaba bir testtir ancak sınırlı verilerle herhangi bir testin kaba bir test olarak kabul edilebileceği söylenebilir.

Beta1 , sırasıyla 2. ve 3. dakikalarla veya sırasıyla varyans ve çarpıklıkla ilgilidir . Excel'de bunlar VAR ve SKEW. ... veri diziniz nerede, formül:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 , sırasıyla 2 ve 4 numaralı anlarla veya sırasıyla varyans ve kurtoz ile ilgilidir . Excel'de bunlar VAR ve KURT'dir. ... veri diziniz nerede, formül:

Beta2 = KURT(...)/VAR(...)^2

Sonra bunları sırasıyla 0 ve 3 değerlerine göre kontrol edebilirsiniz. Bu, potansiyel olarak diğer dağılımları belirleme avantajına sahiptir (Pearson Dağılımları I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Örneğin, Düzgün, Normal, Student'in t, Beta, Gama, Üstel ve Log-Normal gibi yaygın olarak kullanılan dağılımlarının çoğu bu özelliklerden gösterilebilir:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

Bunlar Hahn ve Shapiro Şekil 6-1'de gösterilmektedir.

Bu çok zor bir testtir (bazı konularda) ancak daha sıkı bir yönteme geçmeden önce ön kontrol olarak düşünebilirsiniz.

Verilerin sınırlı olduğu durumlarda Beta1 ve Beta2'nin hesaplanması için de ayarlama mekanizmaları vardır - ancak bu yazının ötesindedir.


Bu malzemelerin çoğu büyük veri kümeleri için iyi çalışabilir ve ilk değerlendirmenize, normallik testinin küçük veri kümeleriyle sınırlandırılabileceğini veya sorgulanabileceğini kabul ediyorum. Ancak , çarpıklık ve kurtozun büyük çeşitliliği göz önüne alındığında, bu istatistiklere dayanan temel dağılım türünü belirleme çabalarının daha tartışmalı ve daha az kesin olacağı görülmektedir. Sonuç olarak, bu yaklaşım bir ön kontrol olarak bile (en iyi ihtimalle) yanıltıcı olmaz mıydı?
whuber

1
Belki de yöntemi daha iyi nitelemek en iyisidir: Hahn ve Shapiro (yukarıda belirtildiği gibi), özellikle numune büyüklüğü 200'den küçük olduğunda dikkatli olunması gerektiğini tavsiye eder - ve bunun, sıklık tablosu gibi daha fazla doğrulama yapılmasını tavsiye eder. takılı dağılımı gerçek verilerle karşılaştıran değer. Ancak benim görüşüme göre , verilerin bir olasılıklar yelpazesi içinde nereye uzanabileceğini önerebilecek faydalı bir yöntemdir . Yaklaşık 3000'den küçük olmayan veri setlerinde kullandım ve yararlı olduğunu kanıtladığı bilgisayar simülasyon yazılımına yerleştirdim.
AsymLabs

Metodunuzu 3000 veya daha büyük veri setleri ile faydalı bilgiler vererek görebiliyorum. Bununla birlikte, ortalamanın bir t-testinin uygulanabilirliğini değerlendirmek için dağıtım testi yapmaya gerek yoktur.
whuber

Biri bunu faydalı bir teknik olarak görse de, benim yaptığım gibi, ya da sizin görüşünüze göre göründüğü gibi, yine de, (ve Students-t uygulaması) bu konunun bağlamı. Lütfen beni yanlış anlamayın, endişelerinizi kabul ediyorum ve onaylıyorum. Ancak ikimizde hemfikirdik, değil miyiz, önceden herhangi bir bilgi olmadan, tüm popülasyonun Gauss'ta çok küçük bir veri numunesinden modellenip modellenemeyeceğini belirlemeye çalışmanın karanlıkta herhangi bir yöntemle en iyi şekilde vurulduğunu ve tehlikeli.
AsymLabs

1
Doğru. Söylemeye çalıştığım, eğer küçük bir örneklemden popülasyonun Gauss olup olmadığını test etmek denemek tehlikeli ise, en azından altta yatan dağılımın ne olabileceğini belirlemek için çarpıklık ve kurtosis kullanmak tehlikeli olmalıdır! Aslında, böyle bir girişimin daha da kötüye gideceği anlaşılıyor çünkü kurtoz gibi dengesiz istatistiklere dayanıyor. Pearson'un sistemi insanların olası dağılımları tanımlamasına yardımcı olmak için güçlü bir rehber olsa da, histogramlar gibi sınırlı grafik ekranlardan bile daha az içgörü sağlar.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.