Normal dağılım için çarpıklık ve basıklık değerleri aralığı


11

Verilerin normal olarak dağıtıldığı düşünülen çarpıklık ve basıklık değerlerinin aralığının ne olduğunu bilmek istiyorum .

Birçok argüman okudum ve çoğunlukla karışık cevaplar aldım. Bazıları, basıklık için çarpıklık ve normal dağılım için kabul edilebilir bir aralıktır. Bazıları çarpıklık için kabul edilebilir bir aralıktır. Burada ayrıntılı bir tartışma buldum: Bu konuyla ilgili verilerin normal dağılımı için kabul edilebilir çarpıklık ve basıklık aralığı nedir . Ama kesin bir ifade bulamadım.(-1,1)(-2,2)(-1.96,1.96)

Böyle bir aralığa karar vermenin temeli nedir? Bu öznel bir seçim mi? Yoksa bu aralıkların arkasında matematiksel bir açıklama var mı?


3
"Kabul edilebilir" i ne veya kim tanımlar?
Glen_b-Monica

Bu iyi bir soru. Bunun için net bir cevabım yok.
Dark_Knight

Sorunuzun arkasına yerleştirmenin bazı zımni yöntem olduğunu düşünerek doğru muyum: "Bu modeli tahmin etmeden / bu testi gerçekleştirmeden önce örnek çarpıklığını ve basıklığı kontrol edin. Her ikisi de önceden belirlenmiş aralıklar dahilindeyse normal teori prosedürü, aksi takdirde başka bir şey kullanın. " ...?
Glen_b-Monica

Öyleyse, böyle bir yaklaşımı kullanabileceğiniz normal varsayımlarla prosedürler nelerdir? Hangi değişkenleri kontrol edersiniz? Bazı kriterler tarafından "kabul edilebilir" olmadığına karar verirseniz kullanacağınız alternatif prosedürler nelerdir?
Glen_b-Monica

Ayrıca - ve bu bağlam için, özellikle de bazı sınırların seçilmesi için bazı akıl yürütmenin sunulduğu durumlarda önemli olabilir - bunlardan alabileceğiniz herhangi bir alıntıyı dahil edebilirsiniz (özellikle önerilen aralıklar oldukça farklı)? Böyle bir bağlamdan bilmek faydalı olacak bir şey - bu tür şeyleri ne için kullanıyorlar?
Glen_b-Monica

Yanıtlar:


6

Orijinal gönderi birkaç önemli noktayı kaçırıyor: (1) Hiçbir "veri" normal olarak dağıtılamaz. Veriler mutlaka ayrıktır. Geçerli soru şudur: "Verileri üreten süreç normal olarak dağıtılmış bir süreç midir?" Ancak (2) ikinci soruya verilen cevap, verilere dayalı herhangi bir istatistiksel test veya başka bir değerlendirme ne olursa olsun, her zaman "hayır" dır. Normal olarak dağıtılmış süreçler, standart sapma aralıkları (örn. 68-95-99.7) içinde sonsuz süreklilik, mükemmel simetri ve kesin olarak belirlenmiş olasılıklara sahip veriler üretir; bunların hiçbiri, ne olursa olsun ölçebileceğimiz verilere yol açan işlemler için kesinlikle doğru değildir. İnsanların kullanabileceği ölçüm cihazı.

Dolayısıyla, verilerin asla normal şekilde dağıtıldığını düşünemezsiniz ve verileri üreten işlemi kesinlikle normal olarak dağıtılmış bir süreç olarak değerlendiremezsiniz. Ancak, Glen_b'in belirttiği gibi, verilerle ne yapmaya çalıştığınıza bağlı olarak çok fazla önemli olmayabilir.

Çarpıklık ve basıklık istatistikleri, veri oluşturma sürecinizin normalliğinden sapma türlerini değerlendirmenize yardımcı olabilir. Yine de çok değişken istatistikler. Yukarıda verilen standart hatalar yararlı değildir, çünkü bunlar sadece normallik altında geçerlidir, yani sadece normallik için bir test, esasen yararsız bir egzersiz olarak faydalıdırlar. Doğruları elde etmek için büyük numunelere ihtiyaç duyulsa da, se'leri bulmak için bootstrap kullanmak daha iyi olacaktır.

Ayrıca, yukarıdaki yazının aksine, basıklığı yorumlamak çok kolaydır. Her biri dördüncü güce alınan Z değerlerinin ortalaması (veya beklenen değer). Büyük | Z | değerler aykırı değerlerdir ve basıklıklara büyük katkıda bulunurlar. Küçük | Z | dağılımın "tepe noktası" olan değerler, küçük olan Z ^ 4 değerlerini verir ve basıklık için hiçbir şey yapmaz. Yazımda https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ basıklığın Z ^ 4 * I (| Z |> 1) değerlerinin ortalaması ile çok iyi yaklaştığını kanıtladım . Dolayısıyla basıklık, veri üreten sürecin aykırı değer üretme eğilimini ölçer.


Sadece temizlemek için, "normal olarak dağıtılmış süreç" ile tam olarak ne demek istiyorsun? Rastgele değişkenlerin ayrıklığı ve sürekliliği hakkında söylediklerinizi alıyorum, ama Merkezi Limit teoremi kullanılarak yapılabilecek normal dağılım varsayımı ne olacak?
Dark_Knight

CLT burada alakalı değil - ortalamalar değil, bireysel veri değerleri üreten dağılımdan bahsediyoruz. "Normal olarak dağıtılmış işlem", normal olarak dağıtılmış rasgele değişkenler üreten bir işlemdir. Mükemmel bir normal bilgisayar rastgele sayı üreteci bir örnek olacaktır (böyle bir şey mevcut değildir, ancak kullandığımız yazılımda oldukça iyi.)
Peter Westfall

Ayrıca, analiz edebileceğimiz veri üreten hiçbir işlem normal bir işlem olmadığı için, bu tür herhangi bir işlemle üretilen ortalamaların dağılımının, örneklem büyüklüğünden bağımsız olarak, hiçbir zaman tam olarak normal olmadığı sonucuna varır. Ancak evet, bu tür ortalamaların dağılımları CLT'ye göre normal dağılımlara yakın olabilir. Bu tür dağılımların normale yakınlığı, (i) örnek büyüklüğüne ve (ii) bireysel veri değerlerini üreten veri oluşturma sürecinin normallik derecesine bağlıdır.
Peter Westfall

4
Merhaba Peter - "yukarı" gibi referanslardan kaçınabilirsiniz çünkü sıralama düzeni değişecektir. Sizin için yukarıdaki şey, bir sonraki kişinin bakması için yukarıda olmayabilir. Eğer gung'un gönderisini ya da gönderimi kastediyorsanız (hala bazı yönleri üzerinde çalıştığım için düzenleme aşamasında) yazarları tarafından tanımlayabilirsiniz.
Glen_b

Yukarıda yüksek kurtozun aykırı değerler üretme eğiliminin daha yüksek olduğunu ima ediyor gibi görünüyorsunuz. Aykırı değerleri kesin olmayan bir şekilde tanımlamadığınız sürece (örneğin, iddiayı doğru yapmak için), bu genel durumda doğru olan bir ifade değildir. Örneğin, daha ağır kuyruğa sahip olanın daha düşük basıklık olduğu dağıtım çiftleri inşa etmek oldukça kolaydır.
Glen_b

5

Burada sorduğunuz şey, normal bir popülasyondan alınan bir örneğin çarpıklığı ve basıklığı için standart bir hatadır . Standart hatanın ne olacağını açıkça etkileyecek şekilde, çarpıklık veya şişmanlık (basıklık) gibi şeyleri tahmin etmenin çeşitli yolları olduğunu unutmayın . İnsanların düşündüğü en yaygın önlemler teknik olarak 3. ve 4. standart anlar olarak bilinir.

[1,)3kurtÖsbens-3[-2,)skewness2+124/N-0

Değer için, standart hatalar şunlardır:

SE(skewness)=6N-(N--1)(N--2)(N-+1)(N-+3)SE(kurtÖsbens)=2xSE(skewness)N-2-1(N--3)(N-+5)

0

  • <|.5|
  • [|.5|,|1|)
  • |1|

Çarpıklık ve basıklık hakkında iyi bir tanıtım özeti burada bulunabilir .


3

[Bundan sonra, her ikisi de önceden belirlenmiş aralıklar dahilindeyse, bazı normal teori prosedürlerini kullanın, aksi takdirde başka bir şey kullanın ”gibi bir örnek eğriliği ve basıklık kontrolü gibi bir şey önerdiğinizi varsayıyorum.]

Bunun bir çok yönü var, bunlardan sadece bir kaç nokta için alanımız olacak. Böyle bir ölçüt kullanmaya başlamadan önce önemli konulara bakmak olabileceğini düşündüğüm şeyleri listeleyerek başlayacağım. Daha sonra geri dönüp her öğe hakkında biraz yazmaya çalışacağım:

Dikkate alınacak konular

  1. Yaptığımız her şey için çeşitli normalliksizlik ne kadar kötü olur?

  2. Örnek sapma ve basıklık aralıklarını kullanarak bu sapmaları toplamak ne kadar zordur?

    Teklifte hemfikir olduğum bir şey var - önemden ziyade etki büyüklüğü ( normallikten ne kadar sapma) ile ilgili bir çift ölçüme bakar . Bu anlamda, daha büyük (ve daha etkili) sapmaların reddedilmesinin yanlış teselli edilmesini sağlarken, büyük örnek büyüklüklerindeki önemsiz sapmaları bile reddetme eğiliminde olacak resmi bir hipotez testinin faydalı olacağı bir şeye değinmek daha yakın olacaktır. küçük örnek boyutları. (Hipotez testleri burada yanlış soruyu ele almaktadır.)

    Tabii ki küçük örnek boyutlarında, önlemlerin çok "gürültülü" olması açısından hala sorunlu, bu yüzden hala orada sapık olabiliriz (bir güven aralığı gerçekten ne kadar kötü olabileceğini görmemize yardımcı olacaktır).

    Bize çarpıklık veya basıklıktaki bir sapmanın normallik için istediğimiz şeylerle nasıl ilgili olduğunu anlatmaz - ve farklı prosedürler normalliksizliğe verdikleri yanıtlarda oldukça farklı olabilir.

    Normallikten sapmamızın çarpıklık ve basıklığın kör olacağı bir tür olması bize yardımcı olmaz.

  3. Bu örnek istatistikleri iki prosedür arasında karar vermek için bir temel olarak kullanıyorsanız, ortaya çıkan çıkarımın özellikleri üzerindeki etkisi nedir (örneğin, bir hipotez testi için, önem seviyeniz ve gücünüz bunu nasıl yapıyor?)

  4. Normal dağılım ile tam olarak aynı çarpıklığa ve basıklığa sahip ancak belirgin şekilde normal olmayan sonsuz sayıda dağılım vardır. Simetrik olmalarına bile gerek yok! Bu tür şeylerin varlığı bu tür prosedürlerin kullanımını nasıl etkiler? İşletme en başından beri mahk dom mu?

  5. Normal dağılımlardan alınan örneklerde örnek çarpıklığı ve basıklıkta ne kadar değişiklik görebilirsiniz? (Normal örneklerin ne kadarının bir kural tarafından dışarı atılmasına neden oluruz?)

    [Kısmen bu sorun, gung'un cevabında tartıştığı bazı şeylerle ilgilidir.]

  6. Bunun yerine daha iyi bir şey olabilir mi?

Son olarak, tüm bu konuları düşündükten sonra devam edip bu yaklaşımı kullanmamız gerektiğine karar verirsek, sorunuzdan kaynaklanan hususlara ulaşırız:

  1. çeşitli prosedürler için çarpıklık ve basıklık üzerine koymak için iyi sınırlar nelerdir? Hangi prosedürlerde endişelenmemiz gereken değişkenler nelerdir?

    (örneğin, regresyon yapıyorsak, herhangi bir IV ve hatta ham DV ile bu şekilde başa çıkmanın yanlış olduğunu unutmayın - bunların hiçbirinin ortak bir normal dağılımdan alındığı varsayılmaz)


Ben geri gelmek ve bazı düşünceler eklemek, ama bu arada herhangi bir yorum / soru yararlı olabilir.


0

Ayrıca, herhangi bir normallik testi yapmak için çarpıklık ve basıklık için neden belirli bir değer aralığına ihtiyacımız olduğunu da anlamıyorum?
Dark_Knight
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.