Basıklık tanımındaki farklılıklar ve yorumlanması


10

Son zamanlarda, SPSS ve Stata tarafından sağlanan basıklık değerlerinde farklılıklar olduğunu fark ettim.

Bkz. Http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm

Benim anlayışım, bunun yorumunun farklı olacağıdır.

Bununla nasıl başa çıkacağınıza dair herhangi bir tavsiye var mı?


İlk iki formülü biliyordum ve bunları ayırt etmek oldukça kolay; Üçüncü formülü görmemiştim.
Peter Flom

Yanıtlar:


9

Üç formül

Basıklık için üç formül genellikle farklı programlar tarafından kullanılır. Üç formülü de ( , ve ) ve bunları kullanan programları . G 2 b 2g2G2b2

Birçok formülde kullanılan ilk formül ve tipik tanım (bu, sağladığınız bağlantıdaki ikinci formüldür) burada örnek anları ifade eder : mr

g2=m4m22
mr

mr=1n(xix¯)r

Bazen normal bir dağılımın 0 basıklığı olması için bu formüle -3'lik bir düzeltme terimi eklenir. -3 terimi olan basıklık formülüne fazla basıklık (sağladığınız bağdaki ilk formül) denir .

İkinci formül (SAS, SPSS ve MS Excel tarafından kullanılan, bu sağladığınız linkte üçüncü formüldür) olduğu

G2=k4k22=n1(n2)(n3)[(n+1)g2+6]

burada , birinci formülde tanımlandığı gibi basıklıktır.g2

Üçüncü formül (Minitab ve BMDP tarafından kullanılan) olduğu

b2=m4s43=(n1n)2m4m223

burada , tarafsız örnek varyanstır :s2

s2=1n1(xix¯)2

Gelen Rbasıklık kullanılarak hesaplanabilir kurtosisgelen işlevi e1071paketi (bağlantı burada ). Seçenek type, üç formülden hangisinin hesaplamalar için kullanılacağını belirler (1 = , 2 = , 3 = ).g23G2b2

Bu iki makale üç formülü de tartışmakta ve karşılaştırmaktadır: birinci , ikinci .

Formüller arasındaki farkların özeti

  1. kullanarak , normal dağılım 3 basıklık değerine sahipken, düzeltme terimi -3 içeren formüllerde (yani ve ), normal bir dağılımın fazla basıklık 0'dır.g2G2b2
  2. G2 , normal numuneler için tarafsız tahminler veren tek formüldür (yani, normallik altında beklentisi sıfırdır veya ).G2E(G2)=0
  3. İçin büyük numuneler, formüller arasındaki fark ihmal edilebilir ve seçim çok önemli değildir.
  4. İçin normal dağılımdan küçük numunelerin, açısından üç formüllerin ilişkisi ortalama kare hata (MSE) olup: . Yani en küçük ve en büyüğüne sahiptir (sadece tarafsız olsa da). Bunun nedeni, üç formülün en büyük varyansına sahip olmasıdır: .mse(g2)<mse(b2)<mse(G2)g2G2G2G2Var(b2)<Var(g2)<Var(G2)
  5. İçin normal olmayan dağılımları küçük numuneler , yanlılığı açısından üç formüllerin ilişki aşağıdaki şekildedir: . Ortalama kare erorrs açısından: . Dolayısıyla , üç formülün en küçük ortalama kare hatasına ve en küçük sapmasına sahiptir. en büyük ortalama kare hatası ve yanlılığına sahiptir.bias(G2)<bias(g2)<bias(b2)mse(G2)<mse(g2)<mse(b2)G2b2
  6. İçin büyük numuneler ( normal olmayan dağılımlardan)n>200 , yanlılığı açısından üç formüllerin ilişki aşağıdaki şekildedir: . Ortalama kare erorrs açısından: .bias(G2)<bias(g2)<bias(b2)mse(b2)<mse(g2)<mse(G2)

Ayrıca bastosis hakkındaki Wikipedia sayfasına ve MathWorld sayfasına bakınız .


Buna "olağan hikaye" nin güzel ve açık bir yorumu diyebilirim. Leptokurtik, mezokurtik, platykurtic terimlerinin sadece 20. yüzyılda geride bırakmamız gereken bagaj olduğunu ekliyorum: nicel olarak düşünmemiz gereken bir önlemimiz var. Daha ciddisi, düz tepeye karşı zirveye çıkan yorum, sadece simetrik olanlar da dahil olmak üzere, olası dağılım şekillerindeki büyük farklılaşmayı haklı çıkarmaz. Son olarak, uygun olmayan küçük örneklerle oynamadığınız sürece uygulamadaki yanlılık çok fazla ısırmaz, ancak varyans gerçekten yapar!
Nick Cox

2 nolu özet maddeyi açıklığa kavuşturabilir misiniz? Açıkçası örnek bir istatistiktir ancak açıkçası dejenere bir dağılım için aynı değildir. Belki de beklentisinin sıfır olduğunu mu demek istediniz? (BTW, formülünde " " nedir? de ?)G2γ2g2
whuber

@whuber: Evet, elbette sıfır olan beklentisi . önceki bir cevap bir soydan gelen ve olmalıdır (şimdi değişti); Cevabımı oldukça yoğun bir şekilde düzenledim. G2γ2g2
COOLSerdash

Tamam, daha iyi görünüyor. Onu oylayacağım ama sonunda "Normal bir dağıtım için " ifadesini kaldırmanızı umuyoruz . G2=0
whuber

7

Söz konusu bağlantı SAS hakkında da konuşuyor. Ama aslında bu sorudaki hiçbir şey, muhtemelen posterin kendi odağı dışında, onu belirli programlarla sınırlandırıyor.

Bence burada, bazıları aldatıcı ve bazıları gerçek olan oldukça farklı türden sorunları ayırmamız gerekiyor.

  1. Bazı programlar 3'ü çıkarır ve öyle yapmaz ki rapor edilen basıklık ölçüsü Gauss / normal değişkenler için 3 ve çıkarma olmadan 0 olur. İnsanların şaşkına döndüğünü gördüm, çoğu zaman fark tam olarak değil 3.999 dendiğinde ortaya çıkıyor.

  2. Bazı programlar basıklığın önyargısız olarak tahmin edilmesini sağlamak için tasarlanmış düzeltme faktörlerini kullanır. Bu düzeltme faktörleri, numune boyutu büyüdükçe 1'e yaklaşmaktadır . Küçük numunelerde basıklık iyi tahmin edilmediğinden, bu çok endişe verici olmamalıdır.n

Yani, küçük bir formül sorunu var; # 1, # 2'den çok daha büyük bir anlaşma, ancak her ikisi de anlaşılırsa küçük. Öneriler, kullandığınız programın belgelerine ve bu programı derhal terk etmek için bu tür ayrıntıları açıklayan herhangi bir belge bulunmadığına açıkça bakmaktır. Ancak bir değişken (1, 2) kadar basit bir test durumu, yalnızca # 1'e (düzeltme faktörü olmadan) bağlı olarak 1 veya 4 basıklık verir.

Bu durumda soru yorumlama ister, ancak bu çok daha açık ve tartışmalı bir konudur.

Ana tartışma alanına gelmeden önce, sıklıkla bildirilen ancak az bilinen bir zorluk, basıklık tahminlerinin örneklem büyüklüğünün bir fonksiyonu olarak sınırlanmasıdır. Cox, NJ 2010'da bir inceleme yazdım. Örnek çarpıklık ve basıklık sınırları. Stata Journal 10 (3): 482-495. http://www.stata-journal.com/article.html?article=st0204

Özet: Örnek çarpıklığı ve basıklık, örneklem büyüklüğü işlevleri ile sınırlıdır. Sınırlar veya bunlara ilişkin yaklaşımlar son birkaç on yılda tekrar tekrar keşfedildi, ancak yine de çok az biliniyor gibi görünüyor. Sınırlar kestirime karşı önyargıyı beraberinde getirir ve aşırı durumlarda hiçbir numunenin ana dağıtımına kesin tanıklık edemeyeceğini ima eder. Ana sonuçlar bir öğretici derlemede açıklanmıştır ve Stata ve Mata'nın sonuçlarını doğrulamak ve araştırmak için nasıl kullanılabileceği gösterilmiştir.

Şimdi konunun özü olarak kabul edilen şeye:

Birçok insan basıklığı doruk noktasına çevirir, ancak diğerleri sıklıkla kuyruk ağırlığının bir ölçüsü olarak hizmet ettiğini vurgular. Aslında, iki yorum bazı dağıtımlar için makul ifadeler olabilir. Basıklığın basit bir sözlü yorumunun olmaması neredeyse kaçınılmazdır: dilimiz, dördüncü güçlerin toplamlarının ve bunların ikinci güçlerinin toplamlarından sapmalarının karşılaştırılması konusunda yeterince zengin değildir.

Küçük ve sıklıkla gözden kaçan bir klasikte, Irving Kaplansky (1945a), bazı basıklık tartışmalarıyla tutarlı olmayan farklı basıklık ve davranış değerlerine sahip dört dağılım örneğine dikkat çekti.

Dağılımları tümü, ortalama 0 ve varyans 1 simetrik olan ve değişken için yoğunluk fonksiyonlara sahip ve ,xc=π

(1)   (1/3c)(9/4+x4)exp(x2)

(2)   (3/(c8))exp(x2/2)(1/6c)(9/4+x4)exp(x2)

(3)   (1/6c)(exp(x2/4)+4exp(x2))

(4)   (33/16c)(2+x2)exp(3x2/4)

Basıklık (çıkarma olmadan) (1) 2.75 (2) 3.125 (3) 4.5 (4) 8/3 2.667: Gaussian veya normal 3 değerini karşılaştırınız. Ortalama yoğunluk (1) 0.423 (2'dir. ) 0.387 (3) 0.470 (4) 0.366: 0.399'un Gauss değerini karşılaştırın.

Bu yoğunlukları çizmek öğreticidir. Stata kullanıcıları kaplanskyprogramımı SSC'den indirebilir . Yoğunluk için logaritmik bir ölçek kullanmak yardımcı olabilir.

Tüm ayrıntılardan vazgeçmeden bu örnekler, düşük veya yüksek basıklığın, doruk noktası veya gerçekten de diğer herhangi bir kontrast açısından açık bir yorumu olduğu herhangi bir basit hikayeyi baltalamaktadır.

Irving Kaplansky adı bir zil çalarsa, muhtemelen modern cebirde çalışmasını bildiğiniz için. (1917-2006) Kanadalı (daha sonra Amerikalı) bir matematikçiydi ve Columbia Üniversitesi Ulusal Savunma Konseyi Uygulamalı Matematik Grubu'nda Harvard, Chicago ve Berkeley'de ders verdi ve araştırdı. Kaplansky grup teorisi, halka teorisi, operatör cebir teorisi ve alan teorisine büyük katkılarda bulunmuştur. Başarılı bir piyanist ve söz yazarı ve matematiğin hevesli ve berrak bir açıklayıcısıydı. Ayrıca Kaplansky (1943, 1945b) ve Kaplansky ve Riordan'ın (1945) olasılık ve istatistiklere diğer bazı katkılarına da dikkat edin.

Kaplansky, I. 1943. Normal dağılımın karakterizasyonu. Yıllık Matematik İstatistikleri 14: 197-198.

Kaplansky, I. 1945a. Basıklık ile ilgili yaygın bir hata. Dergi, yalnızca Amerikan İstatistik Kurumu 40: 259.

Kaplansky, I. 1945b. Ardışık elemanların çalışmalarının asimptotik dağılımı. Yıllıklar Matematik İstatistikleri 16: 200-203.

Kaplansky, I. ve Riordan, J. 1945. Çoklu eşleme ve sembolik yöntemle çalışır. Yıllıklar Matematik İstatistikleri 16: 272-277.


1
+1 Cebirsel çalışmalarını uzun zamandır tanıdığım Kaplansky hakkında ilginç yorumlar.
whuber

Nick, yorumunuz "Aslında, iki yorum (zirve ve kuyrukluk) bazı dağılımlar için makul bir ifade olabilir." yanlıştır, bu nedenle yararlı değildir, çünkü basıklık size "doruk" hakkında hiçbir şey söylemez. Cidden, "zirvenin" ne anlama geldiğini tanımlayabilir misiniz ? Ve bir takip, eğer yapabilirsem: "Tepe noktası" tanımınıza göre (bir tane ile karşılaşabileceğinizi varsayarak), matematiksel olarak basıklık ile nasıl ilişkilidir?
Peter Westfall

@Peter Westfall Kurtozun basıklık ölçüsü olduğunu kabul edebilirsek, benim argümanım sadece Kaplansky'nin sözel tartışmalara değil, somut eğrilere ve sayısal sonuçlara dayanan argümanıdır, yani daha yüksek basıklık bazen daha yüksek zirve yoğunluklarıyla gider ve tersine alt basıklık. Ben zirveye kadar kısmi değilim ve sözel olarak sadeleştirmek zorunda kaldığında pratikte basıklık çoğunlukla kuyruk ağırlığı hikayesi olduğunu iddia etmek eğilimindedir. Bence buradaki formüller tüm işi yapıyor ve tüm istatistiksel ağırlığı taşıyor ve sözlü polemikleri daha az yardımcı buluyor.
Nick Cox

Ek olarak, tamamen simetrik dağılımlar dışında basıklığın kolay bir karakterizasyonu olamaz. Kimsenin doruk noktası tanımlamak zorunda olduğunu düşünmüyorum; var olan tanım basıklık ve pratik sorular bunun nasıl düşünüleceği ve ne kadar kullanıldığına dair.
Nick Cox

"Sadece basıklık size doruk hakkında hiçbir şey söylemediği için" ifadesinin kendisi asılsızdır. Eksik referanslar, ilgili kişilerin kendi daha uzun tartışmalarınızı düşünmelerine izin verilen TAS'daki makalenizi kesinlikle içerecektir.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.