Çarpıklığın ehlileştirilmesi… Neden bu kadar çarpıklık fonksiyonu var?


9

Bu topluluktan gelen dört çarpıklık türü hakkında daha fazla bilgi sahibi olmayı umuyorum.

Bahsettiğim türler http://www.inside-r.org/packages/cran/e1071/docs/skewness yardım sayfasında belirtilmiştir.

Eski yöntem yardım sayfasında belirtilmedi, ancak yine de ekliyorum.

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

İşte e1071'in yazarının atıfta bulunduğu makale: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes ve CA Gill (1998), Örnek çarpıklık ve basıklık ölçülerinin karşılaştırılması.

Bu makaleyi okuduğumda, # 3 tipinin en az hataya sahip olduğunu öne sürüyorlar.

Yukarıdaki koddan çarpıklık örnekleri:

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

Ayrıca, e1071'in yazarının çarpıklık işlevini yardım sayfasındaki notlardan farklı olarak yazdığını fark ettim. Sqrt dikkat edin:

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

Sqrt (n) 'nin neden ilk denklemde olduğu hakkında bir fikrin var mı? Hangi denklem taşma / taşmayı daha iyi işler? Neden farklı olduklarını (ancak aynı sonuçları ürettiklerini) başka herhangi bir fikir?


3
Sorunuz "dört çeşit çarpıklıktan" bahsediyor ... ama sonra bir bağlantı veriyor ve bir kod grubuna (hangi dili bile söylemediğinize) başlıyor. Bu yüzden insanlar ne istediğini keşfetmek için bir bağlantı okumak zorunda kalmazlar ve R'yi okumayanların ve okuma kodunu anlamada yararsız bulanların yararına, hangi dördünün tanımlanmasına yardımcı olurlar? daha önce (veya tercihen yerine) bir kod sarfiyatı demek istediğiniz çarpıklık ölçümleri. [Sen neden tam dört yerine beş veya daha yedi ya da başka bir numara olduğunu düşünüyorum yok doğrusu "bu dört" söz hakkından daha "dört" derken?]
Glen_b -Reinstate Monica

1
Gönderinizde bulabileceğim belirli sorulara bir çeşit cevap vermeye çalıştım ve yol boyunca bir dizi sorunu ele aldım, ancak bunun dışında "daha fazla kavrayışa sahip olmayı ummak" yanıt veremeyecek kadar belirsiz. Ne hakkında fikir edinmek istediğinizi daha net bir şekilde belirleyebilir misiniz? Sitemizde çarpıklıkla ilgili birçok soru var.
Glen_b -Manica Monica

Gönderileriniz için teşekkürler Glen. Açıklama amacıyla ve formülleri göstermek için R'yi dahil ettim. Ayrıca Lateks bilmiyorum. :(
Chris

Yanıtlar:


10

"Eski bir yöntem" olarak tanımladığınız yöntemle başlayalım; bu ikinci Pearson çarpıklığı veya medyan çarpıklığıdır ; aslında moment-çarpıklığı ve geniş ölçüde aynı vintage (bu çarpıklık, Pearson'un çabalarından önce geldiğinden, ortanca çarpıklığı aslında biraz daha gençtir).

Bazı tarihlerle ilgili küçük bir tartışma burada bulunabilir ; bu gönderi diğer birkaç sorunuza da biraz ışık tutabilir.

Sitemizde ikinci Pearson çarpıklığı kullanarak arama yaparsanız, bu önlemin davranışları hakkında bazı tartışmalar içeren birkaç gönderiye çarpacaksınız.

Aklımdaki çarpıklığın ölçtüğü andan çok tuhaf değil; ikisi de bazen insanların çarpıklık ölçüsü beklentilerine uymayan garip şeyler yaparlar.


Olağan şekli b1Wikipedia'da burada tartışılmıştır ; söylediği gibi, bu bir moment tahmincisi yöntemi ve standart üçüncü an açısından nüfus hesaplaması göz önüne alındığında kullanılacak doğal bir şey.

Biri kullanırsa sn için sn-1 (yani Bessel düzeltmesi olmadan) g1bahsettiğiniz tip; bunlardan biri "anların yöntemi" diyeceğim şeydir. Benim için paydayı açmaya çalışmanın bir anlamı yok çünkü bu oranın mutlaka açılmasını sağlamaz; bunu yapmak mantıklı olabilir, böylece hesaplama insanların elle yapmayı umdukları şeyle eşleşir.

Bununla birlikte, nüfus çarpıklığını kümülanlar açısından tanımlamanın ikinci (eşdeğer) bir yolu vardır (yukarıdaki Wikipedia bağlantısına bakın) ve eğer örnek bir çarpıklık için bunların tarafsız tahminlerini kullandıysanız, G,1.

[Ayrıca, payın b1 tarafından n2(n-1)(n-2)İnsanların bu forma bakmasının başka bir nedeni olabilir. Kişi hem üçüncü hem de ikinci moment hesaplamalarını çözmeyi denerse, biraz farklı bir faktör elde edilir.n,(n-1) ve (n-2) öne çıkıyor.]

Bunların üçü de üçüncü moment çarpıklığındaki biraz farklı varyasyonlardır. Çok büyük örneklerde kullandığınız fark yoktur. Daha küçük örneklerde, hepsinin biraz farklı yanlılıkları ve varyansları vardır.


Burada tartışılan formlar çarpıklık tanımlarını tüketmez (bir düzine hakkında gördüm, sanırım - Wikipedia makalesi birkaçını listeliyor, ancak bu gamı ​​kapsamıyor bile) ve hatta üçüncü ile ilgili tanımları bile -Burada yükselttiğiniz üçten daha fazlasını gördüğüm ani çarpıklık.

Neden çarpıklığın birçok ölçüsü var?

Öyleyse (tüm bu üçüncü moment çarpıklıklarına bir an için muamele etmek) neden bu kadar farklı çarpıklık? Kısmen bunun nedeni , bir kavram olarak çarpıklığın tespit edilmesi oldukça zordur. Bu gerçekten tek bir sayıya sabitleyemeyeceğiniz kaygan bir şey. Sonuç olarak, tüm tanımlar bir şekilde yeterli olmaktan daha azdır, ancak yine de genellikle bir çarpıklık ölçüsünün ne yapması gerektiğini düşündüğümüz konusundaki geniş anlayışımıza uygundur. İnsanlar daha iyi tanımlamalar yapmaya çalışıyorlar, ancak QWERTY klavyeler gibi eski önlemler hiçbir yere gitmiyor.

Neden 3. ana dayanarak birkaç çarpıklık ölçüsü var?

Neden bu kadar çok üçüncü an çarpıklığı olduğuna gelince, bunun nedeni, bir nüfus ölçüsünü örnek bir ölçüme dönüştürmenin birden fazla yolu olmasıdır. Anlara dayalı iki rota ve kümülanlara dayalı bir rota gördük. Daha fazlasını inşa edebiliriz; örneğin, bazı dağıtım varsayımları altında (küçük-örnek) tarafsız bir ölçü ya da minimum-ortalama-kare-hata ölçüsü ya da böyle bir miktar elde etmeye çalışabiliriz.

Sitede çarpıklığı aydınlatan bazı yazılar bulabilirsiniz; simetrik olmayan fakat üçüncü moment çarpıklığı sıfır olan dağılım örnekleri gösteren bazı örnekler vardır. Pearson medyan çarpıklığının ve üçüncü an çarpıklığının zıt işaretlere sahip olabileceğini gösteren bazıları var.

İşte çarpıklıkla ilgili birkaç gönderinin bağlantıları:

Mean = median, unimodal dağılımın simetrik olduğunu ima ediyor mu?

Sol eğimli verilerde, ortalama ve medyan arasındaki ilişki nedir?

aykırı değerlerle histogramdan çarpıklık nasıl belirlenir?


Hesaplamanızla ilgili son sorunuzla ilgili olarak b1:

nΣ(x-x¯)3(Σ(x-x¯)2)3/2 #from e1071 :: çarpıklık kaynağı

Σ(x-x¯)3/n(Σ(x-x¯)2/n)3/2 # anlardan ve e1071 yardım sayfasından

İki form cebirsel olarak aynıdır; ikincisi açıkça iktidarın ikinci anında üçüncü an şeklinde yazılır32, ilki yalnızca nve arta kalanları öne çıkarır. Ben taşma / taşma kaçınma nedenleriyle yapıldığını sanmıyorum; Yapıldığını hayal ediyorum çünkü biraz daha hızlı olduğu düşünülüyordu. [Taşma veya taşma endişesi varsa, muhtemelen hesaplamalar farklı şekilde düzenlenir.]

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.