Kırpma yüzdesi ile kırpılmış ortalama grafiğini nasıl yorumlayabilirim?


12

Bir ödev sorusunun bir kısmı için, en küçük ve en büyük gözlemi silerek ve sonucu yorumlayarak bir veri kümesi için kesilmiş ortalamaları hesaplamam istendi. Kesilen ortalama, eşi görülmemiş ortalamadan daha düşüktü.

Benim yorumum, bunun altında yatan dağılımın olumlu bir şekilde eğrilmiş olmasıydı, bu nedenle sol kuyruk sağ kuyruktan daha yoğundu. Bu çarpıklığın bir sonucu olarak, yüksek bir referans noktasını kaldırmak, ortalamayı düşük olanı kaldırmaktan daha fazla aşağı çeker, çünkü gayri resmi olarak, "yerini almayı bekleyen" daha düşük veriler vardır. (Bu makul mi?)

Sonra kırparak yüzdesi, ben kesilmiş ortalama hesaplanan yüzden bu nasıl etkilediğini merak etmeye başladı çeşitli için k = 1 / n , 2 / n , ... , ( nx¯tr(k). İlginç bir parabolik şeklim var: k=1/n,2/n,,(n21)/nKırpma yüzdesinin kırpılmış ortalamaya karşı grafiği;  kabaca parabolik görünen içbükey bir eğri oluşturur

kn=11

Bu grafik türünün bir adı var mı, yoksa yaygın olarak mı kullanılıyor? Bu grafikten hangi bilgileri alabiliriz? Standart bir yorum var mı?


Referans için veriler: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

Yanıtlar:


11

@gung ve @kjetil b. halvorsen ikisi de doğrudur.

Bende böyle grafikler buldum

Rosenberger, JL ve M. Gasko. 1983. Konum tahmin edicilerinin karşılaştırılması: Kesilmiş araçlar, medyanlar ve trimean. Gelen Sağlam ve Veri Analizi anlama , Eds. DC Hoaglin, F. Mosteller ve JW Tukey, 297-338. New York: Wiley.

ve

Davison, AC ve DV Hinkley. 1997. Önyükleme Yöntemleri ve Uygulamaları. Cambridge: Cambridge Üniversitesi Yayınları.

ve diğer örnekleri

Cox, NJ 2013. Tatmak için kırpma. Stata Journal 13: 640–666. http://www.stata-journal.com/article.html?article=st0313 [pdf'ye ücretsiz erişim]

bu, kesilmiş araçların birçok yönünü tartıştı.

Bildiğim kadarıyla, grafiğin farklı bir adı yok. Olası her komplo için ayrı bir isim aslında küçük bir kabus olurdu: grafik terminoloji zaten korkunç bir karmaşa. Ben sadece kesilmiş sayı, kesir veya yüzde karşı kesilmiş ortalama bir komplo derim (böylece OP ifadelerini tersine).

"Aykırı" hakkında daha küçük yorumlar için Regresyonda Değişen Varyans konusundaki cevabım

DÜZENLEME: Daha fazla bilgi için (yalnızca dil uzmanları), buraya bakın .


10

Bu grafiği hiç duymadım ama bence oldukça düzenli; muhtemelen birisi bunu daha önce yapmıştı. Bununla yapabileceğiniz şey, verilerinizin farklı oranlarını aykırı olarak değerlendirirseniz ortalamaların nasıl değiştiğini ve / veya stabilize olduğunu görmektir. Parabolik şekli elde etmenizin nedeni, (başlangıç) dağılımınızın bir bütün olarak doğru eğrilmiş olması, ancak eğriltme derecesinin dağılımın merkezinde aynı olmamasıdır. Karşılaştırma için aşağıdaki çekirdek yoğunluğu grafiklerini göz önünde bulundurun.

resim açıklamasını buraya girin

Solda verileriniz birer birer kırpılır. Sağda şu veriler vardır: y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)bunlar, eşit aralıklı yüzdeliklerden alınan ve değer aralığını benzer hale getirmek için 20 ile çarpılan standart bir lognormal dağılımın kantilleri.

Verileriniz sağa eğik başlıyor, ancak 5. satırda eğri kalıyorlar, bu nedenle ortalamayı geri getirmek için daha fazla veri kırpmaya başlıyor. Sağdaki veriler, kırpma devam ederken benzer bir eğriliği korur.

Aşağıda lognormal veriler ve tekdüze veriler için grafiğiniz ( z = 1:11eğiklik yok - mükemmel simetrik).

resim açıklamasını buraya girin resim açıklamasını buraya girin


4

Bu tür bir grafiğin bir adı olduğunu sanmıyorum, ama yaptığınız şey makul ve yorumunuz, bence geçerli. Yaptığınız şeyin Hampel'in Etkisi işleviyle ilgili olduğunu düşünüyorum, bkz. Https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function özellikle ampirik etki işlevi hakkındaki bölüm. Ve grafiğiniz kesinlikle verilerin bir miktar çarpıklığıyla ilgili olabilir, çünkü verileriniz mükemmel bir şekilde simetrik olsaydı, grafik düz olurdu. Bunu araştırmalısın!

            EDIT     

Bu çizimin bir uzantısı da sol ve sağda farklı kırpma kullanmanın etkisini göstermektir. Bu, R'deki meanargümanla olağan fonksiyonda uygulanmadığından, trimkendi kesilmiş ortalama fonksiyonumu yazdım. Daha pürüzsüz bir çizim elde etmek için, düzeltme kısmı tam sayı olmayan bir noktanın kaldırılmasını gerektirdiğinde doğrusal enterpolasyon kullanıyorum. Bu işlevi verir:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

Sonra bazı verileri simüle ve sonucu bir kontur grafiği olarak gösterir:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

bu sonucu veren:

kırpma etkisini gösteren kontur çizimi

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.