R'de Quartiles Bulma


33

R öğrenirken bir istatistik ders kitabı ile çalışıyorum ve aşağıdaki örnekte bir tökezlemeyle karşılaşıyorum:

görüntü tanımını buraya girin

Baktıktan sonra ?quantilebunu R'de yeniden yaratmaya çalıştım:

> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
   0%   25%   50%   75%  100% 
  6.0   9.5  16.0  28.0 104.0 

Metin ve R'nin farklı sonuçları olduğu göz önüne alındığında, R'nin medyanı birinci ve üçüncü çeyreklerin hesaplanmasında kullandığını biliyorum.

Soru:

Birinci ve üçüncü çeyreklerin hesaplanmasında medyanı dahil etmeli miyim?

Daha spesifik olarak, ders kitabı veya R bu doğru mu? Ders kitabı bu doğruysa, bunu R'de uygun şekilde başarmanın bir yolu var mı?

Şimdiden teşekkürler.

r  quantiles 

6
Buradaki birkaç konu, kuantillerin hesaplanmasının veya tahmin edilmesinin birçok yolunu tartışmaktadır. İşte bir yetkili cevabı olan biri , ancak diğerleri sitemizi arayarak kullanılabilir. Kısacası, ders kitabınız standart dışı bir hesaplama çeyrekleri yöntemi gösteriyor gibi görünmektedir, ancak quantile1, 2 ve 6 türleri bu boyuttaki bir veri kümesi için onları çoğaltacaktır . Yok ait Rmetotlarla ders kitaplarında karşılık gelir. (Bir kişi bu metnin kalitesi hakkında merak ediyor ...)
whuber

@whuber Bu yorum için teşekkürler, çünkü farklı türlerin tam olarak ne quantileyaptığını ayırt etmek için teknik bir geçmişe sahip olmadığım için çok yardımcı oldum .

@whuber: açıkça standart değil (muhtemelen kitapta bir yerde bahsedilir), ancak sezgisel değildir. Matematiksel olarak yanlış olduğunu mu düşünüyorsun?
Michael M

6
n

1
R, dokuz farklı nicelik tanımını kullanır (varsayılan olarak tanım 7'yi kullanır). Bakınız?quantile
Glen_b -Reinstate Monica

Yanıtlar:


43

Ders kitabın karıştı. Çok az insan veya yazılım çeyrekleri bu şekilde tanımlamaktadır. (İlk çeyreği çok küçük ve üçüncü çeyreği çok büyük yapma eğilimindedir.)

quantileİşlev Ruygular dokuz hesaplama quantiles farklı yolları! Bunlardan hangisinin, eğer varsa, bu yönteme karşılık geldiğini görmek için, uygulamaya başlayalım. Tanımdan önce bir matematik algoritmasını yazabiliriz, önce matematiksel olarak, sonra R:

  1. x1x2xn

  2. Herhangi bir veri kümesi için, tek sayıda değer olduğunda medyan orta değeridir; Aksi halde, eşit sayıda değer olduğunda iki orta değerin ortalamasıdır. R'nin medianişlevi bunu hesaplar.

    m=(n+1)/2(xl+xu)/2lummxml=m-1u=m+1lu

  3. xbenbenl(xben)benu

İşte bir uygulama. Alıştırmalarınızı bu ders kitabında yapmanıza yardımcı olabilir.

quart <- function(x) {
  x <- sort(x)
  n <- length(x)
  m <- (n+1)/2
  if (floor(m) != m) {
    l <- m-1/2; u <- m+1/2
  } else {
    l <- m-1; u <- m+1
  }
  c(Q1=median(x[1:l]), Q3=median(x[u:n]))
}

Örneğin, çıktı quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))metni ile aynı fikirdedir:

Q1 Q3 
 9 33 

Hadi on metodun hepsini kullanarak bazı küçük veri kümeleri için çeyrek değerler hesaplayalım: Dokuz giriş Rve ders kitabı:

y <- matrix(NA, 2, 10)
rownames(y) <- c("Q1", "Q3")
colnames(y) <- c(1:9, "Quart")
for (n in 3:5) {
  j <- 1
  for (i in 1:9) {
    y[, i] <- quantile(1:n, probs=c(1/4, 3/4), type=i)
  }
  y[, 10] <- quart(1:n)
  cat("\n", n, ":\n")
  print(y, digits=2)
}

Bunu çalıştırdığınızda ve kontrol ettiğinizde , ders kitabı değerlerinin üç örneklemin tamamı için çıktıların hiçbiriyle aynı fikirde olmadığınıR göreceksiniz . (Uyuşmazlık paterni, 3. periyotta devam eder, bu da örneğin ne kadar büyük olursa olsun sorunun devam ettiğini gösterir.)

9.528


3
Kendi başıma çalışmamı ve farklı yöntemleri değerlendirmemi sağlamanın yanı sıra böylesi ayrıntılı bir cevap için çok teşekkür ederim. Onları şimdi kovacağım ve olayları daha ayrıntılı olarak inceleyeceğim.

2

İstatistik alanında (öğrettiğim, ancak araştırmacı olmadığım), çeyreklik hesaplamalar özellikle belirsizdir (bir şekilde zorunlu olarak nicelikler için doğru olmayacak şekilde). Bunun, kısmen aykırı değerlere karşı duyarsız olan çeyrekler arası aralığın (IQR) standart sapmaya bir alternatif veya alternatif olarak kullanımı nedeniyle (ve belki de kötüye kullanılması) çok geçmişi vardır. Q1 ve Q3'ün eş-kanonik olduğunu hesaplamak için üç farklı yöntemle açık bir yarışma olmaya devam ediyor.

Sık sık olduğu gibi, Vikipedi makalesinin makul bir özeti vardır: https://en.m.wikipedia.org/wiki/Quartile En temel istatistik metinlerinde olduğu gibi, Larson ve Farber metni, Vikipedi maddesinde en çok açıklanan metinlerde olduğu gibi kullanır. Yöntem 1." Yukarıdaki açıklamaları takip edersem, r "Yöntem 3" ü kullanır. Kendi alanında kanonik olarak uygun olan kendin için karar vermelisin.


İyi puanlar veriyorsunuz (+1). Ancak, "Yöntem 1" referanslarının TI-83 hesap makinesi ve Excel (güvenilirliği yetersizliği iyi bilinir) olduğu, bu yöntemin açıkça önyargılı olduğu ve Tukey'in menteşelerinden hesaplamanın daha zor olmadığı göz önüne alındığında, kullanımını haklı göstermek veya tavsiye etmek zor görünüyor.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.