Kalan boyutun büyüklüğüne göre bir veri kümesini katmanlaştırmak ve iki örnekli bir karşılaştırma yapmak hiç savunulabilir mi?


16

Bu bir tür geçici yöntem olarak yapıldığını gördüğüm bir şey ve benim için çok balık gibi görünüyor ama belki bir şey eksik. Bunu çoklu regresyonda gördüm, ancak basit tutalım:

yi=β0+β1xi+εi

Şimdi kalanları monte edilen modelden alın

ei=yi(β^0+β^1xi)

ve numuneyi artıkların büyüklüğüne göre tabakalandırır. Örneğin, ilk numunenin artıkların% 90'ının alt ve ikinci numunenin en üst% 10 olduğunu varsayalım, sonra iki örnek karşılaştırması yapmaya devam edin - Bunu hem modeldeki yordayıcıda gördüm, x , hem de modelde olmayan değişkenler üzerinde. Kullanılan gayri resmi mantık, belki de model altında beklediğiniz değerlerin (yani büyük bir artık) çok üzerinde olan noktaların bir şekilde farklı olması ve bu farkın bu şekilde araştırılmasıdır.

Konu hakkındaki düşüncelerim:

  • Modeldeki bir yordayıcıda 2 örneklik bir fark görürseniz, yordayıcının modelin geçerli durumunda (yani doğrusal olmayan efektler) hesaba katılmadığı etkileri vardır.
  • Modelde olmayan bir değişken üzerinde 2 örnekli bir fark görürseniz, belki de ilk etapta modelde olması gerekirdi.

Ampirik olarak bulduğum bir şey (simülasyonlar aracılığıyla), modelindeki bir öngörücünün ortalamasını karşılaştırır ve xbu şekilde iki örnek aracı ( x¯1 ve üretmek için katmanlaştırırsanız x¯2, birbirleriyle pozitif korelasyon gösterdi. Her iki numune de bağlıdır, çünkü bu mantıklı y¯,x¯,σ^x,σ^y ve ρ x yρ^xy. Kesimi aşağı hareket ettirdikçe bu korelasyon artar (örneğin, örneği bölmek için kullandığınız%). En azından, iki örnekli bir karşılaştırma yapacaksanız , -istatist paydasında standart hatanın korelasyonu hesaba katmak için ayarlanması gerekir (her ne kadar açık bir formül elde etmediysem) kovaryans).t

Her neyse, temel sorum şu: Bunu yapmanın bir mantığı var mı? Eğer öyleyse, hangi durumlarda bu yararlı bir şey olabilir? Açıkçası var olduğunu düşünmüyorum ama doğru şekilde düşünmediğim bir şey olabilir.


iki örnek karşılaştırma aynı IVs kullanıyor mu? Eğer öyleyse, bunun amacını göremiyorum çünkü artık bölünme zaten bu bilgiyi kullanıyor. Bunu gördüğünüz yere bir örnek verebilir misiniz, bu benim için yeni mi?
Michelle

1
Birincisi, model yanlış tanımlamanızın olup olmadığını görmek için bir teşhis olarak kullanılabilmesidir - bunun hakkında ne düşünüyorsunuz?
Makro

3
Yukarıdaki yorumlarda önerildiği gibi, sorunlu noktaları veya eksik doğrusal olmayan etkileri tanımlamak için bir tanı aracı dışında bunu yaparken herhangi bir noktayı göremiyorum. Bence OP'deki iki nokta noktası ("konuyla ilgili düşünceler ...") oldukça sağlam.
Peter Ellis

1
Bu teknik, Loh ve yazarları tarafından DESTEK ve bence GUIDE ağaç algoritmalarında bölünmüş değişkenleri belirlemek için kullanılır. Veri kümesi bu şekilde bölümlendiğinden, doğrusal olmayan bir etki aramak (aşamalı bir işlevle temsil edilir) ve bir değişkenin gerçekten unutulup unutulmadığını belirlemek düşünülebilir. Bunun da akıllı olup olmadığını merak ettiğimi hatırlıyorum, belki gazetelerinde daha fazla açıklama bulabilirsiniz (hatırlamıyorum).
Momo

1
Elbette, hiç sorun değil. İşte Chaudhuri ve ark. www3.stat.sinica.edu.tw/statistica/j4n1/j4n18/j4n18.htm GUIDE stat için SUPPORT ve Loh ve arkadaşlarının sayfalarına referanslar . wisc.edu/~loh/guide.html
Momo

Yanıtlar:


8

Ortalamaları karşılaştırmak çok zayıf: bunun yerine dağılımları karşılaştırın.

Ayrıca, artıkların boyutlarının karşılaştırılması (belirtildiği gibi) veya artıkların kendilerinin karşılaştırılmasının daha istenip istenmediği ile ilgili bir soru vardır . Bu nedenle ikisini de değerlendiriyorum.

Anlamıyla ilgili spesifik olmak gerekirse, burada bazı olan Rkod karşılaştırma (paralel dizide verilen veri ve regresyonundan) y ile ilgili x içine artıklar, bölen üç kantil altında kesilerek grupları q 0 ve quantile yukarıda q 1 > q 0 ve (qq grafiği ile) bu iki grupla ilişkili x değerlerinin dağılımlarını karşılaştırır .(x,y)xyyxq0q1>q0x

test <- function(y, x, q0, q1, abs0=abs, ...) {
  y.res <- abs0(residuals(lm(y~x)))
  y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
  x.groups <- split(x, y.groups)
  xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
  lines(xy, xlab="Low residual", ylab="High residual", ...)
}

Bu işlevin beşinci bağımsız değişkeni abs0, varsayılan olarak grupları oluşturmak için artıkların boyutlarını (mutlak değerler) kullanır. Daha sonra bunu, artıkları kullanan bir işlevle değiştirebiliriz.

Kalıntılar birçok şeyi tespit etmek için kullanılır: aykırı değerler, eksojen değişkenlerle olası korelasyonlar, uyum iyiliği ve homoscedasticity. Aykırı değerler, doğası gereği, az sayıda ve yalıtılmış olmalı ve dolayısıyla burada anlamlı bir rol oynamayacaktır. Bu analizi basit tutmak için, son ikisini inceleyelim: uyum iyiliği (yani, - y ilişkisinin doğrusallığı ) ve homoscedasticity (yani, artıkların büyüklüğünün sabitliği). Bunu simülasyon yoluyla yapabiliriz:xy

simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
                     n.trials=99, ...) {
  x <- 1:n - (n+1)/2
  y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
  plot(x,y, ylab="y", cex=0.8, pch=19, ...)
  plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
  res.abs <- abs0(res)
  r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
  points(x[res.abs < r0], res[res.abs < r0], col="Blue")
  points(x[res.abs > r1], res[res.abs > r1], col="Red")
  plot(x,x, main="QQ Plot of X",
       xlab="Low residual", ylab="High residual",
       type="n")
  abline(0,1, col="Red", lwd=2)
  temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd), 
                             x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
  test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}

yβ0+β1x+β2x2sdq0q1abs0n.trialsn(x,y)verileri, kalıntılarının verileri ve çoklu denemelerin qq grafikleri - önerilen testlerin belirli bir model için nasıl çalıştığını anlamamıza yardımcı olmak için ( nbeta, s ve tarafından belirlenir sd). Bu grafiklerin örnekleri aşağıda verilmiştir.

Şimdi bu araçları artıkların mutlak değerlerini kullanarak doğrusal olmama ve heteroseladastisitenin bazı gerçekçi kombinasyonlarını keşfetmek için kullanalım:

n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n

size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")

xxx

Mutlak değerler

xxx

Aynı şeyi, tam olarak aynı verileri kullanarak yapalım , ancak artıkların kendilerini analiz edelim . Bunu yapmak için, bu değişiklik yapıldıktan sonra önceki kod bloğu yeniden çalıştırıldı:

size <- function(x) x

Yüzeyde kalan

x

Belki de bu iki tekniği birleştirmek işe yarayabilir. Bu simülasyonlar (ve ilgilenen okuyucunun boş zamanlarında çalıştırabileceği varyasyonları), bu tekniklerin haksız olmadığını göstermektedir.

x(x,y^x)önerilen testlerin Breusch-Pagan gibi regresyon tabanlı testlerden daha az güçlü olmasını bekleyebiliriz .


2

eixi

Diğerleri, bunun iki veri setinin ayrı ayrı modellenip modellenmediğini görmek için sadece bir keşif aracı olabileceğini yorumladı. Bu durumda, bu ve muhtemelen diğer keşifsel yaklaşımlar iyi olabilir. Ama soru daha sonra ne yapacaksınız? Eğer iki ayrı regresyon yapacaksanız ve örnekler hakkında çıkarımda bulunacaksanız, bir şekilde örneği bölme şeklinizi dikkate almanız gerektiğini düşünüyorum.


0

Sanırım bunu yapmak için çeşitli motivasyonlar olabilir, örneğin artıkların tutarlı olduğunu varsayarak, bahsettiğiniz yöntem dış gözlemlerin belirlenmesine yardımcı olabilir, bu nedenle ikinci adım "düzeltilmiş" tahmin ediciler sağlar. Ancak, dışlayıcıların tespitini gerçekleştiren veya bu yöntemlerin hepsinin iyi tanımlandığı Kantil regresyonlar, LMS (karelerin en az medyanı) veya M tahmincileri vb. ve bilinen istatistiksel özellikler. (@Michael Chernik tarafından toplanmıştır)

Diğer motivasyon kümelenme tanımlaması olabilir, ancak bu aynı zamanda iyi tanımlanmış ve yaygın olarak uygulanan küme belirleme teknikleri ile karşılaştırıldığında ilkeldir.

Her iki durumda da, artıkların kullanılması resmi olmayan ve ilkel gibi görünmektedir, ancak yine de bir keşif aracı olarak tolere edilebilir. Ayrıca okuyucuların alan adına da bağlıdır. Bunu, niceliksel araçların daha az popüler olabileceği bazı sosyal bilimler için kabul edilebilir buluyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.