Bootstrapped regresyon eğimlerini nasıl karşılaştırırım?


13

Her biri bağımsız değişken x ve bağımlı değişken y'nin veri çiftlerinin n gözlemini içeren iki veri setim olduğunu varsayalım . Ayrıca gözlemleri N kez yeniden yükleyerek ve y = a + bx regresyonunu hesaplayarak her veri kümesi için regresyon eğimlerinin bir dağılımını oluşturmak istediğimi varsayalım.her seferinde. Eğimlerin önemli ölçüde farklı olduğunu söylemek için iki dağılımı nasıl karşılaştırırım? Dağılımların medyanları arasındaki farkı test etmek için bir U testi büyük ölçüde N'ye bağlı olacaktır, yani, önyüklemeyi daha sık tekrarlarsam, daha önemli olan fark olacaktır. Önemli bir fark belirlemek için dağılımlar arasındaki çakışmayı nasıl hesaplamalıyım?

Yanıtlar:


19

Önyükleme örnekleme dağılımının büyük örnek teorisi tarafından varsayıldığından daha sağlam bir resmini elde etmek için yapılır . Önyükleme yaptığınızda, aldığınız `` çizme örneği '' sayısının etkili bir şekilde sınırı yoktur; Aslında örnekleme dağılımına daha fazla çizme alırsınız. Bu sayı hakkında büyülü bir şey olmamasına rağmen, bot örneği kullanmak yaygındır . Ayrıca, çizme örnekleri üzerinde bir test yapmazsınız; örnekleme dağılımı hakkında bir tahmininiz var - doğrudan kullanın. İşte bir algoritma:B=10,000

  1. önyükleme gözlemlerini değiştirerek örnekleyerek bir veri kümesinin önyüklemesini alın. [Aşağıdaki yorumlarla ilgili olarak, ilgili bir soru, bot örneğiniz için kullanılacak geçerli bir “önyükleme gözlemi” oluşturan şeydir. Aslında, birkaç meşru yaklaşım vardır; Sağlam olan ve verilerinizin yapısını yansıtmanıza izin veren iki durumdan bahsedeceğim: Gözlemsel verileriniz varsa (yani, tüm boyutlarda veriler örneklendiğinde, bir önyükleme gözlemi sıralı bir n-demet olabilir (örneğin, bir satır) Örneğin, bir değişkeniniz ve bir yanıt değişkeniniz varsa,n1n1 (x,y)sıralı çiftler. Öte yandan, deneysel verilerle çalışırken, tahmin değişkeni değerleri örneklenmemiştir, ancak deney birimleri her tahmin değişkeni değişkeninin amaçlanan seviyelerine atanmıştır. Böyle bir durumda , tahmin değişkeninizin seviyelerinin her birinden değerlerini örnekleyebilir , ardından bu bu tahmin seviyesinin karşılık gelen değeri ile eşleştirebilirsiniz . Bu şekilde, üzerinde örnekleme .]n1j yjyX
  2. regresyon modelinize ve eğim tahminini saklayın (buna )β^1
  3. önyükleme gözlemlerini değiştirerek örnekleyerek diğer veri kümesinin önyüklemesini alınn2
  4. diğer regresyon modeline ve eğim tahminini saklayın (buna )β^2
  5. iki tahminden bir istatistik oluşturun (öneri: eğim farkını kullanın )β^1β^2
  6. istatistiği sakla ve hafızayı boşa harcamamak için diğer bilgileri dök
  7. 1-6, kez tekrarlayınB=10,000
  8. eğim farklılıklarının önyüklemeli örnekleme dağılımını sıralayabilir
  9. 0 ile çakışan bsd'nin yüzdesini hesaplayın (hangisi daha küçükse, sağ kuyruk% veya sol kuyruk%)
  10. bu yüzdeyi 2 ile çarp

İstatistiksel bir test olarak bu algoritmanın mantığı temel olarak klasik testlere (örneğin, t-testleri) benzer, ancak verilerin veya sonuçta elde edilen örnekleme dağılımlarının belirli bir dağılımı olduğunu varsaymıyorsunuz. (Örneğin, normalliği kabul etmiyorsunuz.) Yaptığınız birincil varsayım, verilerinizin örneklediğiniz / genellemek istediğiniz popülasyonu temsil etmesidir. Yani, numune dağılımı nüfus dağılımına benzer. Verileriniz ilgilendiğiniz nüfusla ilgili değilse, şanssızsınız demektir.

Bazı insanlar, normalliği kabul etmek istemiyorsanız eğimi belirlemek için bir regresyon modeli kullanmaktan endişe duyarlar. Ancak, bu endişe yanlıştır. Gauss-Markov teoremi bize tahminin tarafsız olduğunu (yani gerçek değere odaklandığını) söyler, bu yüzden iyidir. Normallik eksikliği, basitçe gerçek örnekleme dağılımının teorik olarak ortaya konandan farklı olabileceği anlamına gelir ve bu nedenle p-değerleri geçersizdir. Önyükleme prosedürü size bu sorunla başa çıkmanın bir yolunu sunar.

Önyükleme ile ilgili diğer iki sorun: Klasik varsayımlar karşılanırsa, önyükleme parametrik bir testten daha az verimlidir (yani, daha az güce sahiptir). İkincisi, bir dağıtım merkezinin yakınında keşfederken önyükleme en iyi şekilde çalışır: araçlar ve medyanlar iyi, çeyrekler çok iyi değil, min. Veya maks. İlk nokta ile ilgili olarak, durumunuzda önyükleme yapmanız gerekmeyebilir; ikinci nokta ile ilgili olarak, eğimin önyüklenmesi mükemmel derecede iyidir.


İyi yanılmama rağmen, regresyondaki önyüklemenin doğrulanması için ham veriden ziyade artıklarda olması gerektiğini düşündüm ...
Xi'an

@ Xi'an, kendimden önce yanılmışım, ama neden sadece önyükleme yapan artıkların geçerli olduğunu düşündüğünü anlamıyorum. Efron & Tibshirani (1994) bölüm 9.5, "Önyükleme çiftleri, önyükleme artıklarına göre varsayımlara daha az duyarlıdır. Önyükleme çiftleri tarafından elde edilen standart hata, [doğrusal modelin olasılık yapısı] tamamen yanlış olsa bile makul yanıtlar verir." Bunun anlamı, bazı durumlarda daha az verimli olabileceğini ima etmelerine rağmen, bootstrap uygulamasının daha sağlam olmasıdır.
gung - Monica'yı eski durumuna getirin

Çiftleri önyüklemekle ilgili endişem, normal doğrusal modellerde genellikle resmin dışında bırakılan öngörücülerin dağılımını da dahil etmenizdir. Bu yüzden öğrencilerime her zaman sadece artıkları önyüklemeyi öğretiyorum.
Xi'an

@ Xi'an, bu makul bir nokta, sanırım gözlemsel bir veri yapısı varsayıyordum. Bu endişeler hakkında daha fazla ayrıntı eklemek için cevabımı düzenledim. Ancak, bunun önyükleme çiftlerinin mutlaka geçersiz olduğunu ima ettiğini görmüyorum.
gung - Monica'yı eski haline getirin

İki bağımsız veri kümesi arasında eşleştirmeye zorlamak yapay ve verimsizdir. Bundan daha iyisini yapabilirsin!
whuber

4

İki veri kümesini tek bir regresyonda birleştirebilirsiniz. , ilk veri kümesinde olduğunun bir göstergesi olsun . Ardından, regresyonu yorumunun , ayrı regresyonlar: dağıtımını önyükleme yapabilirsinizsi

yi=β0+β1xi+β2si+β3sixi+ϵi
β3β3nn2n
E[yix,si=1]=(β0+β2)+(β1+β3)xiE[yix,si=0]=β0+β1xi.
β3Standart test prosedürlerini (normal / t) istiyorsanız veya sadece kullanın. Analitik çözümler kullanıyorsanız, gruplar arasında homoskedastisite varsaymanız veya heteroskedastisite için düzeltmeniz gerekir. Önyüklemenin buna dayanıklı olması için , tüm popülasyondan yerine birinci grup arasında rastgele ve ikinci grup arasında gözlem seçmeniz gerekir .nn2n

Hata terimleri arasında bir korelasyonunuz varsa, bu prosedürü biraz değiştirmeniz gerekebilir, bu durumda bu durumu tekrar yazın.

Bu yaklaşımı, görünüşte ilgisiz regresyonlar (SUR) çerçevesine genelleştirebilirsiniz. Bu yaklaşım, iki veri kümesinde kesişme ve eğim katsayılarının keyfi olarak farklı olmasına izin vermektedir.


1
İyi fikir. Ancak bu, iki regresyonun iid hataları olduğunu da varsaymıyor mu?
whuber

1
İyi bir nokta. Hatalar için grup bazında farklı varyansların bulunmamasını ve hataların farklı gruplarda ilişkilendirilmemesini gerektirir.
Charlie

0

Her şeyi tek bir regresyonda yapmak temizdir ve bağımsızlık varsayımı önemlidir. Ama bu şekilde nokta tahminleri hesaplarken yok değil sabit varyans gerektirir. Bu R kodunu deneyin;

x <- rbinom(100, 1, 0.5)
z <- rnorm(100)
y <- rnorm(100)
coef(lm(y~x*z))
coef(lm(y~z, subset= x==1))[1] - coef(lm(y~z, subset= x==0))[1]
coef(lm(y~z, subset= x==1))[2] - coef(lm(y~z, subset= x==0))[2]

Her iki şekilde de aynı nokta tahminini alıyoruz. Standart hata tahminleri sabit varyans gerektirebilir (hangisini kullandığınıza bağlı olarak), ancak burada dikkate alınan önyükleme tahmini standart hataları kullanmaz.


1
Eğim farkının sıfır olup olmadığını test edecekseniz (takip ettiğiniz görünen @ Charlie'nin cevabında olduğu gibi), standart hataların doğru ve geçerli bir tahminine ihtiyacınız vardır. Bu tahmini veya başka türlü önyükleme yapmanız önemli değildir.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.