Bu durumda x'in y üzerindeki regresyonu x üzerindeki y'den açıkça daha mı iyidir?


10

Bir kişinin kanındaki glikoz seviyelerini ölçmek için kullanılan bir cihaz, 10 kişilik rastgele bir örnek üzerinde izlenir. Seviyeler ayrıca çok hassas bir laboratuvar prosedürü kullanılarak ölçülür. Alet ölçüsü x ile gösterilir. Laboratuvar prosedürü ölçüsü y ile gösterilir.

Şahsen x'in y'nin daha doğru olduğunu düşünüyorum çünkü amaç laboratuvar okumalarını tahmin etmek için cihaz okumalarını kullanmaktır. Ve x üzerindeki y, bu tür tahminlerin hatalarını en aza indirir.

Ancak verilen cevap y üzerinde x idi.


2
Siteye hoş geldiniz, @Neo. Bu soru bir sınıf / ders kitabı alıştırmasıyla motive olduysa, lütfen [self-study]etiketi ekleyin .
gung - Monica'yı eski durumuna getirin

Yanıtlar:


6

Birçok laboratuvar makalesi, özellikle enstrüman test deneyleri, bu tür x'i y regresyonuna uygular.

Deneydeki veri toplama işleminden, y koşullarının kontrol edildiğini ve x değerini aygıt okumasından aldığını (içinde bir hata olduğunu) iddia ediyorlar. Bu, deneyin orijinal fiziksel modelidir, bu nedenle x ~ y + hatası daha uygundur.

Deney hatasını en aza indirmek için, bazen y aynı koşulda kontrol edilir, ardından x birkaç kez (veya tekrarlanan deney) ölçülür. Bu prosedür, arkasındaki mantığı anlamanıza ve x ~ y + hatasını daha net bulmanıza yardımcı olabilir.


+1 Şimdiye kadar gerçekten cevabı düşünüyorum, bu muhtemelen orijinal gönderiyi en iyi şekilde ele alıyor. Bu soru, bir vekil kalibre etmek yerine enstrümanı anlayarak neredeyse kesinlikle motive edildi. Her Y için sadece bir X ölçümünüz varsa, Y-on-X'in doğru bir yaklaşım olduğundan eminim (whuber'in yorumu). Çoklu X'ler bunu yok eder, ancak X-on-Y hala doğrudur (ancak Y'yi tahmin etmek için kullanılamaz).
Korone

Bir sorunun varsa, @Corone: X vs Y ve Y vs hem X'in doğru olup olmadığını, hepimiz belirgin olsun biliyorum farklı zaman monte hatları den az olduğu 1 . Bu iki çizgiden hangisini ve hangi temelde seçersiniz? Bu ikilemin doğru çözümü, - Vincent'ın açıkladığı gibi - ölçüm hatası anlayışımızda bir asimetri olmasıdır: enstrüman kayda değer bir hata ile ölçülür; laboratuvarın kayda değer bir hatası olmadığı varsayılmaktadır. Sıradan regresyon prosedürleri, X'in hata olmadığını ve tüm hatanın Y olduğunu varsayar , böylece yerleşir. R21
whuber

@ her ikisi de doğru ama farklı sorunları cevaplamak. Birden fazla X ölçümü ile Y-on-X artık cevaplaması gereken problem için doğru değildir. Yorumlarım aptallaşıyor olsa da bunun yerine cevabımı düzenleyeceğim
Korone

6

Y on XX on Y

YXY on XX

X on YYX

X on YY

X on Y


YX

@whuber Değişkenlerdeki hatalar tahmin için uygun değildir. Bir ilişkinin büyüklüğünü anlamak, ancak X ve Y'de ölçüm hatalarına sahip olmak istiyorsanız, değişkenlerdeki hatalar yararlıdır. Tahmin için, X, egzersiz setinizde aynı şekilde toplandığı sürece "hatasız olarak bilinir" ve tahmin kümesi.
Korone

@Corone Değişkenlerdeki hataların tahmin için iyi olmadığı doğrudur, ancak söyleyebildiğim kadarıyla tavsiye edilmez. Gerçekten de, bu yüzden enstrümanı gerçekten laboratuvara (sadece OLS kullanan) değil, tam tersine gerdirmek gerekiyor. Lütfen bu konuya ilişkin başka bir yorumda yer alan Draper & Smith referans I'e bakın. İkinci basımın 1.7 bölümüne güveniyorum.
whuber

@Corone, tahminlerde / değişkenlerde hatalar konusunda haklısın, ama söylemek istediğim şey tam olarak değil. Bunu ifade etmenin daha iyi bir yolunu düşünmeye çalışacağım.
gung - Monica'yı eski durumuna getirin

4

Tahmin ve Tahmin

Evet haklısınız, bunu bir tahmin sorunu olarak gördüğünüzde, Y-on-X regresyonu, bir cihaz ölçümü verildiğinde laboratuvar prosedürünü yapmadan doğru laboratuvar ölçümünün tarafsız bir tahminini yapabileceğiniz bir model verecektir. .

E[Y|X]

Bu hata karşıtı görünebilir, çünkü hata yapısı "gerçek" değildir. Laboratuar yönteminin altın standart hatasız bir yöntem olduğu varsayılarak, gerçek veri üreten modelin "

Xi=βYi+ϵi

YiϵiE[ϵ]=0

E[Yi|Xi]

Yi=Xiϵβ

Xi

E[Yi|Xi]=1βXi1βE[ϵi|Xi]

E[ϵi|Xi]ϵX

Açıkça, genelliğin kaybı olmadan,

ϵi=γXi+ηi

E[ηi|X]=0

YI=1βXiγβXi1βηi

YI=1γβXi1βηi

ηββσ

YI=αXi+ηi

β

Enstrüman Analizi

Size bu soruyu soran kişi, X-on-Y'nin doğru yöntem olduğunu söylediği için yukarıdaki cevabı açıkça istemedi, neden bunu istediler? Büyük olasılıkla enstrümanı anlama görevini düşünüyorlardı. Vincent'ın cevabında tartışıldığı gibi, enstrümanın davranmasını istediklerini bilmek istiyorsanız, X-on-Y gitmenin yoludur.

Yukarıdaki ilk denkleme geri dönelim:

Xi=βYi+ϵi

E[Xi|Yi]=YiXβ

büzülme

YE[Y|X]γE[Y|X]Y. Bu daha sonra ortalamaya regresyon ve ampirik bölmeler gibi kavramlara yol açar.

Örnek R Burada olup bitenler hakkında fikir sahibi olmanın bir yolu, bazı veriler yapmak ve yöntemleri denemektir. Aşağıdaki kod, tahmin ve kalibrasyon için X-on-Y'yi Y-on-X ile karşılaştırır ve X-on-Y'nin tahmin modeli için iyi olmadığını, ancak kalibrasyon için doğru prosedür olduğunu hızlı bir şekilde görebilirsiniz.

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

İki regresyon çizgisi verilerin üzerine çizilir

resim açıklamasını buraya girin

Ve sonra Y için kareler hatasının toplamı, yeni bir numuneye her iki uyum için ölçülür.

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

Alternatif olarak, bir numune sabit bir Y'de (bu durumda 4) üretilebilir ve daha sonra alınan bu tahminlerin ortalaması. Artık Y-on-X tahmin cihazının, Y değerinden çok daha düşük bir beklenen değere sahip iyi kalibre edilmediğini görebilirsiniz. X-on-Y tahminci, Y değerine yakın bir beklenen değere sahip olarak iyi kalibre edilmiştir.

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

İki tahminin dağılımı yoğunluk grafiğinde görülebilir.

resim açıklamasını buraya girin


YXX

3
Y=β0+β1X+ϵVar(ϵ)=σ2.X=(Yβ0ϵ)/β1X=α0+α1Y+δVar(δ)=σ2α12σ2

1
β

2
Y, bir insan popülasyonu üzerinde rastgele bir değişken olabilir, ancak herhangi bir kişi için tahmin edilmesi gereken bir parametredir. X üzerinde Y'ye bakıldığında, Y'nin her tahmini grup ortalamasına doğru küçülür, bu da insanlar üzerindeki ortalama kare hatasını azaltır, ancak etik veya yasal nedenlerle kabul edilemeyecek sistematik önyargılar yaratır. Y üzerindeki X'e regresyon yapılması, her bir kişinin Y'si için tarafsız bir güven aralığı oluşturmak için kullanılabilecek bilgiler verir, ancak bu aralıklar, arsadaki mavi alan gibi geniş olma eğilimindeyken, X üzerindeki Y'ye gerilemenin tahmin aralığı daha dar ancak önyargılıdır , kırmızı gibi.
Ray Koopman

1
@RayKoopman koymak için harika bir yol! Evet - X üzerindeki Y, birçok farklı Y için ortalama olarak en iyi tahmini elde
etmekle ilgilidir

2

Sıradan En Küçük Kareler için X'in varyansı ve Y'nin varyansı hakkındaki varsayımlarınıza bağlıdır. Y tek varyans kaynağına sahipse ve X sıfır varyansa sahipse, Y'yi tahmin etmek için X kullanın. Varsayımlar başka bir yoldaysa (X tek varyansa ve Y sıfır varyansa sahipse), X'i tahmin etmek için Y'yi kullanın.

Hem X hem de Y'nin varyans olduğu varsayılırsa, Toplam En Küçük Kareler'i düşünmeniz gerekebilir .

Bu linke TLS'nin iyi bir açıklaması yazılmıştır . Kağıt ticarete yöneliktir, ancak bölüm 3, TLS'yi tanımlamak için iyi bir iş çıkarır.

Düzenleme 1 (09/10/2013) ========================================= ======

Başlangıçta bunun bir tür ev ödevi problemi olduğunu varsaydım, bu yüzden OP'nin sorusunun "cevabı" hakkında gerçek bir ayrıntı alamadım. Ancak, diğer cevapları okuduktan sonra, biraz daha ayrıntılı olmanın iyi olduğu anlaşılıyor.

OP sorusunun bir parçası:

".... Seviyeler de çok hassas bir laboratuvar prosedürü kullanılarak ölçülür ...."

Yukarıdaki ifade, biri cihazdan diğeri laboratuvar prosedüründen olmak üzere iki ölçüm olduğunu söylüyor. Açıklama ayrıca, laboratuvar prosedürü için varyansın aletin varyansına kıyasla düşük olduğunu ima eder.

OP'nin sorusundan bir başka alıntı:

".... Laboratuar prosedürü ölçüsü y ile gösterilir ....."

Dolayısıyla, yukarıdaki iki ifadeden Y düşük sapmaya sahiptir. Dolayısıyla, hataya en az yatkın teknik X'i tahmin etmek için Y'yi kullanmaktır. "Verilen cevap" doğrudur.


1
XY

Hayır, regresyon seçimi varyansın bulunduğu yere göre yapılmamalıdır - cevaplamaya çalıştığınız soruya göre yapılmalıdır. Eğer Y verilen X için bir tahmin modeli oluşturmak için TLS kullanıyorsanız olacak yanlış. TLS ve benzer değişkenlerdeki hata modelleri temeldeki değişkenler / süreçler arasındaki gerçek ilişkiyi
anlamakla ilgilidir

1
@Corone Kişinin hedeflerinin istatistiksel prosedürlerin seçimine rehberlik ettiğinden emin olmanıza rağmen, prosedürün olasılık modeli için de uygun olması gerekir ("varyansın olduğu yerde"). Amacınız yüksek varyans enstrüman okuma laboratuvar okuma tahmin etmek ise, o kesinlikle bunun için bir prosedür uygun düzgün seç: ama bu prosedür değil öngörü en küçük kareler uyum sıradan ve varyans tahminleri kullanılarak.
whuber

1
@Corone - Regresyon tekniğinin cevaplamaya çalıştığınız soruya dayanması gerektiğine katılıyorum, ancak seçilen teknik değişkenlerin varyansı hakkında varsayımlar içeriyor. Seçimdeki varyans varsayımları, model konseptinize uymuyorsa, yanlış tekniği seçtiniz. Bu yüzden 3 olasılığı listeledim (Y'yi tahmin etmek için sıfır X varyansı; X'i tahmin etmek için sıfır Y varyansı; veya sıfır olmayan X ve Y varyansı).
bill_080
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.