Biri “diğer değişkenleri nasıl kontrol eder”?


141

İşte bu soruyu motive eden makale: Sabırsızlık bizi şişmanlatır mı?

Bu makaleyi beğenmiştim ve söz konusu 2 değişken arasındaki gerçek ilişkiyi en iyi şekilde izole etmek için “diğer değişkenleri kontrol etme” (IQ, kariyer, gelir, yaş, vb.) Kavramını güzel bir şekilde gösteriyor.

Tipik bir veri setindeki değişkenleri nasıl kontrol ettiğinizi bana açıklayabilir misiniz?

Örneğin, aynı sabırsızlık seviyesine ve BMI'ye sahip 2 kişiniz varsa, ancak farklı gelirleriniz varsa, bu verileri nasıl ele alıyorsunuz? Bunları benzer gelir, sabır ve BMI'ye sahip farklı alt gruplarda sınıflandırıyor musunuz? Ancak, nihayetinde kontrol edilmesi gereken düzinelerce değişken vardır (IQ, kariyer, gelir, yaş, vb.) Bu alt grupların (potansiyel olarak) 100'ünü nasıl toplarsınız? Aslında, bu yaklaşımın şimdi sözlü olarak yaptığım yanlış ağacın havlamasına neden olduğunu hissediyorum.

Şimdi birkaç yıldır dibe vurmak istediğim bir şeye ışık tuttuğunuz için teşekkürler ...!


3
Epi ve Bernd, Buna cevap vermeye çalıştığın için çok teşekkürler. Ne yazık ki, bu cevaplar benim sorumdan büyük bir sıçrama ve başımın üzerinde. Belki de b / c R ile deneyimim yok ve sadece temel bir İstatistik 101 vakfı. Tıpkı öğretinize geri bildirim olarak, BMI, yaş, sabırsızlık, vb. Gibi "ortak değişken" e ve benzerlerinden soyutladığınızda, beni tamamen kaybettiniz. Otomatik oluşturma sözde verileri de kavramları netleştirmek için yardımcı olmadı. Aslında daha da kötüleşti.
Açıklanan

7
Bu temel öneme sahip soruyu sorduğun için teşekkür ederim, @JackOfAll - site bu satırlar boyunca bir soru olmadan tamamlanamazdı - Ben bu soruyu 'tercih ettim'. Buradaki cevaplar bana çok yardımcı oldu ve görünüşe göre pek çok kişi daha fazla oy sayısına dayandı. Buna karar verdikten sonra, cevapları kendiniz için yararlı bulduysanız (veya sorularınızdan herhangi birinin yanıtlarını ) bulursanız, oyunuzu kullanmanız ve kesin bulursanız bir yanıt kabul etmeniz için sizi teşvik ediyorum. Bu, sırasıyla cevabın ve onay işaretinin yanındaki küçük yukarı dönük çan eğrileri tıklanarak yapılabilir.
Makro

4
Bu tam bir cevap ya da başka bir şey değil, ama Chris Achen'in "Nereye Çöp-Can Regressions ve Çöp-Can Probits koyalım" okumak için faydalı olduğunu düşünüyorum. (PDF link: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) Bu hem Bayesian hem de Frequentist yaklaşımlara eşit olarak uygulanır. Sadece kurulumunuza terimler atmak, efektler için "kontrol" yapmak için yeterli değildir, ama ne yazık ki, literatürün çoğunda kontrol için geçen şey budur.
ely

9
Bilgisayar yazılımının tüm değişkenleri aynı anda matematiksel olarak nasıl kontrol ettiğini ” soruyorsunuz . Ayrıca “Formül içermeyen bir cevaba ihtiyacım var” diyorsunuz. İkisini de aynı anda yapmanın nasıl mümkün olduğunu anlamıyorum. En azından sizi kusurlu sezgilerle terk etme riski olmadan.
Glen_b

2
Bu sorunun daha fazla dikkat çekmemesine şaşırdım. OP'nin yorumuna, sitedeki diğer soruların burada ortaya konulan belirli bir konuyu tam olarak kapsamadığını kabul ediyorum. @Jen, (ikinci) sorunuzun en kısa cevabı, çoklu değişkenlerin gerçekte eşzamanlı olduğu ve tanımladığınız şekilde yinelemeli olmadığı. Şimdi bu sorulara daha ayrıntılı ve sezgisel bir cevabın neye benzeyeceğini düşüneceğim.
Jake Westfall

Yanıtlar:


124

Değişkenleri kontrol etmenin birçok yolu vardır.

Karşılaştığınız en kolay olanı, verilerinizi sınıflandırmak ve benzer özelliklere sahip alt gruplara sahip olmanızdır - daha sonra bu sonuçları tek bir "cevap" almak için bir araya getirme yöntemleri vardır. Bu, kontrol etmek istediğiniz çok az sayıda değişkeniniz varsa çalışır, ancak doğru şekilde keşfettiğiniz gibi, verilerinizi daha küçük ve daha küçük parçalara ayırırken bu hızla dağılır.

Daha genel bir yaklaşım, regresyon modelinde kontrol etmek istediğiniz değişkenleri dahil etmektir. Örneğin, kavramsal olarak tanımlanabilecek bir regresyon modeliniz varsa:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

Sabırsızlık için elde edeceğiniz tahmin, Sabırsızlığın diğer değişkenlerin seviyelerindeki etkisi olacaktır - regresyon, çok fazla veriniz olmayan (tabakalaşma yaklaşımındaki sorun), esasen pürüzsüzleştirmenize olanak sağlar. dikkatle.

Diğer değişkenleri kontrol etmenin daha karmaşık yolları var, ancak birinin "diğer değişkenler için kontrol edildiğini" söylediğinde, bir regresyon modelinde yer aldıkları anlamına geliyor.

Tamam, bunun nasıl yürüdüğünü görmek için üzerinde çalışabileceğiniz bir örnek istediniz. Size adım adım ilerleyeceğim. Tek ihtiyacınız olan kurulu R'nin bir kopyası.

İlk önce, bazı verilere ihtiyacımız var. Aşağıdaki kod parçalarını R'ye yapıştırın ve yapıştırın. Bunun, yerinde yaptığım tartışmalı bir örnek olduğunu unutmayın, ancak işlemi gösterir.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

Bu senin verinin. Sonuç, maruz kalma ve değişkenler arasındaki ilişkiyi zaten bildiğimize dikkat edin - bu birçok simülasyon çalışmasının noktasıdır (ki bunun son derece temel bir örnek olduğu. Bildiğiniz bir yapıyla başlarsınız ve yönteminizin yapabileceğinden emin olun) sana doğru cevabı buldum.

Şimdi, sonra, regresyon modeli üzerine. Aşağıdakini yazın:

lm(outcome~exposure)

Bir Intercept = 2.0 ve pozlama = 0.6766 aldınız mı? Ya da veriye rastgele bir değişiklik olacak mı göz önüne alındığında buna yakın bir şey? İyi - bu cevap yanlıştır. Yanlış olduğunu biliyoruz. Neden yanlış Sonucu ve pozlamayı etkileyen bir değişkeni kontrol edemedik. İkili bir değişkendir, istediğiniz her şeyi yapın - cinsiyet, sigara içen / içmeyen, vb.

Şimdi bu modeli çalıştırın:

lm(outcome~exposure+covariate)

Bu kez Intercept = 2.00 katsayılarını, maruz kalma = 0.50 ve 0.25'in bir değişkenini almalısınız. Bu, bildiğimiz gibi, doğru cevap. Diğer değişkenleri kontrol ettiniz.

Şimdi, ihtiyacımız olan tüm değişkenlerle ilgilenip ilgilenmediğimizi bilmediğimizde ne olur? Buna artık kafa karıştırıcı denir ve gözlemsel çalışmaların çoğunda endişe kaynağıdır - kusurlu bir şekilde kontrol ettik ve cevabımız sağa yakın olsa da kesin değil. Bu daha yardımcı olur mu?


Teşekkürler. Herkes çevrimiçi ya da üzerinde çalışabileceğim bir kitapta basit bir örnek regresyon örneği biliyor mu?
JackOfTüm

@JackOfAll Muhtemelen yüzlerce örnek var - hangi alanlarla / soru türleriyle ilgileniyorsunuz ve hangi yazılım paketlerini kullanabilirsiniz?
Fomite

Herhangi bir akademik / tartışmalı örnek bana göre iyi. Çok değişkenli bir regresyon yapabilen Excel'e sahibim, doğru mu? Yoksa bunu yapmak için R gibi bir şeye ihtiyacım var mı?
JackOfTüm

10
+1 Kullanacağım olumsuzluk olmadan bunu cevaplamak için. :) Tipik bir bakışta, diğer değişkenleri kontrol etmek, yazarların onları regresyona attığı anlamına gelir. Değişkenlerin bağımsız olduğunu ve tüm model yapısının (genellikle bir tür GLM) sağlam olduğunu doğrulamamış olmaları halinde ne anlama geldiklerini ifade etmiyor. Kısacası, benim görüşüme göre, bir kişi bu cümleyi ne zaman kullansa, istatistikler hakkında çok az ipucu olduğu ve birisinin sonuçlarını verdiğiniz değerlendirme yöntemini kullanarak yeniden hesaplamaları gerektiği anlamına geliyor.
Iterator

7
@SibbsGambling Orijinal soru sorucunun basit ve çalışılmış bir örnek istediğini unutmayın .
Fomite

56
  1. Giriş

    @ EpiGrad'ın cevabını (+1) severim ama farklı bir bakış açısına bakayım. Aşağıda, bu PDF belgesine atıfta bulunuyorum: "A" Çoklu Regresyonun Yorumlanmasına İlişkin Bir Partialling "üzerine bir bölümü olan " Çoklu Regresyon Analizi: Tahmin "(p. 83f.). Ne yazık ki, bu bölümün yazarı kim bilmiyorum ve REGCHAPTER olarak bahsedeceğim. Benzer bir açıklama Kohler / Kreuter (2009) "Stata Kullanarak Veri Analizi" , 8.2.3 "Kontrol altında" ne anlama geliyor? "Da bulunabilir.

    Bu yaklaşımı açıklamak için @ EpiGrad'ın örneğini kullanacağım. R kodu ve sonuçlar Ek'te bulunabilir.

    Ayrıca "diğer değişkenleri kontrol etmenin" sadece açıklayıcı değişkenlerin orta derecede korelasyona girdiğinde (eş anlamlılık) anlamlı olduğu unutulmamalıdır. Yukarıda belirtilen örnekte, arasında Ürün moment korelasyon exposureve covariatebir 0.50, yani

    > cor(covariate, exposure)
    [1] 0.5036915
  2. Yüzeyde kalan

    Regresyon analizinde artık kavramı hakkında temel bir anlayışa sahip olduğunuzu varsayıyorum. İşte Vikipedi açıklama : "Bir Bazı veriler üzerinde bir gerileme çalışıyorsa, o zaman donatılmış işlevinden bağımlı değişken gözlemlerin sapmalar kalıntılar vardır".

  3. 'Kontrol altında' ne demektir?

    Değişken için denetleme covariate, efekt (regresyon ağırlık) exposureüzerinde outcomeolarak tarif edilebilir (ı kesin açıklama için yukarıda belirtilen metne bakınız, özensiz duyuyorum ve en dizinleri ve tüm şapkalar atlayın) aşağıdaki gibidir:

    β1=residi1yiresidi12

    residi1 biz gerileme zaman kalıntılar şunlardır exposureüzerinde covariateyani,

    exposure=const.+βcovariatecovariate+resid

    "Artıklar [..] parçası olan ile ilintisizdir . [...] Dolayısıyla arasında numune ilişkileri ölçer ve sonra olmuştur partialled "(KABUL 84). "Partialled out", "kontrollü" anlamına gelir.xi1xi2β^1yx1x2

    Bu fikri @ EpiGrad'ın örnek verilerini kullanarak göstereceğim. Birincisi, gerileme olacaktır exposureüzerinde covariate. Sadece artıklarla ilgilendiğim lmEC.residiçin çıktıyı atlıyorum.

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)

    Bir sonraki adım outcomebu artıklara gerileyecek ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]

    Gördüğünüz gibi , bu basit regresyondaki lmEC.resid(Tahmini sütununa, sütununa bakınız ) regresyon ağırlığı , aynı zamanda olan çoklu regresyon ağırlığına eşittir ( ayrıca @ EpiGrad'in cevabına veya R çıktısına bakınız) altında).βlmEC.resid=0.50covariate0.50

apandis

R Kodu

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

R çıkış

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 

5
Bu bölüm Baby Wooldridge'e (aka Giriş Ekonometrisi: Jeffrey M. Wooldridge'den Modern Bir Yaklaşım) benziyor
Dimitriy V. Masterov

2
Bir şeyi yanlış anlamış olabilirim, ancak neden ortak değişkenlerin sonucunu ve sonra nihayetinde maruz kalma artıkları üzerindeki sonuç artıklarını gerilemeniz gerekmiyor?
hlinee

@hlinee haklı. Bunu neden yapmadığını açıklayabilir misin?
Parseltongue

41

Tabii ki bazı matematik de dahil olacak, ama fazla değil: Euclid bunu iyi anlardı. Gerçekten bilmen gereken nasıl olduğunu eklemek ve rescale vektörleri. Bu, bugünlerde "doğrusal cebir" ismine dayansa da, onu yalnızca iki boyutta görselleştirmeniz gerekir. Bu, lineer cebirin matris makinesinden kaçınmamızı ve kavramlara odaklanmamızı sağlar.


Geometrik Bir Hikaye

İlk şekilde, , ve toplamıdır . ( Sayısal faktör ölçeklenen vektörü ; Yunan harfleri (alfa), (beta) ve (gama), bu tür sayısal ölçek faktörlerini ifade eder.)yy1αx1x1ααβγ

Şekil 1

Bu rakam aslında orijinal vektörlerle (tam çizgilerle gösterilir) ve . ile arasındaki en küçük kareler "eşleşmesi" , şekil düzleminde en yakın olan alınmasıyla bulunur . Bu şekilde bulundu. Uzak Bu maçı alarak sol , kalıntı bir ile ilgili . (" " noktası sürekli olarak hangi vektörlerin "eşleştirildiğini", "çıkarıldığını" veya "kontrol edildiğini" gösterir.)x1yyx1x1yαyy1yx1

Diğer vektörleri eşleştirebiliriz . Burada bir resimdir eşleştirildiğine çoklu olarak ifade ait artı kalıntı :x1x2x1βx1x21

şekil 2

(Bu içeren düzlem önemli değildir ve içeren düzlemden farklı olabilir ve :. Bu iki şekil, birbirinden bağımsız bir şekilde, elde edilmektedir birbirleriyle ortak garantilidir, tüm vektördür ). Benzer şekilde, herhangi bir sayıda Vektörlerin ile eşleştirilebilmesi .x 2 x 1 y x 1 x 3 , x 4 , x1x2x1yx1x3,x4,x1

Şimdi, iki artık içeren düzlemini ve . Resmi yatay yapmak üzere yönlendireceğim, önceki resimleri yatay yapmak üzere yönlendirdiğim gibi , çünkü bu sefer eşleştirici rolünü oynayacak: x 2 1 x 2 1 x 1 x 2y1x21x21x1x21

Figür 3

Her üç vakada da kalıntının maça dik olduğunu gözlemleyin . ( , eşleşmeyi , veya daha da yakınlaştıracak şekilde ayarlayabiliriz .)x 2yx2y1

Temel fikir, son rakama , dahil olan her iki vektörün de ( ve ) yapım aşamasında zaten dik durmasıdır . Bu nedenle, e yapılan herhangi bir ayar , tümü dik olan değişiklikleri içerir . Sonuç olarak, yeni eşleşme ve yeni kalan , dik kalır .x21y1x1y1x1γx21y12x1

(Başka vektörler de , artıkları - kalanlarla aynı şekilde ilerleriz .)x31,x41,x2

Yapılacak bir önemli nokta daha var. Bu yapı, üretti kalıntı , her iki dik olan ve . Bu demektir ki, olduğu da kalıntı alan tarafından kapsanan (üç boyutlu Öklid bölge) ve . Yani, bu iki aşamalı artıkları eşleştirme ve alma işlemi, en yakın olan düzleminde konumu bulmuş olmalıdır . Bu geometrik açıklamada, hangisinin ve önce geldiği önemli olmadığı için , x 1 x 2 y 12 x 1 , x 2 , y x 1 , x 2 y x 1 x 2 x 2y12x1x2y12x1,x2,yx1,x2yx1x2süreci, diğer sırayla yapılmış olsaydı ile başlayan eşleştirici olarak ve daha sonra kullanarak , sonuç aynı olurdu.x2x1

(Eğer ek vektörler varsa, bu "bir eşleştiriciyi çıkar" sürecine, bu vektörlerin her biri eşleşecek hale gelene kadar devam edeceğiz. Her durumda, işlemler burada gösterilenle aynı olacak ve her zaman bir uçak .)


Çoklu Regresyon Uygulaması

Bu geometrik işlem doğrudan çoklu regresyon yorumlamasına sahiptir, çünkü sayı sütunları tam olarak geometrik vektörler gibi hareket eder. Vektörlerden istediğimiz tüm özelliklere sahipler (aksiyomatik olarak) ve bu nedenle mükemmel matematiksel doğruluk ve titizlikle aynı şekilde düşünüp manipüle edilebilirler . , ve değişkenleriyle yapılan çoklu regresyon ayarında amaç, en yakın olan ve ( vb. ) Kombinasyonunu bulmaktır . Geometrik olarak, ve gibi tüm kombinasyonlar ( vb.X1X2,YX1X2YX1X2) alanındaki noktalara karşılık gelir . Çoklu regresyon katsayılarının takılması, yansıtmaktan ("eşleştirme") vektörlerden başka bir şey değildir. Geometrik argüman göstermiştir kiX1,X2,

  1. Eşleştirme sırayla yapılabilir ve

  2. Eşleşmenin yapıldığı sıra önemli değil.

Diğer tüm vektörleri artıkları ile değiştirerek bir eşleştiriciyi "çıkarma" işlemine genellikle eşleştirici için "kontrol etme" denir. Şekillerde gördüğümüz gibi, bir eşleştirici kontrol edildikten sonra, sonraki tüm hesaplamalar bu eşleştiriciye dik ayarlamalar yapar. İsterseniz , bir eşleştiricinin diğer tüm değişkenlere katkısı / etkisi / etkisi / birleşmesi için muhasebe ("en az kare anlamda") olarak "kontrol etmeyi" düşünebilirsiniz.


Referanslar

Bunların hepsini https://stats.stackexchange.com/a/46508 adresindeki cevapta veriler ve çalışma koduyla çalışırken görebilirsiniz . Bu cevap, uçak resimlerinde aritmetik tercih eden kişilere daha çekici gelebilir. (Eşleştiricileri sırayla getirilirken katsayıları ayarlama aritmetiği yine de basittir.) Eşleştirme dili Fred Mosteller ve John Tukey'dendir.


1
Bu satırlar boyunca daha fazla örnek, Wicken'in "Çok Değişkenli İstatistiğin Geometrisi" kitabında (1994) bulunabilir. Bazı örnekler bu cevapta .
caracal

2
@Caracal Referanslarınız için teşekkür ederiz. Başlangıçta cevabınızdaki gibi diyagramları kullanan bir cevap öngördüm - buradaki cevabımı harika bir şekilde tamamladı - ama yarattıktan sonra sahte 3D figürlerinin tamamen uygun olamayacak kadar karmaşık ve belirsiz olabileceğini hissettim. Argümanın tamamen uçaktaki en basit vektör işlemlerine indirgenebileceğini bulmaktan memnun oldum. Verilerin bir ön merkezlemesinin gereksiz olduğuna da dikkat etmek gerekir, çünkü bu, sıfır olmayan bir sabit vektör dahil edilerek gerçekleştirilir . xi
whuber

1
Bu cevabı seviyorum çünkü cebirden çok daha fazla sezgi veriyor. BTW, bu adamın youtube kanalını kontrol edip etmediğinizden emin değilim . Çok eğlendim
Haitao Du

3

“Diğer değişkenleri kontrol etme” aracı olarak eş değişkenli ayarlama konusunda şimdiye kadar mükemmel bir tartışma var . Ama bence bu hikayenin sadece bir kısmı. Aslında, birkaç olası karıştırıcı değişkenin etkisini ele almak için birçok (diğer) tasarım, model ve makine öğrenmeye dayalı stratejiler vardır. Bu, en önemli (düzeltilmemiş) konuların bazıları için kısa bir ankettir. Ayarlama, diğer değişkenler için en yaygın kullanılan "kontrol etme" aracı olsa da, iyi bir istatistikçinin, diğer süreçler ve prosedürler bağlamında ne yaptığını (ve ne yapmadığını) anlaması gerektiğini düşünüyorum.

Eşleştirme:

Eşleştirme, gözlemlerin aksi takdirde en önemli yönleriyle benzer olan 2'li gruplara ayrıldığı eşleştirilmiş bir analiz tasarlama yöntemidir. Örneğin, eğitimleriyle uyumlu, gelirleri, mesleki görev süreleri, yaşları, medeni halleri, vb. Gibi) uyumlu olan ancak sabırsızlıkları bakımından uyumsuz olan iki kişiyi örnekleyebilirsiniz. İkili pozlamalar için, basit eşleştirilmiş t testi, BMI kontrollerinde tüm eşleşen özellikleri kontrol etmede ortalama bir fark olup olmadığını test etmeye yeterlidir . Sürekli bir pozlamayı modelliyorsanız, benzer bir ölçüt, farklılıklar için orijinden geçen bir regresyon modeli olacaktır. Bkz. Carlin 2005

E[Y1Y2]=β0(X1X2)

ağırlık

Ağırlıklandırma, sürekli veya ikili öngörücü ile sonuç arasındaki ilişkiyi modelleyen ve maruz kalma seviyelerinin dağılımının gruplar arasında homojen olması için başka bir tek değişkenli analizdir . Bu sonuçlar tipik bildirilmektedir standardize gibi yaşa standardize mortalite iki ülke ya da birkaç hastaneler için. Dolaylı standardizasyon , refere eden popülasyonda tabakaların dağılımına öngörülen "kontrol" veya "sağlıklı" bir popülasyonda elde edilen oranlardan beklenen bir sonuç dağılımını hesaplar. Doğrudan standardizasyon diğer yoldan gider. Bu yöntemler tipik olarak bir ikili sonuç için kullanılır. Eğilim skoru ağırlığıYXYİkili maruz kalma ihtimalinin hesapları ve bu konuda bu değişkenler için kontroller. Maruz kalma için doğrudan standardizasyona benzer. Bkz. Rothman, Modern Epidemiyoloji, 3. baskı.

Randomizasyon ve Yarırandomlaşma

İnce bir nokta, ancak insanları belli bir deneysel duruma rasgele ayarlayabiliyorsanız, diğer değişkenlerin etkisi hafifletilir. Bu oldukça güçlü bir durum, çünkü diğer değişkenlerin ne olduğunu bilmenize bile gerek yok. Bu anlamda, onların etkilerini "kontrol ettiniz". Bu, gözlemsel araştırmalarda mümkün değildir, ancak eğilim puan yöntemlerinin , yarı-randomize bir çalışma ile aynı şekilde analiz edilebilmeleri için bir kişinin ağırlıklandırmasına, ayarlanmasına veya eşleştirilmesine izin veren maruz kalma için basit bir olasılıksal ölçüm oluşturduğu ortaya çıkmıştır. . Bkz. Rosenbaum, Rubin 1983 .

Microsimulation

Randomize bir çalışmadan elde edilmiş olabilecek verileri simüle etmenin başka bir yolu da mikrosimülasyon yapmaktır. Burada kişi dikkatini daha büyük ve daha sofistike, makine öğrenmeye benzer modeller haline getirebilir. Judea Pearl'ün sevdiğim bir terim " Oracle Models " olduğu bir terim : bir dizi özellik ve sonuç için öngörü ve tahmin üretebilen karmaşık ağlar. Görünüşe göre, böyle bir oracle modelinin bilgisini, "kontrol değişkeni" dağılımında dengeli, randomize bir kohortu temsil eden, "kontrol değişkeni" dağılımında dengeli ve basit t-testi rutinlerini kullanarak dengeleyen bir grup insanda sonuçları simüle etmek için "katlayabileceği" ortaya çıktı. olası farklılıkların büyüklüğü ve kesinliği. Rutter, Zaslavsky ve Feuer 2012'ye bakınız.

Bir regresyon modelinde eşleştirme, ağırlıklandırma ve ortak değişken ayarlarının hepsi aynı ilişkiyi tahmin eder ve bu nedenle hepsinin diğer değişkenler için "kontrol etme" yolları olduğu iddia edilebilir .


Tamamen kafamın üstünde.
JackOfTüm

Sorulanın cevabı bu, şimdiye kadarki iyi tartışma, çok değişkenli modellerde ayarlama lehine biraz tek yönlü.
AdamO

Çok değişkenli modeller, eşleme, vb. Hepsi geçerli tekniklerdir, ancak araştırmacı ne zaman bir tekniği diğerine göre kullanır?
mnmn

-1

Yazılım tam anlamıyla değişkenleri kontrol etmiyor. regresyonunun matris gösterimini bilirseniz, en küçük kareler çözümünün olduğunu hatırlayabilirsiniz . Böylece, yazılım bu ifadeyi sayısal doğrusal cebir yöntemlerini kullanarak sayısal olarak değerlendirir.b = ( X , T x ) - 1 x T -YY=Xβ+εb=(XTX)1XTY


4
Bu bilgiyi sunma fırsatını bulduğun için teşekkürler. Soruda verilen ihtiyaçlara cevap verebilmek için, ikinci ifadedeki asal ifadenin anlamını ve ikinci ifadenin anlamını bilmemiz gerekir. Eğimin, bir eksende diğerindeki değişime göre değişim olduğunu biliyorum. Unutmayın, gösterim, başlangıçta notasyonel olmayan kelimeler kullanılarak oluşturulmuş ve öğrenilmiş özel bir dildir. Bu dili bilmeyen insanlara ulaşmak, başka kelimeler kullanmayı gerektirir ve bu, disiplinler arasında bilgi getirme mücadelesidir.
Jen,

2
Çok değişkenli regresyonlara girdiğinizde, doğrusal cebir olmadan ilerlemenin yolu yoktur. Wiki bağlantısı değişkenlerin tüm tanımlarını içerir. Burada, bir matrisinin bir devrik olduğunu ifade ettiğini söyleyebilirim . Tasarım matrisinin nasıl oluşturulduğunu öğrenmeniz gerekir. Burada açıklamak çok uzun. Gönderdiğim Wiki'yi oku, çok fazla bilgisi var. Doğrusal cebiri anlamadığınız sürece, sorunuzu anlamlı bir şekilde cevaplayamazsınız, korkarım. XXX
Aksakal,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.