Belirleyici değişkeni eksik olan çoklu regresyon

Bize ve şeklinde bir dizi veri verildiğini varsayalım . Biz tahmin görevi verilmiştir değerlerine dayalı . İki regresyon tahmin ediyoruz, burada: $(y,x_{1},x_{2},\cdots, x_{n})$ $(y,x_{1},x_{2},\cdots, x_{n-1})$ $y$ $x$

\begin{aligned} (1) & y & = f_{1} (x_{1}, \dots, x_{n - 1}, x_{n}) \\ (2) & y & = f_{2} (x_{1}, \dots, x_{n - 1}) \end{aligned}

$\begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align}$

Ayrıca, değerlerini değerlerine göre tahmin eden bir regresyon tahmin ediyoruz : $x_{n}$ $(x_{1},\cdots, x_{n-1})$

\begin{matrix} (3) & x_{n} = f_{3} (x_{1}, \dots, x_{n - 1}) \end{matrix}

$x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3}$

Şimdi biz verildi değerleri varsayalım , o zaman tahmin etmek için iki farklı yöntem olurdu : $(x_{1},\cdots, x_{n-1})$ $y$

\begin{aligned} (4) & y & = f_{1} (x_{1}, \dots, x_{n - 1}, f_{3} (x_{1}, \dots, x_{n - 1})) \\ (5) & y & = f_{2} (x_{1}, \dots, x_{n - 1}) \end{aligned}

$\begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align}$

Hangisi genel olarak daha iyi olurdu?

İlk denklemin daha iyi olacağını tahmin ediyorum, çünkü veri noktalarının iki formundan bilgi kullanıyor, ikinci denklem ise sadece tahmin değeri olan veri noktalarından bilgi kullanıyor . İstatistik eğitimi sınırlı ve bu nedenle profesyonel tavsiye almak istiyorum. $n-1$

Ayrıca, genel olarak, eksik bilgi içeren verilere en iyi yaklaşım nedir? Başka bir deyişle, tüm boyutlarında değeri olmayan verilerden en fazla bilgiyi nasıl çıkarabiliriz ? $n$

— Xiaowen Li
kaynak

Fiili verilerle tahmin ve tahminlerle tahmin - siz karar verin :)

— Doktora

Gerçekten bu kadar basit mi?

— Xiaowen Li

Cevap olabilir, duruma göre değişir. Ne kadar veri eksik? Toplamda ne kadar veri var? Kaç tahmininiz var?

— Joel W.

+1, bence bu gerçekten ilginç ve açıkça ifade edilen bir soru. Bununla birlikte, daha fazla bilgi bu durumu düşünmemize yardımcı olacaktır.

Örneğin, arasındaki ilişki nedir $x_n$ ve $y$ ? Biri yok, bu durumda regresyon yok. $(1)$ regresyona göre avantaj sağlamaz $(2)$ . (Aslında, standart hataların biraz daha büyük olması ve dolayısıyla betaların gerçek değerlerinden ortalama olarak biraz daha fazla olması anlamında çok küçük bir dezavantajdır.) Bir işlev eşlemesi varsa. $x_n$ için $y$ , sonra, tanım gereği, orada gerçek bilgiler ve regresyon var $(1)$ ilk durumda daha iyi olacak.

Sonra, arasındaki ilişkinin doğası nedir $(x_1, \cdots, x_{n-1})$ ve $x_n$ ? Bir tane var mı? Örneğin, deneyler yaptığımızda, (genellikle) açıklayıcı değişkenlerin her bir değer kombinasyonuna eşit sayıda çalışma birimi atamaya çalışırız. (Bu yaklaşım, IV'lerin seviyelerinin Kartezyen ürününün çoğunu kullanır ve buna 'tam faktöryel' tasarım denir; Ayrıca, ' kesirli faktöryel ' tasarımlar olarak adlandırılan verileri kaydetmek için düzeylerin kasıtlı olarak karıştırıldığı durumlar da vardır .) açıklayıcı değişkenler diktir, üçüncü regresyon covariates oldukça fazla olan bir gözlemsel çalışmada, diğer taraftan, kesinlikle tam olarak 0 değerini verecektir hep korelasyon. Bu korelasyon ne kadar güçlü olursa, $x_n$ . Bu gerçekler, regresyonun göreli değerlerini değiştirecek $(1)$ ve gerileme $(2)$ .

Ancak, (ne yazık ki) bundan daha karmaşıktır. Çoklu regresyondaki önemli fakat zor kavramlardan biri çoklu doğrusallıktır . Regresyonu tahmin etmeye çalışırsanız $(4)$ , mükemmel çoklu bağlantıya sahip olduğunuzu göreceksiniz ve yazılımınız tasarım matrisinin ters çevrilemez olduğunu söyleyecektir. Böylece, regresyon sırasında $(1)$ regresyona göre avantaj sağlayabilir $(2)$ , gerileme $(4)$ olmaz.

Daha ilginç olan soru (ve sorduğunuz soru), regresyon kullanıyorsanız $(1)$ hakkında tahminlerde bulunmak $y$ tahmini kullanarak $x_n$ regresyon tahminlerinden elde edilen değerler $(3)$ ? (Yani, regresyonu tahmin etmiyorsunuz $(4)$ - regresyonda tahmin edilen tahmin denkleminden çıktıyı bağlıyorsunuz $(3)$ tahmin modeline $(4)$ .) Mesele şu ki, burada yeni bir bilgi edinmiyorsunuz. İlkinde hangi bilgiler varsa $n-1$ her bir gözlem için öngörücü değerler zaten regresyon tarafından optimal olarak kullanılmaktadır $(2)$ yani kazanç olmaz.

Böylece, ilk sorunuzun cevabı, regresyonla da gidebilirsiniz $(2)$ gereksiz işten tasarruf etmek için tahminleriniz için. Birinin size iki veri seti verdiğini açıkladığınız somut duruma değinmek yerine bunu oldukça soyut bir şekilde ele aldığımı unutmayın (sadece bunun olduğunu hayal edemiyorum). Bunun yerine, bu soruyu regresyonun doğası hakkında oldukça derin bir şey anlamaya çalışmak olarak düşünüyorum. Bununla birlikte, zaman zaman meydana gelen şey, bazı gözlemlerin tüm öngörücüler üzerinde değerlere sahip olması ve diğer bazı gözlemlerin (aynı veri kümesinde) bazı öngörücülerde bazı değerlerin eksik olmasıdır. Bu özellikle uzunlamasına verilerle uğraşırken yaygındır. Böyle bir durumda, çoklu itibarı araştırmak istersiniz .

— gung - Monica'yı eski durumuna döndürün
kaynak

Ayrıntılı cevabınız için teşekkür ederim Gung ve sorumun ifadesini değiştirmenize yardımcı oluyorsunuz. Cevabınızı tam olarak yorumladıktan sonra cevap vereceğim. Bilginiz için, bu ampullerin fiyatı hakkında gözlemsel bir çalışmadır.

x_{n}

$x_n$ ampulün kullanım ömrünü, parlaklığını ve renk sıcaklığını içerir. Bilgiler genellikle her şeyi vermeyen perakendecilerden toplanır ve bu da eksik öngörücülerle sonuçlanır. Yine de topladığımız bilgilerden en iyi şekilde yararlanmaya çalışıyoruz.

— Xiaowen Li

Tamam, bunun sadece regresyonu anlamakla ilgili olduğunu düşündüm. Birden fazla itimat içine bakardım.

— gung - Monica'yı eski durumuna getirin

Anlayışınız için teşekkürler Gung. Denklem 4'ü kullanarak yeni bir bilgi edinilmemesini haklıyorsunuz. Empütasyon tam olarak ihtiyacım olan şey. Ve haklısın, katsayılar için bana çok büyük bir p değeri veren çoklu eşbiçimliğe rastladım. Daha sonra ya değişkenlerin sayısını katsayılar için daha düşük bir p değeri elde etme ya da daha büyük bir değer elde etme seçeneği ile karşı karşıya kaldım

r^{2}

$r^2$ ve daha büyük s. Sanırım hayat değiş tokuşlarla dolu.

— Xiaowen Li

Regresyonlar hakkındaki soyut tartışmalarınız için tekrar teşekkürler. Eğer gerçeği bulmak için bir yöntem olarak bakarsak, istatistikler güzel bir şekilde ilginç olabilir. Veri

— setimle

Parametrik kesirli isnatmayı kontrol etmelisiniz. Bu, Iowa Eyaletinde Jae Kwang Kim tarafından bu durum için mükemmel olabilecek bir iş. Bkz. Biomet.oxfordjournals.org/content/98/1/119.abstract

— StatsStudent