Kukla değişken tuzak sorunları


10

Tüm bağımsız değişkenlerin (yaklaşık 400) kukla değişkenler olduğu büyük bir OLS regresyonu yürütüyorum. Tüm dahil edilirse, mükemmel çoklu bağlantı (kukla değişken tuzağı) vardır, bu yüzden regresyonu çalıştırmadan önce değişkenlerden birini atlamalıyım.

İlk sorum şu, hangi değişken atlanmalıdır? Birkaç gözlemde mevcut olandan ziyade, gözlemlerin çoğunda mevcut olan bir değişkeni atlamanın daha iyi olduğunu okudum (örneğin, neredeyse tüm gözlemler "erkek" veya "kadın" ve sadece birkaçı "bilinmiyorsa" "," erkek "veya" kadın "ifadesini atlayın). Bu haklı mı?

Regresyonu atlanan bir değişkenle çalıştırdıktan sonra, atlanan değişkenin katsayı değerini tahmin edebiliyorum, çünkü tüm bağımsız değişkenlerimin toplam ortalamasının 0 olması gerektiğini biliyorum. Bu nedenle, bu gerçeği katsayı değerlerini tüm dahil edilen değişkenleri içerir ve atlanan değişken için bir tahmin alır. Bir sonraki sorum atlanan değişkenin katsayı değeri için standart hatayı tahmin etmek için kullanılabilecek benzer bir teknik olup olmadığıdır. Olduğu gibi, başlangıçta atlanan değişkenin katsayısı için standart bir hata tahmini elde etmek amacıyla farklı bir değişkeni (ve ilk regresyonda atladığım değişken dahil) regresyonu yeniden çalıştırmak zorundayım.

Son olarak, elde ettiğim katsayı tahminlerinin (sıfır etrafında yeniden ortaladıktan sonra) hangi değişkenin çıkarıldığına bağlı olarak biraz değiştiğini fark ettim. Teorik olarak, her biri farklı bir değişkeni atlayan birkaç regresyon çalıştırmak ve daha sonra tüm regresyonlardan katsayı tahminlerini ortalamak daha iyi olur mu?


Ne demek istediğinizi "tüm bağımsız değişkenlerimin genel ortalaması 0 olmalı" ve bunu nasıl bilebilirsiniz?
onestop

Temel olarak tüm değişkenleri ortalamaya (tüm değişkenlerin ortalaması) göre değerlendirmek istiyorum. Regresyon katsayıları atlanan değişkene göredir. Bu nedenle, tüm katsayıların ortalamasını (atlanan değişkenin 0 katsayısı dahil) her bir katsayı değerinden çıkardığımda, ayarlanan değerler artık ortalama 0 olur ve her katsayı değeri ortalamadan uzaklık olarak görülebilir.
James Davison

Yanıtlar:


8

Hangi değişkeni atlarsanız alın, "aynı" tahminleri almalısınız; katsayıları farklı olabilir, ancak belirli miktarlarda ya tahminleri beklentileri tüm modeller arasında aynı olmalıdır.

Basit bir durumda, xi=1erkekler için ve kadınlar için 0. Sonra, modelimiz var:

E[yixi]=xiE[yixi=1]+(1xi)E[yixi=0]=E[yixi=0]+[E[yixi=1]E[yixi=0]]xi=β0+β1xi.
Şimdi izin ver zi=1Kadınlar için. Sonra
E[yizi]=ziE[yizi=1]+(1zi)E[yizi=0]=E[yizi=0]+[E[yizi=1]E[yizi=0]]zi=γ0+γ1zi.
Beklenen değeri y kadınlar için β0 ve ayrıca γ0+γ1. Erkekler içinβ0+β1 ve γ0.

Bu sonuçlar, iki modelden elde edilen katsayıların nasıl ilişkili olduğunu göstermektedir. Örneğin,β1=-γ1. Verilerinizi kullanan benzer bir alıştırmada, elde ettiğiniz "farklı" katsayıların birbirlerinin toplamları ve farkları olduğunu göstermelidir.


4

James, her şeyden önce neden regresyon analizi, ancak ANOVA değil (bu tür analizlerde size yardımcı olabilecek birçok uzman var)? Lehte ANOVA için aslında ilgilenen tüm kukla değişkenlerin kombinasyonları ile tanımlanan farklı gruplar aracılığıyla farklılıklar (benzersiz kategoriler veya profiller) olmasıdır. Eklediğiniz kategorik değişkenlerin her birinin etkilerini incelerseniz, regresyon da yapabilirsiniz.

Sanırım burada sahip olduğunuz verilerin türü, birleşik analiz anlamında tanımlanmıştır : her birinin birkaç kategorisi olan nesnenin birçok özelliği (cinsiyet, yaş, eğitim vb.) bir kukla değişken. Yaygın bir uygulama, özellik içindeki kategorileri aşağıdaki gibi kodlamaktır (bu bağlantı yararlı olabilir, muhtemelen burada birleşik analiz yapmazsınız, ancak kodlama benzerdir):n kategoriler (üç, önerdiğiniz gibi, erkek, kadın, bilinmiyor) sonra, ilk ikisi her zamanki gibi kodlanır, iki manken (erkek, kadın) içerir, (1,0) erkek ise, (0,1) kadın ise ve (-1,-1)bilinmiyorsa. Bu şekilde sonuçlar gerçekten kesişme terimi etrafına yerleştirilecektir. Ancak farklı bir şekilde kodlama yapabilirsiniz, ancak bahsedilen yorumlama avantajını kaybedersiniz. Özetlemek gerekirse, her kategoriden bir kategori bırakırsınız ve gözlemlerinizi açıklanan şekilde kodlarsınız. Ayrıca intercept terimini de dahil edersiniz.

En büyük profilin kategorilerini atlamak benim için iyi görünüyor, o kadar önemli olmasa da, en azından boş değil bence. Değişkenleri belirli bir şekilde kodladığınız için, dahil edilen sahte değişkenlerin (her ikisi de erkek kadın, F testi ile test edilebilir) ortak istatistiksel önemi, atlanan değişkenin önemini ima eder.

Sonuçlar biraz farklı olabilir, ancak bunu etkileyen yanlış kodlama olabilir mi?


Yazılarım net değilse, yalvarıyorum be, Litvanya'da gece yarısı.
Dmitrij Celov

(0,0) yerine neden bilinmeyen (-1, -1)?
siamii

1

Analizinizin kesin doğasını bilmeden, etki kodlamayı düşündünüz mü? Bu şekilde, her değişken, belirli bir atlanmış kategoriden ziyade, bu özelliğin / niteliğin genel genel ortalamanın etkisini temsil eder. Kategori / niteliklerden biri için bir katsayı eksik kalacağınıza inanıyorum. Yine de, bu çok sayıda aptalla, büyük ortalamanın, herhangi bir belirli kategoriden daha anlamlı bir karşılaştırma grubu oluşturacağını düşünürdüm.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.