VIF, durum Dizini ve özdeğerler


15

Şu anda veri kümelerimdeki çoklu bağlantıyı değerlendiriyorum.

Hangi VIF eşik değerleri ve altındaki / yukarıdaki koşul indeksi bir sorun olduğunu gösteriyor?

VIF: VIF bir sorun olduğunu duydum .10

İki problem değişkeni kaldırıldıktan sonra her değişken için VIF . Değişkenlerin daha fazla tedaviye ihtiyacı var mı veya bu VIF iyi görünüyor mu?3.96

Durum Dizini: 30 veya daha büyük bir Durum Dizini'nin (CI) bir sorun olduğunu duydum. En yüksek CI değerim 16,66. Bu bir sorun mu?

Diğer sorunlar:

  • Dikkate alınması gereken başka doz / dont'lar var mı?
  • Aklımda tutmam gereken başka şeyler var mı?

1
Lütfen soruyu açıklayın. Özellikle, bunlar daha önce yapılmış bazı yorumlardı: By @chl - "tek bir sorunla net sorular (kendi başlarına ilginç) yazmayı düşünmelisiniz ve orijinal sorunuzla ilgili ek bilgiler için yorum ayırmalısınız, yukarı". Shane - "Şu anki soru ile ilgili olarak: net bir ortak iş parçacığı olmadan birçok farklı soru sorulduğu için de geliştirilebilir. Genel olarak çoklu bağlantıyla mı ilgileniyorsunuz yoksa VIF ile ilgileniyor musunuz? Bunları çözmek daha iyi olur açıklık için."

Yanıtlar:


5

Çoklu doğrusallık problemi aslında çoğu ekonometrik ders kitabında iyi çalışılmıştır. Dahası, wikipedia'da temel sorunların çoğunu özetleyen iyi bir makale var .

XTX

  1. verilerin daha küçük alt örnekleri üzerinde yuvarlanma regresyonları veya tahminleri gerçekleştirirken parametre tahminlerinde büyük değişiklikler
  2. tF
  3. R,2
  4. Durum dizini, VIF veya CI'nin sorunun kaldığını göstermesi durumunda VIF'e bir alternatiftir, bu nedenle bu sonuçtan istatistiksel olarak memnun kalabilirsiniz , ancak ...

muhtemelen teorik olarak değil, çünkü tüm değişkenlerin modelde bulunması gerekir (ve genellikle durumdur). Alakalı değişkenleri hariç tutmak (atlanan değişken problemi) yine de taraflı ve tutarsız parametre tahminleri yapar. Öte yandan, analiziniz buna dayandığı için tüm odak değişkenlerini dahil etmek zorunda kalabilirsiniz. Veri madenciliği yaklaşımında en uygun olanı aramak için daha teknik olsanız da.

Bu yüzden (kendimi kullanacağım) alternatifleri unutmayın:

  1. daha fazla veri noktası elde edin (daha büyük veri kümesi için VIF gereksinimlerinin daha küçük olduğunu ve yavaşça değişiyorsa açıklayıcı değişkenlerin zaman veya kesitte bazı önemli noktalar için değişebileceğini hatırlayın)
  2. temel bileşenler aracılığıyla latent faktörleri araştırmak (ikincisi dik birleşimlerdir, bu yüzden yapı tarafından çok yönlü değil, daha çok tüm açıklayıcı değişkenleri içerir)
  3. sırt regresyonu (parametre tahminlerinde küçük yanlılık getirir, ancak onları oldukça kararlı hale getirir)

Diğer bazı püf noktaları yukarıda belirtilen wiki makalesinde yer almaktadır.


3

Belsely'in 10'un üzerindeki CI'nın orta derecede bir sorunun göstergesi olduğunu ve 30'un üzerinde daha şiddetli olduğunu söylediğine inanıyorum.

Buna ek olarak, yüksek koşullu endekslerde değişkenler tarafından paylaşılan varyansa bakmalısınız. Bir değişkeni ve kesişmeyi içeren kollektifliğin sorunlu olup olmadığı ve rahatsız edici değişkenin ortalanmasının problemden kurtulmuş olup olmadığı ya da basitçe başka bir yere taşındığı konusunda tartışmalar (ya da son olarak bu literatürü okudum) tartışılıyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.