Doğrusal bir modelde anlamlı olmayan faktör düzeyleri için katsayıları göz ardı edebilir miyim?


15

Buradaki doğrusal model katsayıları hakkında açıklama yaptıktan sonra , faktör seviyesi katsayıları için önemsiz (yüksek p değeri) ile ilgili bir takip sorum var.

Örnek: Doğrusal modelim 10 seviyeli bir faktör içeriyorsa ve bu düzeylerden sadece 3'ünde kendileriyle ilişkili önemli p değerleri varsa, modeli Y'yi tahmin etmek için kullanırken, özne önemsiz düzey?

Daha da önemlisi, 7 anlamlı olmayan düzeyi bir düzeye çıkarmak ve yeniden analiz etmek yanlış olur mu?


2
Bunu yaparak önyargılı çıkarım elde edebilirsiniz - örneğin, tahmin aralıkları oluşturuyorsanız, kapsam olasılıkları 7 önemsiz seviyenin herhangi birindeki kişiler için muhtemelen yanlış olur.
Makro

1
Burada bazı iyi yanıtlar aldınız, ancak yüksek p değerlerine sahip faktörleri düşürmenin neden uygun olmadığıyla da ilgilenebilirsiniz . Bunun, sizin için yaptığınız bilgisayar yerine kendiniz yapmanıza rağmen, otomatik olarak bir model seçim prosedürüne mantıklı olduğunu belirtmek gerekir. Bu soruyu ve verilen cevapları okumak, bunların neden doğru olduğunu anlamaya yardımcı olabilir.
gung - Monica'yı eski durumuna döndürün

1
Bu Q'nun Kasım 2012'den itibaren tam bir kopyası var: stats.stackexchange.com/questions/18745/… . Orada da biraz düşündürücü bilgi var.
rolando2

2
Bu çok önemli bir soru ve yine de tartışmayı teoriyle destekleyen bir cevap yok. Haliyle, onlar sadece fikirdir. Cevaplardan birinde bağlantılı olan kitap (sonuç diğer cevaplardan farklı olan) bile referans vermez. Bu durumda, bunlardan hiçbirine güvenmiyorum ve bu nedenle hiçbir şey yapmamayı tercih ediyorum (yani tüm kategorileri / faktörleri içeride tutuyorum).
luchonacho

Yanıtlar:


13

Birden çok seviyeli bir öngörme değişkeni koyuyorsanız, ya değişkeni koyarsınız ya da girmezseniz, seviyeleri seçip seçemezsiniz. Seviye sayısını azaltmak için öngörücü değişkeninizin seviyelerini yeniden yapılandırmak isteyebilirsiniz (bu, analizinizin bağlamında mantıklıysa.) Ancak, bunun, eğer seviyeleri önemli değil çünkü önemli olmadıklarını görüyorsunuz.

pppα>.0001


(P-değeri yazım düzeltildi.) Burada iyi puanlar. Bu nedenle, çalışma bağlamında haklı çıkabilen bazı gerçek dünya ve mantıksal akla dayanması şartıyla, seviyelerin çökmesi (önem kırılması boyunca onları ayrıştırmak da mümkündür) mantıklıdır, ancak sadece önemlerine göre keyfi olarak toparlamak değil . Anladım.
Ağaçlar4TheForest

15

@ Ellie'nin yanıtı iyi bir yanıt.

Birkaç seviyeye sahip bir değişken koyuyorsanız, analizinizdeki tüm bu seviyeleri korumanız gerekir. Önem düzeyine göre seçim yapmak ve seçmek, sonuçlarınızı saptırır ve bazı mucizelerle tahminleriniz aynı kalmayı başarsa bile, tahminlerinizin farklı seviyeleri üzerinde boşluklar açacağınız için çıkarımınıza çok garip şeyler yapar. değişken.

Tahmincinin her seviyesi için tahminlerinize grafik olarak bakmayı düşünürüm. Seviye yükseldikçe bir trend mi görüyorsunuz yoksa düzensiz mi?

Genel olarak, değişkenleri istatistiksel testlere veya tamamen istatistiksel anlara dayalı olarak yeniden kodlamaya karşıyım. Değişkeninizdeki bölünmeler daha sağlam bir şeye dayanmalıdır - mantıksal olarak anlamlı kesme noktaları, belirli bir geçiş noktasındaki alan ilgisi, vb.


8

Zaten aldığınız iki iyi cevabı genişleterek, buna önemli ölçüde bakalım. Bağımlı değişkeninizin gelir olduğunu varsayalım ve bağımsız değişkeninizin nüfus sayımı başına düzeylerle birlikte etnik köken olduğunu (Beyaz, Siyah / Afr.Am., Am. Hint / Alaska Yerli, Asya, Yerli Hawaii / Pac Adalı, diğer ve çok ırklı). Diyelim ki Beyaz'ı referans kategorisi olarak kukla kodladınız ve

Income=b0+b1BAA+b2birbenbirN-+b3birS+b4N-'HPben+b5Ö+b6MR,

Bu çalışmayı New York şehrinde yapıyorsanız, muhtemelen çok az Yerli Hawaii / Pasifik Adalı alacaksınız. Bunları (varsa) diğerlerine dahil etmeye karar verebilirsiniz. Ancak, tam denklemi kullanamazsınız ve sadece bu katsayıyı dahil etmezsiniz. O zaman kesişme yanlış olur ve gelir için öngörülen değerler de olur.

Ancak kategorileri nasıl birleştirmelisiniz?

Diğerlerinin söylediği gibi, mantıklı olmalı .


4

Farklı bir görüş vermek gerekirse: neden rastgele bir etki olarak eklemiyorsunuz? Bu, zayıf destekle bu seviyeleri cezalandırmalı ve etki boyutlarının minimum olduğundan emin olmalıdır. Bu şekilde, aptalca tahminler almaktan endişe etmeden hepsini içeride tutabilirsiniz.

Ve evet, bu, rastgele etkilerin Bayes bakışından, tüm "olası seviyelerden örnek" görüşlerinden daha fazla motive edilir.


0

Anlamlı olmayan kategorileri referans kategorisiyle birleştirip birleştiremeyeceğimi de merak ediyordum. "İş Zekası için Veri Madenciliği: XLMiner® ile Microsoft Office Excel®'de Kavramlar, Teknikler ve Uygulamalar, Galit Shmueli tarafından 2. Baskı, Nitin R. Patel, Peter C. Bruce", s87-89 (Boyut İndirgeme bölümü) ( Google Arama Sonucu ), @ Ellie'nin yanıtının ikinci cümlesini destekliyor gibi görünüyor:

  • "Uygun regresyon modelleri de benzer kategorileri daha fazla birleştirmek için kullanılabilir: istatistiksel olarak anlamlı olmayan (yani yüksek bir p-değerine sahip) katsayıları olan kategoriler referans kategorisiyle birleştirilebilir çünkü referans kategoriden ayrılmaları çıktı değişkeni üzerinde önemli etki "
  • "Benzer katsayı değerlerine (ve aynı işarete) sahip kategoriler genellikle çıktı değişkeni üzerindeki etkileri benzer olduğu için birleştirilebilir"

Ancak, konu uzmanlarıyla kategorileri birleştirmenin mantıklı olup olmadığını kontrol etmeyi planlıyorum (önceki cevaplarda / yorumlarda ima edildiği gibi, örneğin @Fomite, @gung).


Bu cevap, buradaki diğer cevaplarla çelişmektedir.
kjetil b halvorsen
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.