Ekonometri ve R ile ilgili bazı deneyimleri olan bir ekonomi öğrencisiyim. İstatistiksel olarak anlamlı olmamasına rağmen, bir regresyonda bir değişkeni dahil etmemiz gereken bir durum olup olmadığını bilmek isterdim?
Ekonometri ve R ile ilgili bazı deneyimleri olan bir ekonomi öğrencisiyim. İstatistiksel olarak anlamlı olmamasına rağmen, bir regresyonda bir değişkeni dahil etmemiz gereken bir durum olup olmadığını bilmek isterdim?
Yanıtlar:
Evet!
Bir katsayı gelmez sıfır istatistiksel olarak farklı değildir o değil katsayısı aslında katsayı alakasız olduğunu, sıfır olduğunu ima. Bir etkinin istatistiksel olarak anlamlı bir keyfi kesimden geçmediği, bunun bir kontrolü ele almaya çalışmaması gerektiği anlamına gelmez.
Genel olarak konuşursak, eldeki sorun ve araştırma tasarımınız regresör olarak neleri dahil edeceğinizi yönlendirmelidir.
Ve do not tam listesi olarak bunu al. Daha fazla tonla gelmek zor değil ...
Bunun sıklıkla gerçekleştiği bir durum sabit etki gösteren bir gerilemedir .
Panel verileriniz olduğunu ve modelde tahmin etmek istediğinizi varsayalım :
En küçük kareler Bu model tahmin sabit etkiler olarak kabul edilir bir ile en küçük kareler çalışan eşdeğerdir değişkeninin her birey için .
Her neyse, mesele şu ki, değişkenleri (yani gösterge değişkenleri üzerindeki katsayılar) genellikle kötü bir şekilde tahmin edilir. Herhangi bir bireysel sabit etki genellikle istatistiksel olarak anlamsızdır. Ancak sabit etkileri hesaba katarsanız, yine de tüm gösterge değişkenlerini regresyona dahil edersiniz.
(Ayrıca, istatistik paketlerinin çoğunun, yerleşik yöntemleri kullanırken bireysel sabit efektler için standart hatalar bile vermeyeceğini unutmayın. Tek tek sabit efektlerin önemini gerçekten umursamıyorsunuz. Muhtemelen onların toplu önemini umursuyorsunuz. .)
Eğer bir uydurma ediyorsanız bazı eğriye dereceden polinomun inci, neredeyse her zaman daha düşük polinom terimlerini içerir.
Örneğin, 2. dereceden bir polinom kullanıyor olsaydınız:
Genellikle zorlamak ve bunun yerine çalıştırmak oldukça tuhaf olurdu.
Ancak Newton mekaniğinin öğrencileri istisnaları hayal edebilecektir.
Diyelim ki bir AR (p) modeli tahmin ediyordunuz, daha düşük emir terimlerini de dahil edersiniz. Örneğin, bir AR (2) için koşarsınız:
Ve çalışması garip olurdu:
@NickCox'ın belirttiği gibi, ve terimleri benzer şekilde bir arada olma eğilimindedir. Bununla ilgili daha fazla bilgi için, örneğin bu makaleye bakınız .günah
Bunu yapmak için iyi teorik sebepler olduğunda sağ taraftaki değişkenleri dahil etmek istersiniz.
Buradaki ve StackExchange'in tartışacağı diğer cevaplar gibi, adım adım değişken seçimi sayısız istatistiksel problem yaratabilir.
Ayrıca aşağıdakileri ayırt etmek de önemlidir:
İkinci durumda, katsayının önemli olmadığını iddia etmek sorunludur. Basitçe zayıf bir şekilde ölçülebilir.
Evet var. Yanıt değişkeninizle anlamlı bir şekilde ilişkili olabilecek herhangi bir değişken, istatistiksel olarak önemsiz bir düzeyde olsa bile, eklenmemişse, regresyonunuzu etkileyebilir. Bu, belirsizlik olarak bilinir ve olabileceği kadar doğru olmayan parametre tahminlerine yol açar.
https://onlinecourses.science.psu.edu/stat501/node/328
Yukarıdan:
Eğer regresyon denklemi bir veya daha fazla önemli öngörücü değişkeni eksikse, bir regresyon modeli belirlenir (sonuç 2). Bu durum belki de en kötü senaryodur, çünkü belirsiz bir model yanlı regresyon katsayıları ve yanlı yanıt tahminleri verir. Yani, modeli kullanırken, popülasyon yamaçlarını ve popülasyon araçlarını tutarlı bir şekilde küçümseyebilir veya küçümseyebiliriz. Zaten kötü olan meseleleri daha da kötü hale getirmek için, ortalama kare hatası MSE σ²'yi abartma eğilimindedir, bu nedenle olması gerekenden daha geniş bir güven aralığı sağlar.
Genellikle doğrusal regresyon değişkenlerini önemlerinden dolayı dahil etmez veya hariç tutmazsınız. Bunları dahil edersiniz, çünkü seçilen değişkenlerin regresyon kriterlerinin (iyi) yordayıcıları olduğunu varsayırsınız. Başka bir deyişle, yordayıcı seçimi teori üzerine kuruludur.
Doğrusal regresyonda istatistiksel anlamsızlık iki şey anlamına gelebilir (bildiğim kadarıyla):
Önemsiz belirleyicileri dışlamak için geçerli bir neden, ölçüt varyansını veya çoğunu açıklayan en küçük yordayıcı alt kümesini aramaktır. Eğer bulduysan teorini kontrol et.
Ekonometride bu sağ ve sol olur. Örneğin, üç aylık mevsimsellik kuklalarını Q2, Q3 ve Q4 kullanıyorsanız, genellikle grup olarak önemli oldukları görülür, ancak bazıları bireysel olarak önemli değildir. Bu durumda genellikle hepsini saklarsınız.
GÜNCELLEME: Başka bir yaygın örnek tahmin. Ekonometri, ekonomi bölümlerinde genellikle çıkarım perspektifinden öğretilir. Çıkarım perspektifinde p-değerleri ve önemi konusunda çok fazla dikkat vardır, çünkü neyin neye neden olduğunu anlamaya çalışıyorsunuz. Tahminde, bu konuya çok fazla önem verilmez, çünkü tek umursadığınız şey, modelin ilgi değişkenini ne kadar iyi tahmin edebileceğidir.
Bu, son zamanlarda ekonomiye yönelen makine öğrenme uygulamalarına, btw'ye benzer. İyi tahmin etmeyen tüm önemli değişkenleri olan bir modeliniz olabilir. ML'de genellikle "fazla uydurma" olarak adlandırılır. Açıkçası, bu modelin tahminlerde çok az kullanımı var.
İki farklı soru soruyorsun:
Düzenleme: orijinal yayın için bu doğruydu, ancak düzenlemelerden sonra artık geçerli olmayabilir.
S1 ile ilgili olarak, bunun çok geniş olmanın sınırında olduğunu düşünüyorum. Bazıları zaten verilen birçok olası cevap vardır. Bir başka örnek daha tahmin için model oluştururken verilebilir (açıklama için aşağıda belirtilen kaynağa bakın).
İkinci çeyrekte, istatistiksel anlamlılık, model oluşturma için sağlam bir kriter değildir. Rob J. Hyndman "Değişken seçimi için istatistiksel testler" adlı blog yazısında şöyle yazıyor :
İstatistiksel önem genellikle, bir değişkenin bir modele dahil edilip edilmemesi gerektiğini belirlemek için iyi bir temel değildir; <...> İstatistiksel testler, seçili değişkenleri değil, hipotezleri test etmek için tasarlanmıştır.
Ayrıca, tamamen tesadüfen istatistiksel olarak anlamlı olan bazı değişkenleri bulabileceğinizi de unutmayın (önem seviyesi seçiminiz tarafından kontrol edilme şansı). Bir değişkenin istatistiksel olarak anlamlı olduğu gözlemi, değişkenin modele ait olduğu sonucuna varmak için yeterli değildir.
Başka bir "evet" ekleyeceğim. Her zaman öğretildim - ve bunu iletmeye çalıştım - ortak değişkenlerdeki öncelikli husus istatistik değil alan bilgisidir. Biyoistatistikte, örneğin, bireyler üzerinde bazı sağlık sonuçları modelliyorsam, o zaman regresyonun ne söylediğine bakılmaksızın , benim için modele yaş, ırk ve cinsiyeti içermemesi için bazı iyi argümanlara ihtiyacınız olacak.
Aynı zamanda modelinizin amacına da bağlıdır. Amaç, sonucunuzla en çok hangi faktörlerin ilişkilendirildiğini daha iyi anlamaksa, eşitlikçi bir model oluşturmak bazı erdemlere sahiptir. Tahmini önemsiyorsanız ve anlayışı çok fazla bilmiyorsanız, değişkenleri ortadan kaldırmak daha küçük bir endişe olabilir.
(Son olarak, değişken seçimi için istatistik kullanmayı planlıyorsanız, Frank Harrell'ın konuyla ilgili söylediklerini kontrol edin - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ ve onun kitabı Regresyon Modelleme stratejileri . Eğer kullanılan kademeli olarak veya en iyi öngören seçtiğiniz için benzer istatistiksel tabanlı stratejiler ettik zaman Kısaca, ardından "? bu iyi birer tahmin" herhangi testler korkunç önyargılı olan - bir kurs onlar' iyi prediktörler ise, onları bu temelde seçtiniz ve bu prediktörler için p değerleri yanlış bir şekilde düşük.
“İstatistiksel önemsizliğin” sonucunun gerçekten söylediği tek şey, seçilen Tip I hata düzeyinde, regresörün bağımlı değişken üzerindeki etkisinin pozitif mi yoksa negatif mi olduğunu bile söyleyemeyiz (bu yazıya bakınız).
Dolayısıyla, bu regresörü tutarsak, bağımlı değişken üzerindeki kendi etkisi hakkında herhangi bir tartışmanın onu destekleyecek istatistiksel kanıtları yoktur.
Ancak bu tahmin başarısızlığı, regresörün yapısal ilişkiye ait olmadığını söylemez, sadece belirli veri setiyle, katsayısının işaretini kesin olarak belirleyemediğimizi söyler.
Bu nedenle, prensipte, varlığını destekleyen teorik argümanlar varsa, regresör tutulmalıdır.
Buradaki diğer cevaplar, bu gibi regülatörlerin spesifikasyonda tutulduğu belirli modeller / durumlar, örneğin sabit etkiler paneli veri modelinden bahseden cevap olarak verilmiştir.
İstatistiksel olarak anlamlı olmasa bile, araştırmanın odağıysa, özel ilgi alanını içeren bir değişken ekleyebilirsiniz. Ayrıca, biyoistatistikte, klinik önem genellikle istatistiksel önemden farklıdır.