İstatistiksel olarak anlamlı olmamasına rağmen bir regresyonda bir değişken ne zaman kullanılmalıdır?


37

Ekonometri ve R ile ilgili bazı deneyimleri olan bir ekonomi öğrencisiyim. İstatistiksel olarak anlamlı olmamasına rağmen, bir regresyonda bir değişkeni dahil etmemiz gereken bir durum olup olmadığını bilmek isterdim?


1
Tıbbi araştırmalarda, nitel etkileşimler içeriyorsa bunu dahil edersiniz. Daha önce burada bahsettiğim Lacey Gunter'ın çalışmalarına bakın. Ayrıca, Springer tarafından 2013 yılında yayınlanan Chakraborty ve Moodie'in kitabı. Dinamik Tedavi Rejimlerinin İstatistiksel Yöntemleri: Güçlendirme Öğrenmesi, Nedensel Çıkarım ve Kişiselleştirilmiş Tıp.
Michael Chernick

11
Ayrıca istatistiksel anlamlılığın tamamen keyfi olduğunu düşünün. Önemli olan nedir? 0.05? 0.1? 0.001? Eğer teorik temel bir öngörücüyü içerecek şekilde mevcutsa, onu korumak için yeterli sebep budur.
Ashe

2
"İstatistiksel olarak anlamlı değil" derken, bunun keyfi bir seçim olan% 5 güven düzeyinde olduğunu fark edersiniz. (Ve değişkenler ne kadar fazla olursa, Çoklu Test Problemine maruz kalırsınız).
smci

1
@smci 0.05 =% 5 anlamlılık düzeyi% 95 güven düzeyine tekabül ediyor, terimleri aynı cümle içinde karıştırmamak için yeterli neden. Görüşte güven aralığı olmayan önemli prosedürler olduğu için, genellikle hangi terimin daha uygun olduğunu kullanmak en kolay yoldur. İstisnalar, bağlantıyı giriş düzeyinde açıklarken.
Nick Cox,

Yanıtlar:


30

Evet!

Bir katsayı gelmez sıfır istatistiksel olarak farklı değildir o değil katsayısı aslında katsayı alakasız olduğunu, sıfır olduğunu ima. Bir etkinin istatistiksel olarak anlamlı bir keyfi kesimden geçmediği, bunun bir kontrolü ele almaya çalışmaması gerektiği anlamına gelmez.

Genel olarak konuşursak, eldeki sorun ve araştırma tasarımınız regresör olarak neleri dahil edeceğinizi yönlendirmelidir.

Bazı Hızlı Örnekler:

Ve do not tam listesi olarak bunu al. Daha fazla tonla gelmek zor değil ...

1. Sabit etkiler

Bunun sıklıkla gerçekleştiği bir durum sabit etki gösteren bir gerilemedir .

Panel verileriniz olduğunu ve modelde tahmin etmek istediğinizi varsayalım :b

yit=bxit+ui+ϵit

En küçük kareler Bu model tahmin sabit etkiler olarak kabul edilir bir ile en küçük kareler çalışan eşdeğerdir değişkeninin her birey için .uii

Her neyse, mesele şu ki, değişkenleri (yani gösterge değişkenleri üzerindeki katsayılar) genellikle kötü bir şekilde tahmin edilir. Herhangi bir bireysel sabit etki genellikle istatistiksel olarak anlamsızdır. Ancak sabit etkileri hesaba katarsanız, yine de tüm gösterge değişkenlerini regresyona dahil edersiniz.uiui

(Ayrıca, istatistik paketlerinin çoğunun, yerleşik yöntemleri kullanırken bireysel sabit efektler için standart hatalar bile vermeyeceğini unutmayın. Tek tek sabit efektlerin önemini gerçekten umursamıyorsunuz. Muhtemelen onların toplu önemini umursuyorsunuz. .)

2. Birlikte giden fonksiyonlar ...

(a) Polinom eğri uydurma (yorumlarda şapka ucu @NickCox)

Eğer bir uydurma ediyorsanız bazı eğriye dereceden polinomun inci, neredeyse her zaman daha düşük polinom terimlerini içerir.k

Örneğin, 2. dereceden bir polinom kullanıyor olsaydınız:

yi=b0+b1xi+b2xi2+ϵi

Genellikle zorlamak ve bunun yerine çalıştırmak oldukça tuhaf olurdu.b1=0

yi=b0+b2xi2+ϵi

Ancak Newton mekaniğinin öğrencileri istisnaları hayal edebilecektir.

(b) AR (p) modelleri:

Diyelim ki bir AR (p) modeli tahmin ediyordunuz, daha düşük emir terimlerini de dahil edersiniz. Örneğin, bir AR (2) için koşarsınız:

yt=b0+b1yt1+b2yt2+ϵt

Ve çalışması garip olurdu:

yt=b0+b2yt2+ϵt

(c) Trigonometrik fonksiyonlar

@NickCox'ın belirttiği gibi, ve terimleri benzer şekilde bir arada olma eğilimindedir. Bununla ilgili daha fazla bilgi için, örneğin bu makaleye bakınız .günahcossin

Daha geniş...

Bunu yapmak için iyi teorik sebepler olduğunda sağ taraftaki değişkenleri dahil etmek istersiniz.

Buradaki ve StackExchange'in tartışacağı diğer cevaplar gibi, adım adım değişken seçimi sayısız istatistiksel problem yaratabilir.

Ayrıca aşağıdakileri ayırt etmek de önemlidir:

  • küçük bir standart hata ile sıfırdan istatistiksel olarak ayırt edilemez bir katsayı .
  • büyük bir standart hata ile sıfırdan istatistiksel olarak ayırt edilemez bir katsayı .

İkinci durumda, katsayının önemli olmadığını iddia etmek sorunludur. Basitçe zayıf bir şekilde ölçülebilir.


İlk örneğinize dokunarak, modelde tutmamızın sebebi , yorumunun modelde olup olmadığını değiştirmesi gibi görünüyor . (Bkz. Örneğin en.wikipedia.org/wiki/Partial_regression_plot - " doğrusal etkilerini kontrol etmek" ifadesi gibi bir şey kullanıyoruz ). Bu durumda, modelin önemi için sahip , bize verdiği yorumlamaya sahibiz. b u i u i u iuibuiuiui
user795305

5
Yine de zaten çok fazla örtüşen bazı çok iyi cevaplar, bu yüzden örneklerimi burada bir yorum ile sınırlayacağım. Polinom uydurma : en yaygın olarak, bir kuadratik neredeyse her zaman bir çift doğrusal ve kare terim hareketiyle yerleştirilmelidir. Konvansiyonel seviyelerde sadece bir terim önemli olsa bile, ortak etkileri anahtardır. Trigonometrik tahminler Benzer şekilde, sinüs ve kosinüs, geleneksel seviyelerde kalifiye olmasa bile, genellikle bir araya gelir. Bu şekilde çift etkili takılmalıdır.
Nick Cox,

2
@NickCox Bu bir topluluk wiki olduğundan ve amacın burada ortaya atılanla doğrudan alakalı olduğundan, yorumunun cevabın uygun bir noktada cevaplandırılmaya değer olduğunu düşünüyorum. Bence, bir yorum olarak kalmak çok önemlidir, bence, haklı bir cevap olarak en iyisi olmayacağının doğru olduğunu düşünüyorum.
Silverfish

@ Silverfish Matthew kopyalamak için bekliyoruz. Bununla birlikte, düzenlemem benim için biraz makul görünüyor.
Nick Cox,

1
@ NickCox Haha, umrumda değil. :) Önerilerinizi ekledim ve düzenlemekten çekinmeyin!
Matthew Gunn

14

Evet var. Yanıt değişkeninizle anlamlı bir şekilde ilişkili olabilecek herhangi bir değişken, istatistiksel olarak önemsiz bir düzeyde olsa bile, eklenmemişse, regresyonunuzu etkileyebilir. Bu, belirsizlik olarak bilinir ve olabileceği kadar doğru olmayan parametre tahminlerine yol açar.

https://onlinecourses.science.psu.edu/stat501/node/328

Yukarıdan:

Eğer regresyon denklemi bir veya daha fazla önemli öngörücü değişkeni eksikse, bir regresyon modeli belirlenir (sonuç 2). Bu durum belki de en kötü senaryodur, çünkü belirsiz bir model yanlı regresyon katsayıları ve yanlı yanıt tahminleri verir. Yani, modeli kullanırken, popülasyon yamaçlarını ve popülasyon araçlarını tutarlı bir şekilde küçümseyebilir veya küçümseyebiliriz. Zaten kötü olan meseleleri daha da kötü hale getirmek için, ortalama kare hatası MSE σ²'yi abartma eğilimindedir, bu nedenle olması gerekenden daha geniş bir güven aralığı sağlar.


4
Bu tam olarak doğru değil. Şaşırtıcı bir değişken olması için, açıklanan değişkenin ve ilgilenilen açıklayıcı değişkenin (ler) neden olması gerekir . Açıklayıcı değişkenin neden ilgi değişkenleri ve seyrini etkileyebilecek ise, o zaman bir ara değişken olduğunu ve gerektiği değil (eğer toplam etkiyi ayrıştırmak istemiyorsanız) bunun için kontrol eder.
Maarten Buis

1
Bu, şaşkınlığın kontrolü konusunda çok yetersiz bir tartışma. Sonuç ile korelasyon, kafa karıştırmak için yeterli bir durum değildir ve arabulucular için kontrol ederek nedensel modellerin yanlış tanımlanmasına yol açabilir: Bu, "sigarayı bırakmak, koroner arter kalsiyum (CAC) kontrolünden sonra kardiyovasküler hastalık riskini azaltmaz" gibi yanlışlara yol açar. CAC sigara içmenin size kalp hastalığı sağlaması için birincil yoldur. Bkz. Pearl Tarafından Nedensellik, 2. basım, bölüm 3 bölüm 3.
AdamO

Düzenlemek için çekinmeyin. Kıtlığım çok büyük yanlışlıklara yol açtıysa, özür dilemede bu tür bir derinlik aradığını düşünmedim.
doubletrouble

11

Genellikle doğrusal regresyon değişkenlerini önemlerinden dolayı dahil etmez veya hariç tutmazsınız. Bunları dahil edersiniz, çünkü seçilen değişkenlerin regresyon kriterlerinin (iyi) yordayıcıları olduğunu varsayırsınız. Başka bir deyişle, yordayıcı seçimi teori üzerine kuruludur.

Doğrusal regresyonda istatistiksel anlamsızlık iki şey anlamına gelebilir (bildiğim kadarıyla):

  1. Önemsiz belirteçler kriterler ile ilişkili değildir. Onları dışlayın ancak önemsizliğin ilişkisiz olduklarını kanıtlamadığını unutmayın. Teorini kontrol et.
  2. Öngörüler önemsizdir, çünkü diğer yordayıcıların bir işlevi olarak ifade edilebilirler. Öngörüler kümesine daha sonra çok hücreli olarak adlandırılır. Bu, yordayıcıları herhangi bir anlamda "gereksiz" hale getirir ama gereksiz hale getirir.

Önemsiz belirleyicileri dışlamak için geçerli bir neden, ölçüt varyansını veya çoğunu açıklayan en küçük yordayıcı alt kümesini aramaktır. Eğer bulduysan teorini kontrol et.


[P] regresyon kriterlerinin yönlendiricileri ? Bunu tekrar ifade etmek isteyebilirsin.
Richard Hardy,

8

Ekonometride bu sağ ve sol olur. Örneğin, üç aylık mevsimsellik kuklalarını Q2, Q3 ve Q4 kullanıyorsanız, genellikle grup olarak önemli oldukları görülür, ancak bazıları bireysel olarak önemli değildir. Bu durumda genellikle hepsini saklarsınız.

yxzzxz

GÜNCELLEME: Başka bir yaygın örnek tahmin. Ekonometri, ekonomi bölümlerinde genellikle çıkarım perspektifinden öğretilir. Çıkarım perspektifinde p-değerleri ve önemi konusunda çok fazla dikkat vardır, çünkü neyin neye neden olduğunu anlamaya çalışıyorsunuz. Tahminde, bu konuya çok fazla önem verilmez, çünkü tek umursadığınız şey, modelin ilgi değişkenini ne kadar iyi tahmin edebileceğidir.

Bu, son zamanlarda ekonomiye yönelen makine öğrenme uygulamalarına, btw'ye benzer. İyi tahmin etmeyen tüm önemli değişkenleri olan bir modeliniz olabilir. ML'de genellikle "fazla uydurma" olarak adlandırılır. Açıkçası, bu modelin tahminlerde çok az kullanımı var.


1
Bu bazı noktalarda biraz abartılı görünüyor. Örneğin, benim için ekonomist olmayan bir kişi olarak bile tek başına ders kitaplarından tahminlerin ekonomistlere en az on yıl boyunca yaygın olarak öğretildiği açıktır. “Yakın zamanda” (kesin olarak anlama) bir artış olup olmadığı, içerdekilere bıraktığım daha ince bir nokta.
Nick Cox

@NickCox, müfredatta hiçbir tahminde bulunmadığını sanki doğru değildi.
Aksakal

7

İki farklı soru soruyorsun:

  1. İstatistiksel önem ne zaman önemlidir?
  2. İstatistiksel olarak anlamlı olmamasına rağmen bir regresyonda bir değişkeni ne zaman eklemeliyiz?

Düzenleme: orijinal yayın için bu doğruydu, ancak düzenlemelerden sonra artık geçerli olmayabilir.


S1 ile ilgili olarak, bunun çok geniş olmanın sınırında olduğunu düşünüyorum. Bazıları zaten verilen birçok olası cevap vardır. Bir başka örnek daha tahmin için model oluştururken verilebilir (açıklama için aşağıda belirtilen kaynağa bakın).


İkinci çeyrekte, istatistiksel anlamlılık, model oluşturma için sağlam bir kriter değildir. Rob J. Hyndman "Değişken seçimi için istatistiksel testler" adlı blog yazısında şöyle yazıyor :

İstatistiksel önem genellikle, bir değişkenin bir modele dahil edilip edilmemesi gerektiğini belirlemek için iyi bir temel değildir; <...> İstatistiksel testler, seçili değişkenleri değil, hipotezleri test etmek için tasarlanmıştır.

Ayrıca, tamamen tesadüfen istatistiksel olarak anlamlı olan bazı değişkenleri bulabileceğinizi de unutmayın (önem seviyesi seçiminiz tarafından kontrol edilme şansı). Bir değişkenin istatistiksel olarak anlamlı olduğu gözlemi, değişkenin modele ait olduğu sonucuna varmak için yeterli değildir.


4

Başka bir "evet" ekleyeceğim. Her zaman öğretildim - ve bunu iletmeye çalıştım - ortak değişkenlerdeki öncelikli husus istatistik değil alan bilgisidir. Biyoistatistikte, örneğin, bireyler üzerinde bazı sağlık sonuçları modelliyorsam, o zaman regresyonun ne söylediğine bakılmaksızın , benim için modele yaş, ırk ve cinsiyeti içermemesi için bazı iyi argümanlara ihtiyacınız olacak.

Aynı zamanda modelinizin amacına da bağlıdır. Amaç, sonucunuzla en çok hangi faktörlerin ilişkilendirildiğini daha iyi anlamaksa, eşitlikçi bir model oluşturmak bazı erdemlere sahiptir. Tahmini önemsiyorsanız ve anlayışı çok fazla bilmiyorsanız, değişkenleri ortadan kaldırmak daha küçük bir endişe olabilir.

(Son olarak, değişken seçimi için istatistik kullanmayı planlıyorsanız, Frank Harrell'ın konuyla ilgili söylediklerini kontrol edin - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ ve onun kitabı Regresyon Modelleme stratejileri . Eğer kullanılan kademeli olarak veya en iyi öngören seçtiğiniz için benzer istatistiksel tabanlı stratejiler ettik zaman Kısaca, ardından "? bu iyi birer tahmin" herhangi testler korkunç önyargılı olan - bir kurs onlar' iyi prediktörler ise, onları bu temelde seçtiniz ve bu prediktörler için p değerleri yanlış bir şekilde düşük.


1
R2

4

“İstatistiksel önemsizliğin” sonucunun gerçekten söylediği tek şey, seçilen Tip I hata düzeyinde, regresörün bağımlı değişken üzerindeki etkisinin pozitif mi yoksa negatif mi olduğunu bile söyleyemeyiz (bu yazıya bakınız).

Dolayısıyla, bu regresörü tutarsak, bağımlı değişken üzerindeki kendi etkisi hakkında herhangi bir tartışmanın onu destekleyecek istatistiksel kanıtları yoktur.

Ancak bu tahmin başarısızlığı, regresörün yapısal ilişkiye ait olmadığını söylemez, sadece belirli veri setiyle, katsayısının işaretini kesin olarak belirleyemediğimizi söyler.

Bu nedenle, prensipte, varlığını destekleyen teorik argümanlar varsa, regresör tutulmalıdır.

Buradaki diğer cevaplar, bu gibi regülatörlerin spesifikasyonda tutulduğu belirli modeller / durumlar, örneğin sabit etkiler paneli veri modelinden bahseden cevap olarak verilmiştir.


Neden "güven düzeyini" önem tartışmalarına sürüklüyoruz? Zavallı metinlerde ve "% 99 güven düzeyinde önemli" gibi yazılardaki canavarları sık sık okurum. Fikirler arasında kesinlikle bir ilişki var ama bu ifadelere ihtiyacın yok (ilkokul düzeyinde açıklandığı kadar kafa karıştırıyor).
Nick Cox

@Nick Cox Bir fikrin var. "Tip I error" olarak değiştirdim.
Alecos Papadopoulos

1

İstatistiksel olarak anlamlı olmasa bile, araştırmanın odağıysa, özel ilgi alanını içeren bir değişken ekleyebilirsiniz. Ayrıca, biyoistatistikte, klinik önem genellikle istatistiksel önemden farklıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.