Bir regresyon modeli belirlemek için veri tabanlı ölçütleri ne zaman kullanabilirsiniz?


20

Birçok regresyon modeli spesifikasyonunun (örneğin, OLS'de) bir veri kümesi için olasılıklar olarak kabul edildiğinde, bunun çoklu karşılaştırma sorunlarına neden olduğunu ve p-değerleri ve güven aralıklarının artık güvenilir olmadığını duydum. Bunun en uç örneklerinden biri aşamalı regresyon.

Modelin belirlenmesine yardımcı olması için verinin kendisini ne zaman kullanabilirim ve bu ne zaman geçerli bir yaklaşım değildir? Modeli oluşturmak için her zaman konuya dayalı bir teoriye ihtiyacınız var mı?

Yanıtlar:


9

Değişken seçim teknikleri, genel olarak (adım adım, geri, ileri, tüm alt kümeler, AIC, vb.), Popülasyonda bulunmayan örnek verilerdeki şans veya rastgele kalıplardan yararlanır. Bunun için teknik terim aşırı uyumludur ve özellikle küçük veri kümeleriyle sorunludur, ancak bunlara özel değildir. Değişkenleri en iyi uyuma göre seçen bir yordam kullanarak , bu belirli örnekte uygun gibi görünen tüm rastgele varyasyonlar, tahminlere ve standart hatalara katkıda bulunur. Bu, modelin hem öngörüsü hem de yorumu için bir sorundur .

Özellikle, r kare çok yüksektir ve parametre tahminleri önyargılıdır (0'dan çok uzaktır), parametreler için standart hatalar çok küçüktür (ve dolayısıyla parametreler etrafındaki p-değerleri ve aralıkları çok küçük / dardır).

Bu sorunlara karşı en iyi savunma hattı düşünceli modeller oluşturmak ve teori, mantık ve önceki bilgiye dayalı mantıklı tahmin edicileri dahil etmektir. Değişken seçim prosedürü gerekiyorsa, aşırı uyumu hesaba katacak parametreleri ve standart hataları ayarlayarak parametre tahminlerini (büzülme yöntemleri) cezalandıran bir yöntem seçmelisiniz. Bazı yaygın büzülme yöntemleri Ridge Regresyonu, En Az Açı Regresyonu veya kementtir. Ek olarak, bir eğitim veri kümesi ve bir test veri kümesi veya model ortalaması kullanarak çapraz doğrulama, aşırı uydurmanın etkilerini test etmek veya azaltmak için yararlı olabilir.

Harrell, bu sorunların ayrıntılı bir tartışması için harika bir kaynaktır. Harrell (2001). "Regresyon Modelleme Stratejileri."


Kabul, uzun zaman sonra! Teknik konuların bu ayrıntılı özeti için teşekkürler. Harrell'in kitabına bir göz atacağım.
İstatistikler

7

Geldiğim sosyal bilim bağlamında mesele, (a) tahmin veya (b) odaklanmış bir araştırma sorusunu test etmekle ilgilenip ilgilenmediğinizdir. Amaç tahmin ise veri odaklı yaklaşımlar uygundur. Amaç odaklanmış bir araştırma sorusunu incelemekse, hangi regresyon modelinin sorunuzu spesifik olarak test ettiğini düşünmek önemlidir.

Örneğin, göreviniz iş performansını tahmin etmek için bir dizi seçim testi seçmekse, amaç bir anlamda iş performansının tahminini en üst düzeye çıkarmak olarak görülebilir. Dolayısıyla, veri odaklı yaklaşımlar faydalı olacaktır.

Bunun aksine, kişilik değişkenlerinin ve yetenek değişkenlerinin performansı etkilemedeki göreceli rolünü anlamak istiyorsanız, belirli bir model karşılaştırma yaklaşımı daha uygun olabilir.

Tipik olarak odaklanmış araştırma soruları araştırılırken amaç, en uygun öngörüye sahip bir model geliştirmenin aksine, altında yatan nedensel süreçler hakkında bir şeyler aydınlatmaktır.

Kesitsel verilere dayalı süreçle ilgili modeller geliştirme sürecinde olduğumda şu konuda ihtiyatlı olurum: (a) teorik olarak sonuç değişkeninin sonuçları olarak düşünülebilecek öngörücüler dahil. Örneğin, bir kişinin iyi bir performansçı olduğuna olan inancı, iş performansının iyi bir yordayıcısıdır, ancak bunun en azından kısmen kendi performanslarını gözlemlemesinden kaynaklanması muhtemeldir. (b) hepsi aynı altta yatan fenomeni yansıtan çok sayıda belirteç dahil. Örneğin, 20 maddeyi içeren, yaşamdan memnuniyeti farklı şekillerde ölçüyor.

Bu nedenle, odaklanmış araştırma soruları, alana özgü bilgiye çok daha fazla güvenmektedir. Bu muhtemelen veri odaklı yaklaşımların sosyal bilimlerde neden daha az kullanıldığını açıklamanın bir yoludur.


4

Regresyonda değişken seçimi ayarlamak için Bonferoni veya benzeri düzeltmeler yapmanın mümkün olduğunu düşünmüyorum, çünkü model seçiminde yer alan tüm testler ve adımlar bağımsız değildir.

Bir yaklaşım, modeli bir veri kümesi kullanarak formüle etmek ve farklı bir veri kümesi üzerinde sonuç çıkarmaktır. Bu, bir eğitim setimiz ve bir test setimiz olduğu her zaman öngörmede yapılır. Diğer alanlarda çok yaygın değildir, çünkü veriler o kadar değerlidir ki, her bir gözlemi model seçimi ve çıkarsama için kullanmak istiyoruz. Bununla birlikte, sorunuzda belirttiğiniz gibi, olumsuz, çıkarımın aslında yanıltıcı olmasıdır.

İyi gelişmiş bir teori olmadığı için teori temelli bir yaklaşımın imkansız olduğu birçok durum vardır. Aslında, bunun teorinin bir model önerdiği durumlardan çok daha yaygın olduğunu düşünüyorum.


4

Richard Berk'in bu tür veri gözetleme ve istatistiksel çıkarımın sorunlarını simülasyon yoluyla gösterdiği yakın tarihli bir makalesi var. Rob'un önerdiği gibi, çoklu hipotez testlerini düzeltmekten daha sorunludur.

Model Seçiminden Sonra İstatistiksel Çıkarım : Richard Berk, Lawrence Brown, Linda Zhao Kantitatif Kriminoloji Dergisi, Vol. 26, No. 2. (1 Haziran 2010), s. 217-236.

PDF sürümü burada


(+1) Bağlantı için teşekkürler! Bu ilgili soru ile ilgilenebilirsiniz, stats.stackexchange.com/questions/3200/… . Katkıda bulunmaktan çekinmeyin.
chl

@chl, bu soru için zaten mükemmel olan cevaplara bir şey ekleyebileceğimi sanmıyorum. Bence Brendan'ın yanıtı çok dokunaklı, çünkü asıl posterin yalnızca sorunun bağlamına dayalı tahminle değil nedensel çıkarımla gerçekten ilgilendiğinden şüpheleniyorum.
Andy W

Evet, cevabını düşünüyordum. Veri tarama konusunda bir refleksleme başlattım (tam olarak model / değişken seçim sorunları veya nedensel çıkarım hakkında değil), ancak şimdiye kadar birkaç cevap aldım. Kendi fikirlerinizi eklemek isterseniz, ilginç olurdu: stats.stackexchange.com/questions/3252/…
chl

2

Sorunuzu doğru anlarsam, probleminizin cevabı p-değerlerini hipotez sayısına göre düzeltmektir.

Örneğin, hipotezi (= farklı modelleriniz) p değerlerine göre sıraladığınız ve ap samller değerine sahip olanları (istenen p değeri / dizin) 'den daha fazla reddettiğiniz Holm-Bonferoni düzeltmeleri.

Konu hakkında daha fazla bilgiyi Wikipedia'da bulabilirsiniz


1
Ayrı bir soruya verilen bu cevabı okumak ve p değerlerini bu şekilde ayarlamanın neden en iyi çözüm olmadığını görmek isteyebilirsiniz, stats.stackexchange.com/questions/3200/…
Andy W
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.