Psikoloji ve diğer alanlarda genellikle aşağıdakileri içeren bir tür kademeli regresyon kullanılır:
- Kalan yordayıcılara bakın (ilk başta modelde hiçbiri yoktur) ve en büyük r-kare değişikliğine neden olan yordayıcıyı tanımlayın;
- R-kare değişikliğinin p-değeri alfadan (tipik olarak .05) düşükse, o zaman kestiriciyi ekleyin ve 1. adıma geri dönün, aksi takdirde durun.
Örneğin, bu yordamı bkz SPSS .
Prosedür çok çeşitli nedenlerle rutin olarak eleştirilir ( Stata web sitesinde referanslarla bu tartışmaya bakın ).
Özellikle, Stata web sitesi Frank Harrell'in birkaç yorumunu özetlemektedir. İddia ile ilgileniyorum:
[kademeli regresyon], yüksek derecede kötü bir şekilde önyargılı olan R kare değerlerini verir.
Özellikle, mevcut araştırmamın bir kısmı nüfusun r-karesini tahmin etmeye odaklanıyor . Popülasyon r-karesi ile popülasyonda popülasyon verileri üreten denklem tarafından açıklanan varyans yüzdesini ifade ediyorum. İncelediğim mevcut literatürün çoğu aşamalı regresyon prosedürlerini kullanmıştır ve sağlanan tahminlerin taraflı olup olmadığını ve eğer öyleyse ne kadar olduğunu bilmek istiyorum. Özellikle, tipik bir çalışmada 30 öngörücü, n = 200, .05'lik alfa girişi ve .50 civarında r-kare tahminleri olacaktır.
Ne biliyorum:
- Asimptotik olarak, sıfır olmayan bir katsayısı olan herhangi bir öngörücü istatistiksel olarak anlamlı bir öngörücü olacaktır ve r-kare ayarlanmış r-kareye eşit olacaktır. Bu nedenle, asemptolojik olarak aşamalı regresyon, gerçek regresyon denklemini ve gerçek popülasyon r-karesini tahmin etmelidir.
- Daha küçük numune boyutlarında, bazı öngörücülerin olası ihmali, tüm öngörücülerin modele dahil edilmesinden daha küçük bir r-kare ile sonuçlanacaktır. Fakat aynı zamanda, verileri örneklemek için r-karesinin olağan yanlılığı r-karesini artıracaktır. Benim saf düşüncem, potansiyel olarak, bu iki karşıt gücün belirli koşullar altında tarafsız bir r-kare ile sonuçlanabileceğidir. Ve daha genel olarak, yanlılığın yönü, verilerin çeşitli özelliklerine ve alfa dahil etme kriterlerine bağlı olacaktır.
- Daha katı bir alfa dahil etme kriteri (örn., .01, .001, vb.) Ayarlamak, beklenen herhangi bir kareyi düşürmelidir, çünkü verilerin herhangi bir nesline herhangi bir öngörücüyü dahil etme olasılığı daha az olacaktır.
- Genel olarak, r-kare, r-kare popülasyonunun yukarı yönlü bir tahminidir ve bu önyargının derecesi daha fazla yordayıcı ve daha küçük numune boyutları ile artar.
Soru
Sonunda sorum:
- Kademeli regresyondan elde edilen r-kare, r-kare popülasyonunun ne kadar önyargılı bir tahminiyle sonuçlanır?
- Bu önyargı, örneklem büyüklüğü, öngörücü sayısı, alfa dahil etme kriteri veya verilerin özellikleri ile ne ölçüde ilgilidir?
- Bu konuda referans var mı?