Bu yaklaşımın yanlış olduğunu düşünüyorum, ancak nedenini açıklarsam belki daha yararlı olacaktır. Çok sayıda değişken hakkında bazı bilgiler verilen en iyi modeli bilmek istemek oldukça anlaşılır. Dahası, insanların kendilerini düzenli buldukları bir durumdur. Ek olarak, regresyonla ilgili birçok ders kitabı (ve ders), kademeli seçim yöntemlerini kapsar, bu da meşru olmaları gerektiği anlamına gelir. Ancak ne yazık ki, onlar değildir ve bu durum ve hedefin eşleştirilmesi başarıyla gezinmek için oldukça zordur. Aşağıdaki otomatik adım adım model seçim prosedürleriyle ilgili sorunların bir listesidir (Frank Harrell'e atfedilir ve buradan kopyalanır ):
- Kötü bir şekilde yüksek olması için önyargılı R kare değerleri verir.
- Çıktıdaki her değişkenin yanında alıntılanan F ve ki-kare testleri talep edilen dağılıma sahip değildir.
- Bu yöntem, efektler ve yanlış dar tahmin edilen değerler için güven aralıkları verir; bkz. Altman ve Andersen (1989).
- Uygun anlamı olmayan p değerleri verir ve bunlar için doğru düzeltme zor bir problemdir.
- Büzülmeye ihtiyaç duyan taraflı regresyon katsayıları verir (kalan değişkenler için katsayılar çok büyük; bakınız Tibshirani [1996]).
- Eşitliğin varlığında ciddi problemleri vardır.
- Önceden belirlenmiş hipotezleri test etmek için kullanılması öngörülen yöntemlere (örneğin, iç içe modeller için F testleri) dayanmaktadır.
- Örneklem büyüklüğünün arttırılması pek yardımcı olmuyor; bkz. Derksen ve Keselman (1992).
- Sorun hakkında düşünmememize izin veriyor.
- Çok fazla kağıt kullanıyor.
Sorun şu ki, bu prosedürlerde bu kadar kötü olan ne / bu problemler neden ortaya çıkıyor? Temel bir regresyon kursu alan çoğu kişi , ortalamaya regresyon kavramını bilir , bu yüzden bu sorunları açıklamak için kullandığım şey budur. (Her ne kadar bu ilk başta konu dışı görünse de, benimle kal, bununla alakalı olduğuna söz veriyorum.)
Denemelerin ilk gününde bir lise pisti koçunu hayal edin. Otuz çocuk geldi. Bu çocuklar, ne koçun ne de başka birinin doğrudan erişime sahip olmadığı bazı içsel yetenek seviyelerine sahiptir. Sonuç olarak, koç yapabileceği tek şeyi yapar, ki bu da hepsinin 100 m'lik bir çizgi çizmesini sağlar. Zamanlar muhtemelen içsel yeteneklerinin bir ölçüsüdür ve bu şekilde kabul edilir. Bununla birlikte, olasılıklıdırlar; Birisinin ne kadar iyi yaptığının bir kısmı gerçek yeteneklerine dayanmakta ve bir kısmı rasgeledir. Gerçek durumun şu olduğunu hayal edin:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
İlk yarışın sonuçları, koçun çocuklara yaptığı yorumlarla birlikte aşağıdaki şekilde gösterilmektedir.
Çocukları yarış sürelerine göre bölümlendirmenin iç kabiliyetleri üzerinde çakışmalar bıraktığını unutmayın - bu gerçek çok önemlidir. Bazılarını övdükten ve başkalarına bağırdıktan sonra (antrenörler yapma eğiliminde olduğu gibi), tekrar koşmalarını sağladı. Koçun tepkileriyle ikinci yarışın sonuçları (yukarıdaki aynı modelden simüle edilmiştir):
Gerçek yeteneklerinin aynı olduğuna dikkat edin, ancak zamanlar ilk yarışa göre zıpladı. Antrenörün bakış açısına göre, bağırdıklarını iyileştirme eğilimindeydiler ve övdüklerini daha kötü hale getirme eğilimindeydiler (bu somut örneği wiki sayfasında listelenen Kahneman alıntılarından uyarladım), aslında ortalamanın gerilemesi basit bir matematiksel olsa da Koçun, kısmen rastgele yapılan bir ölçüme dayanarak takım için sporcu seçmesi sonucu.
Şimdi, bunun otomatikleştirilmiş (örneğin, kademeli) model seçim teknikleri ile ne ilgisi var? Aynı veri setine dayalı bir model geliştirme ve onaylama bazen veri tarama denir. Değişkenler arasında altta yatan bir ilişki olmasına rağmen, daha güçlü ilişkilerin daha güçlü puanlar vermesi beklenir (örneğin, daha yüksek t-istatistikleri), bunlar rastgele değişkenlerdir ve gerçekleşen değerler hata içerir. Bu nedenle, daha yüksek (veya daha düşük) fark edilen değerlere dayanan değişkenleri seçtiğinizde, temel değerlerinden, yanlışlığından veya her ikisinden de olabilirler. Bu şekilde ilerlerseniz, ikinci yarıştan sonra koç gibi şaşırırsınız. Bu, yüksek t-istatistiklerine veya düşük karşılıklı ilişkilere dayanarak değişkenleri seçmeniz durumunda geçerlidir. Doğru, AIC'yi kullanmak, p-değerlerini kullanmaktan daha iyidir, çünkü modeli karmaşıklık için cezalandırır, ancak AIC'nin kendisi rastgele bir değişkendir (birkaç kez bir çalışma yaparsanız ve aynı modele uyarsanız, AIC tıpkı aynı şekilde zıplayacaktır. diğer her Şey). Ne yazık ki,
Umarım bu yardımcı olur.