İstatistiklerde, doğrusal regresyonlar yapıyoruz, bunların başlangıcı. Genel olarak, ne kadar yüksekse o kadar iyi olduğunu biliyoruz , ancak yüksek bir işe yaramaz bir model olacağı bir senaryo var mı?
İstatistiklerde, doğrusal regresyonlar yapıyoruz, bunların başlangıcı. Genel olarak, ne kadar yüksekse o kadar iyi olduğunu biliyoruz , ancak yüksek bir işe yaramaz bir model olacağı bir senaryo var mı?
Yanıtlar:
Evet. İstatistiksel bir modeli değerlendirme kriterleri, eldeki spesifik probleme bağlıdır ve mekanik bir fonksiyonu veya istatistiksel önemi yoktur (önemli olsalar da). İlgili soru, "Model verileri anlamanıza yardımcı oluyor mu?"
Yüksek elde etmenin en basit yolu , sol ayakkabıların üzerine sağa gerileyen sağ ayakkabıların eşdeğeri yapmaktır. Bana sağ ayakkabının bedenini söyle, ben de sol ayakkabının bedenini büyük bir doğrulukla tahmin edebilirim. Büyük ! Ne harika bir istatistiksel model! Bunun dışında aptalca kaka demek. Aynı değişkeni bir regresyonun sol ve sağ tarafına koyarak büyük elde edebilirsiniz , ancak bu büyük regresyonu neredeyse kesinlikle işe yaramaz olurdu.
Sağ taraftaki bir değişkeni dahil etmenin kavramsal olarak yapılacak yanlış şey olduğu başka durumlar da vardır ( yükselse bile ). Diyelim ki bazı azınlık gruplarının ayrımcılığa uğradığını ve iş bulma ihtimalinin düşük olduğunu tahmin etmeye çalışıyorsunuz. Sen olmamalıdır ayrımcılık meydana geldiği kanal olabilir azınlıkların iş uygulamalarına yanıt verdiklerini az olası olma, çünkü şirket iş başvurusu sonrasında bir çağrı geri verdi olmadığını için kontrol! Yanlış kontrol eklemek, regresyonunuzu anlamsız hale getirebilir.
Daha fazla regülatör ekleyerek her zaman değerini artırabilirsiniz ! Ben ne olursa olsun elde edene kadar sağ tarafına regressors eklemeye devam edebilir Ben gibi. Emek kazancını tahmin etmek için eğitim kontrolleri, yaş kontrolleri, çeyrek sabit etkiler, posta kodu sabit efektler, meslek sabit efektler, firma sabit efektler, aile sabit efektler, evcil hayvan sabit efektler, saç uzunluğu vb. mantıklı değil ama yükselmeye devam ediyor. Her şeyi bir regresör olarak eklemek, "mutfak lavabosu" regresyonu olarak bilinir. Yüksek elde edebilirsiniz ancak verilere büyük ölçüde uyuyor olabilir: modeliniz modeli tahmin etmek için kullanılan örneği mükemmel şekilde tahmin eder (yüksek değerine sahiptir)) ancak tahmin edilen model korkunç yeni veriler üzerinde başarısız oluyor.
Polinom eğrisi uydurmada aynı fikir ortaya çıkabilir. Bana rastgele veriler ver ve muhtemelen 200 derece polinom yerleştirerek büyük alabilirim . Yeni verilere rağmen, tahmin edilen polinom fazla uydurma nedeniyle işe yaramadı. Yine, tahmini model için yüksek fakat tahmini model faydasızdır.
Biz ayarlanabilir neden noktası (3-4) olan daha regressors eklemek için bir ceza sağlar, ama ayarlanabilir , tipik olarak hala veri aşırı uyuma göre Juiced edilebilir. Aynı zamanda negatif gidebileceği olağanüstü saçma bir özelliğe sahiptir.
Ayrıca, düşük değerinin iyi olduğu (örneğin varlık fiyatlandırma modellerinde beta tahmini) örneklerini verebilirim , ancak bu yayın zaten oldukça uzadı. Özetlemek gerekirse, genel soru "sorun ve istatistikler hakkında ne bildiğimi bilmek, bu model verileri anlamama / açıklamama yardımcı oluyor mu?" Gibi bir şey olmalıdır. , bu soruyu cevaplamanıza yardımcı olacak bir araç olabilir, ancak daha yüksek olan modeller her zaman daha iyi olduğu kadar kolay değildir .
"Daha yüksek daha iyi" R-kare için kötü bir kuraldır.
Don Morrison birkaç yıl önce, sıfıra yaklaşan R-karelerinin sektöre bağlı olarak hem uygulanabilir hem de karlı olabileceğini gösteren birkaç ünlü makale yazdı. Örneğin, doğrudan pazarlama tahmininde 10 milyon haneye posta gönderen bir dergi aboneliğine yanıt veren, düşük tek basamaklı R kareleri, posta yanıtının en yüksek 2 veya 3 decilesine dayanıyorsa karlı kampanyalar üretebilir (yatırım getirisi temelinde) olasılık.
Başka bir sosyolog (adı benden kaçan), R-karelerini anket araştırmasına göre,% 10-20 aralığında R-kareleri norm iken, iş verileri için% 40-60 aralığında R-kareleri norm olduğunu belirtti. beklenecekti. % 80-90 veya daha büyük R-karelerinin muhtemelen temel regresyon varsayımlarını ihlal ettiklerini söylemeye devam ettiler. Bununla birlikte, bu yazarın pazarlama karması, zaman serisi verileri ya da tam bir "nedensel" özellikler (örneğin, fiyat, promosyon, yer ve ürün gibi klasik 4 "Ps" içeren) içeren deneyimleri yoktu. % 100'e yaklaşan kareler.
Bununla birlikte, bu gibi mantıklı, kıyaslama kurallarının bile, öngörücü bir modelle ilgili ilk sorusu her zaman “R-kare nedir” olacak teknik olarak okuma yazma bilmeyenlerle uğraşırken çok faydalı olmadığını söyledi.
Diğer cevaplar, R-kare değerlerinin sabit / sahte / yanıltıcı / vb. Gibi birçok yönden harika teorik açıklamaları sunar. İşte, her zaman bana kodlanmış ve şu şekilde kodlanan uygulamalı bir gösteri r
:
y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))
Bu, R kare değerlerini> 0,90 sağlayabilir. Yeterince regresör ekleyin ve rastgele değerler bile rastgele değerleri "tahmin edebilir".
set.seed(1)
ve set.seed(2)
.