Doğru bir bakım olmadan kullanılırsa doğrusal bir regresyon / sınıflandırıcı kesinlikle uygun olmayabilir.
İşte küçük bir örnek. İki vektör oluşturalım, ilki sadece rastgele bozuk para çeviriyor:5000
set.seed(154)
N <- 5000
y <- rbinom(N, 1, .5)
İkinci vektör , her biri 500 rastgele sınıftan birine rastgele atanan gözlemdir :5000500
N.classes <- 500
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))
Çevirmelerimiz y
ile rastgele sınıflarımız arasında hiçbir ilişki olmamalı rand.class
, tamamen bağımsız olarak belirlendi.
Yine de, rastgele regresyonu lojistik regresyon (doğrusal bir sınıflandırıcı) kullanarak rastgele sınıfla tahmin etmeye çalışırsak, kesinlikle bir ilişki olduğunu düşünür.
M <- glm(y ~ rand.class, family="binomial")
hist(coef(M), breaks=50)
Bu katsayıların her birinin gerçek değeri sıfırdır. Ama gördüğünüz gibi, oldukça yayılmış durumdayız. Bu doğrusal sınıflandırıcı kesinlikle fazlalıktır.
- 1515y == 1
y == 0
15
"fazla takma" resmi olarak tanımlanmış gibi görünmüyor. Neden?
Aşırı takma en iyi şekilde bazı karmaşıklık parametrelerine sahip bir model sınıfı bağlamında anlaşılabilir . Bu durumda, bir modelin karmaşıklığı azaltırken fazla takıldığı söylenebilir, örnek performansından daha iyi beklenen sonuç elde edilir.
Kavramın modelden bağımsız bir şekilde tam olarak tanımlanması çok zor olacaktır. Tek bir model sadece uygun, fazla veya az olması için onu karşılaştırmak için bir şeye ihtiyacınız var. Yukarıdaki örneğimde bu karşılaştırma doğruydu, ama genellikle gerçeği bilmiyorsunuz, dolayısıyla model!
Eğitim ve test seti performansı arasındaki mesafe ölçüsü böyle bir resmileştirmeye izin vermiyor mu?
Böyle bir kavram var, buna iyimserlik deniyor. Tarafından tanımlanır:
ω = EÖlçek- Etren
E
Yine de aşırı uyumun özünde pek bir şey yok, çünkü bir test setindeki performans, daha yüksek karmaşıklık modeli her ikisini de azaltsa bile, trenden biraz daha kötü olabilir .