Doğrusal Sınıflandırıcılarla Aşırı Uyum


10

Bugün profesörümüz sınıfta "lineer sınıflandırıcılar ile aşırı uyumun mümkün olmadığını" belirtti. Yanlış olduğunu düşünüyorum, çünkü lineer sınıflandırıcılar bile eğitim setindeki aykırı değerlere duyarlı olabilir - örneğin sert bir marj alın Destek Vektör Makinesi: Tek bir gürültülü veri noktası, veri kümelerini ayırmak için hangi hiper düzlemin kullanılacağını değiştirebilir. Yoksa yanılıyor muyum? Açıkçası, doğrusallık muhtemelen daha düşük model karmaşıklığı nedeniyle aşırı sığmayı önleyecektir, yine de aşırı sığmanın neden imkansız olması gerektiğini görmüyorum. Ek bir nokta, bu sorunu düşünmeye çalıştığımda "aşırı uydurmanın" resmi olarak tanımlanmadığını fark ettim. Neden? Eğitim ve test seti performansı arasındaki mesafe ölçüsü böyle bir resmileştirmeye izin vermiyor mu? Teşekkürler


4
Neden doğrusal sınıflandırıcı diyorsun? Çoğu doğrusal model sınıflandırma için değil tahmin içindir. Ve haklısın - doğrusal modeller aşırı uyuma çok eğilimli olabilir. Makine öğrenimi yöntemleri kadar değil, ama yine de aşırı sığdırma bir sorun olabilir.
Frank Harrell

5
Doğrusal sınıflandırıcıyı değiştirmek çok kolaydır. Sadece modeli bazı veri kümesine (gürültülü, gerçek dünya) sığdırın ve herhangi bir düzenleme kullanmayın.
Vladislavs Dovgalecs

2
Sınıflandırmaya dikkat edin - genellikle manzaralarınızı bu kadar düşük ayarlamanıza gerek yoktur.
Frank Harrell

2
@FrankHarrell ... ve neden?
Pugl

1
Evet, başlangıçta ikili ise. başlangıçta sürekli olsaydı , sınıflandırma daha da problemlidir. YYY
Frank Harrell

Yanıtlar:


12

Doğru bir bakım olmadan kullanılırsa doğrusal bir regresyon / sınıflandırıcı kesinlikle uygun olmayabilir.

İşte küçük bir örnek. İki vektör oluşturalım, ilki sadece rastgele bozuk para çeviriyor:5000

set.seed(154)
N <- 5000
y <- rbinom(N, 1, .5)

İkinci vektör , her biri 500 rastgele sınıftan birine rastgele atanan gözlemdir :5000500

N.classes <- 500
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))

Çevirmelerimiz yile rastgele sınıflarımız arasında hiçbir ilişki olmamalı rand.class, tamamen bağımsız olarak belirlendi.

Yine de, rastgele regresyonu lojistik regresyon (doğrusal bir sınıflandırıcı) kullanarak rastgele sınıfla tahmin etmeye çalışırsak, kesinlikle bir ilişki olduğunu düşünür.

M <- glm(y ~ rand.class, family="binomial")
hist(coef(M), breaks=50)

resim açıklamasını buraya girin

Bu katsayıların her birinin gerçek değeri sıfırdır. Ama gördüğünüz gibi, oldukça yayılmış durumdayız. Bu doğrusal sınıflandırıcı kesinlikle fazlalıktır.

-1515y == 1y == 015

"fazla takma" resmi olarak tanımlanmış gibi görünmüyor. Neden?

Aşırı takma en iyi şekilde bazı karmaşıklık parametrelerine sahip bir model sınıfı bağlamında anlaşılabilir . Bu durumda, bir modelin karmaşıklığı azaltırken fazla takıldığı söylenebilir, örnek performansından daha iyi beklenen sonuç elde edilir.

Kavramın modelden bağımsız bir şekilde tam olarak tanımlanması çok zor olacaktır. Tek bir model sadece uygun, fazla veya az olması için onu karşılaştırmak için bir şeye ihtiyacınız var. Yukarıdaki örneğimde bu karşılaştırma doğruydu, ama genellikle gerçeği bilmiyorsunuz, dolayısıyla model!

Eğitim ve test seti performansı arasındaki mesafe ölçüsü böyle bir resmileştirmeye izin vermiyor mu?

Böyle bir kavram var, buna iyimserlik deniyor. Tarafından tanımlanır:

ω=EÖlçek-Etren

E

Yine de aşırı uyumun özünde pek bir şey yok, çünkü bir test setindeki performans, daha yüksek karmaşıklık modeli her ikisini de azaltsa bile, trenden biraz daha kötü olabilir .


vay, ne güzel bir cevap, çok teşekkürler. bir soru: lineer SVM'ler, örneğin logdan daha fazla sığmaya daha az eğilimlidir. Bahsettiğiniz regresyon (doğrusal karar sınırı için optimizasyonun farklı yolları nedeniyle)?
Pugl

1
İtiraf etmeliyim ki, SVM'lerde uzman değilim ve kullanımlarında pratik deneyime sahip değilim. Gerçekten bir cevap vermek istemiyorum ve çok yanlış olma riski. Eğer tam olarak formüle edebilirseniz, muhtemelen kendi sorusuna değecektir.
Matthew Drury

SVM'ler düzenli hale getirilmiştir ve bu nedenle fazladan geçirmeye daha az eğilimlidir. Sadece en aza indirdiğiniz işleve bakmanız gerektiğini anlamak için: ağırlıkların l1 normunu veya l2 normunu içerir, optimizasyonda daraltır ve bu nedenle "basit" modelleri "karmaşık" modellere tercih eder. Bunu kontrol eden parametre C hiper parametresidir. Sınırlayıcı durumda (C = sonsuzluk), SVM eğitim setine "mükemmel" uyum sağlar ve bu nedenle muhtemelen fazladır (muhtemelen söylediğimden emin olmak için bir test setine ihtiyacınız var!). Ayrıca tırnak bir sürü kullandığınızı, ancak bu düzgün tanımlanabilir unutmayın.
skd

2

70 ilişkide, büyük veri kümelerinde örüntü tanıma algoritmaları ile yapılan deneyler, bazı durumlarda fazladan özelliklerin eklenmesinin test seti hata oranlarını artırdığını ortaya koymuştur. Ekstra bir özellik eklemenin her zaman sınıflandırıcı performansını artırmasını beklediği veya eklenen özelliğin 'beyaz gürültü' olması durumunda eklenmesi, sınıflandırıcı performansını hiç etkilemediğinden, bu durum sezgiseldir. Bir sınıflandırıcıya daha fazla ekstra özellik eklemenin etkisi, sonuçta test seti performansında bir azalmaya yol açan zirve fenomeni olarak bilinir [1].

Özellik zirvesi, öğrenme sırasında aşırı genellemeden kaynaklanır. Ekstra özellikler, sınıflandırıcının verileri değiştirmeye başladığı çok fazla ek parametrenin dahil edilmesine neden olur. Böylece zirve noktası geçilir.

Genel olarak, sınıflandırıcıları eğitirken bir önyargı-varyans ödemesi ile karşı karşıyayız. Ne kadar çok özellik değişkeni kullanırsak, sınıflandırıcı mekanizmamızın ( bilinmeyen ) altında yatan sınıflandırma mekanizması muhtemelen o kadar iyi modellenir. Dolayısıyla, takılan model ile 'gerçek' arasındaki sistematik sapma azalacaktır, yani daha küçük bir yanlılık ortaya çıkacaktır. Öte yandan, sınıflandırıcının özellik alanının arttırılması zorunlu olarak parametrelerin (eklenen özelliklere uyanlar) eklenmesini gerektirir. Böylece, takılan sınıflandırıcının varyansı da artar.

Bu nedenle, zirve noktasından çıkan sınıflandırıcı, yüksek boyutlu bir sınıflandırma probleminin stokastik bir şekilde gerçekleştirilmesinden ibarettir ve yeni bir uyum son derece farklı bir parametre vektörüne yol açacaktır. Bu gerçek, artan varyansı yansıtır.

[1. GV Trunk, "Boyutsallık Sorunu: Basit Bir Örnek", IEEE Desen Analizi ve Makine Zekası İşlemleri, cilt. PAMI-1, hayır. 3, sayfa 306-307, Temmuz 1979]


1

Bence aşırı uydurmanın genelleme yeteneğinden ziyade model karmaşıklığına atıfta bulunduğunu düşünüyorum. Karmaşıklığı küçük olduğundan ve daha iyi bir performans sağlayan daha basit bir sınıflandırıcı olmadığından, "doğrusal bir sınıflandırıcı fazla yerleştirilemez" ifadesini anlıyorum.

Örnek, doğrusal sınıflandırıcıların (ve karmaşık olanların) genelleme kabiliyeti ile bağlantılıdır. Bu ikinci kısımda bile, lineer sınıflandırıcılar genellikle karmaşık olanlardan daha az sapma sağlar, bu nedenle bu kavramın ardından lineer sınıflandırıcılar için "fazla takma" değeri de daha küçüktür (ampirik riski çok büyük olsa da). atb


0

@ Match-maker-ee'nin dediği gibi, Lineer sınıflandırıcılar giriş özelliklerine bağlı olarak fazla sığabilir.

Aşağıdaki f modeli , a , b ve c parametrelerinde lineerdir , ancak x özellik uzayında ikinci dereceden bir eğriye yerleştirilebilir :

f(x)=birx2+bx+c

SVM'ler, örneğin temel bir artırılmış özellik alanında doğrusal bir model olmasına rağmen, örneğin çekirdek hilesi kullandıklarında aşırı uyum sağlayabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.