Metin sınıflandırma sorunları oldukça yüksek boyutlu olma eğilimindedir (birçok özellik) ve yüksek boyutlu sorunların doğrusal olarak ayrılabilir olma olasılığı yüksektir (d boyutlu bir alanda herhangi bir d + 1 noktasını doğrusal bir sınıflandırıcıyla ayırabildiğiniz için, noktaların nasıl olduğuna bakılmaksızın olarak etiketlenir). Bu nedenle, ister sırt regresyonu ister doğrusal çekirdekli SVM olsun, lineer sınıflandırıcılar muhtemelen başarılı olacaktır. Her iki durumda da, SVM için ridge parametresi veya C (tdc +1'den bahsedildiği gibi), sınıflandırıcının karmaşıklığını kontrol eder ve her sınıfın desenlerini büyük kenar boşluklarıyla ayırarak aşırı uyumdan kaçınmaya yardımcı olur (yani, karar yüzeyi iki nokta koleksiyonu arasındaki boşluğun ortasında). Bununla birlikte, iyi performans elde etmek için sırt / düzenlenme parametrelerinin uygun şekilde ayarlanması gerekir (ucuz olduğu için bir kerelik bırakma doğrulaması kullanıyorum).
Bununla birlikte, sırt regresyonunun iyi çalışmasının nedeni, doğrusal olmayan yöntemlerin çok güçlü olması ve aşırı uydurmadan kaçınmanın zor olmasıdır. En iyi doğrusal modelden daha iyi genelleme performansı sağlayan doğrusal olmayan bir sınıflandırıcı olabilir, ancak sahip olduğumuz eğitim verilerinin sonlu örneğini kullanarak bu parametreleri tahmin etmek çok zordur. Pratikte, model ne kadar basitse, parametreleri tahmin etmede o kadar az sorunumuz vardır, bu yüzden aşırı uyum eğilimi daha azdır, bu yüzden pratikte daha iyi sonuçlar alırız.
Diğer bir özellik ise özellik seçimi, sırt regresyonu, ağırlıkları küçük tutmak için ağırlıkları düzenleyerek aşırı uymayı önler ve sadece tek bir regresyon parametresinin değerini seçmek zorunda olduğunuz için model seçimi basittir. Optimum özellik kümesini seçerek aşırı uyumdan kaçınmaya çalışırsanız, her özellik için bir çeşit özgürlük (bir çeşit) olduğu için model seçimi zorlaşır, bu da özellik seçim ölçütüne aşırı uymayı mümkün kılar ve siz bu özel veri örneği için en uygun olan, ancak genelleme performansının düşük olduğu bir dizi özellik ile sonuçlanır. Bu nedenle özellik seçiminin gerçekleştirilmemesi ve düzenli kullanımın kullanılması genellikle daha iyi bir tahmin performansı sağlayabilir.
Sık sık performansta bir iyileşme sağlayan sırt regresyon modelleri ile Bagging'i (eğitim setinden önyüklenmiş numuneler üzerinde eğitilmiş bir model komitesi oluşturuyorum) kullanıyorum ve tüm modeller doğrusal olduğu için bunları tek bir doğrusal model oluşturmak için birleştirebilirsiniz , dolayısıyla operasyonda herhangi bir performans isabeti yoktur.