Sırt regresyon sınıflandırıcısı metin sınıflandırması için neden oldukça iyi çalışıyor?

Metin sınıflandırması için bir deney sırasında, SVM, NB, kNN, vb. parametrelerle ilgili bazı basit ayarlamalar dışında, bu belirli metin sınıflandırma görevindeki her bir sınıflandırıcıyı optimize etme konusunda.

Bu sonuç Dikran Marsupial'dan da bahsedildi .

İstatistik arka planından gelmiyorum, çevrimiçi bazı materyalleri okuduktan sonra, bunun ana nedenlerini hala anlayamıyorum. Herkes böyle bir sonuç hakkında fikir verebilir mi?

— Pul
kaynak

Yanıtlar:

Metin sınıflandırma sorunları oldukça yüksek boyutlu olma eğilimindedir (birçok özellik) ve yüksek boyutlu sorunların doğrusal olarak ayrılabilir olma olasılığı yüksektir (d boyutlu bir alanda herhangi bir d + 1 noktasını doğrusal bir sınıflandırıcıyla ayırabildiğiniz için, noktaların nasıl olduğuna bakılmaksızın olarak etiketlenir). Bu nedenle, ister sırt regresyonu ister doğrusal çekirdekli SVM olsun, lineer sınıflandırıcılar muhtemelen başarılı olacaktır. Her iki durumda da, SVM için ridge parametresi veya C (tdc +1'den bahsedildiği gibi), sınıflandırıcının karmaşıklığını kontrol eder ve her sınıfın desenlerini büyük kenar boşluklarıyla ayırarak aşırı uyumdan kaçınmaya yardımcı olur (yani, karar yüzeyi iki nokta koleksiyonu arasındaki boşluğun ortasında). Bununla birlikte, iyi performans elde etmek için sırt / düzenlenme parametrelerinin uygun şekilde ayarlanması gerekir (ucuz olduğu için bir kerelik bırakma doğrulaması kullanıyorum).

Bununla birlikte, sırt regresyonunun iyi çalışmasının nedeni, doğrusal olmayan yöntemlerin çok güçlü olması ve aşırı uydurmadan kaçınmanın zor olmasıdır. En iyi doğrusal modelden daha iyi genelleme performansı sağlayan doğrusal olmayan bir sınıflandırıcı olabilir, ancak sahip olduğumuz eğitim verilerinin sonlu örneğini kullanarak bu parametreleri tahmin etmek çok zordur. Pratikte, model ne kadar basitse, parametreleri tahmin etmede o kadar az sorunumuz vardır, bu yüzden aşırı uyum eğilimi daha azdır, bu yüzden pratikte daha iyi sonuçlar alırız.

Diğer bir özellik ise özellik seçimi, sırt regresyonu, ağırlıkları küçük tutmak için ağırlıkları düzenleyerek aşırı uymayı önler ve sadece tek bir regresyon parametresinin değerini seçmek zorunda olduğunuz için model seçimi basittir. Optimum özellik kümesini seçerek aşırı uyumdan kaçınmaya çalışırsanız, her özellik için bir çeşit özgürlük (bir çeşit) olduğu için model seçimi zorlaşır, bu da özellik seçim ölçütüne aşırı uymayı mümkün kılar ve siz bu özel veri örneği için en uygun olan, ancak genelleme performansının düşük olduğu bir dizi özellik ile sonuçlanır. Bu nedenle özellik seçiminin gerçekleştirilmemesi ve düzenli kullanımın kullanılması genellikle daha iyi bir tahmin performansı sağlayabilir.

Sık sık performansta bir iyileşme sağlayan sırt regresyon modelleri ile Bagging'i (eğitim setinden önyüklenmiş numuneler üzerinde eğitilmiş bir model komitesi oluşturuyorum) kullanıyorum ve tüm modeller doğrusal olduğu için bunları tek bir doğrusal model oluşturmak için birleştirebilirsiniz , dolayısıyla operasyonda herhangi bir performans isabeti yoktur.

— Dikran Keseli
kaynak

d - 1

$d-1$

d

$d$

Normalde noktaların "genel pozisyonda" olduğu varsayılır, böylece (örneğin) düz bir çizgi üzerinde uzanmazlar, bu durumda 2-boyutlu bir alanda herhangi bir 3 noktayı ayırabilirsiniz. Tüm noktalar düz bir çizgide uzanırsa, gerçekten 2-boyutlu bir alana gömülü 1-b altuzayda yaşarlar.

— Dikran Marsupial

Açık wikipedia ifadesi değilim rağmen emin niçin bu doğru olmalı "yöntemi ortalamaları birkaç belirleyicileri beri, bu modellerin doğrusal geliştirmek için kullanışlı değildir" var?

— tdc

Bunun neden doğru olması gerektiğini de anlamıyorum. Torbalı bir doğrusal modelin tam olarak tek bir doğrusal modelle temsil edilebileceğinden şüpheleniyorum, ancak mesele, modelin değil, tek modelin parametrelerinin tahminidir. Torbalamanın genellemeyi geliştirdiğini buldum, ancak gözlemlerden çok daha fazla özelliğe sahip olmadığınız sürece kazanç genellikle küçüktür (böylece modelin tahmini kararsızdır ve verilerdeki küçük bir değişiklik modelde büyük bir değişiklik yaratır).

— Dikran Marsupial

Belki Wikipedia sayfasını güncellemelisin! Bu konuda bilgili görünüyorsun ...

— tdc

Ridge regresyonu, adından da anlaşılacağı gibi, sınıflandırma yerine regresyon için bir yöntemdir. Muhtemelen bir sınıflandırıcıya dönüştürmek için bir eşik kullanıyorsunuz. Her durumda, bir hiper düzlem tarafından tanımlanan doğrusal bir sınıflandırıcı öğreniyorsunuz. Çalışmasının nedeni, eldeki işin esasen doğrusal olarak ayrılabilir olmasıdır - yani sınıfları ayırmak için gereken tek şey basit bir köprüdür. "Sırt" parametresi, tamamen doğrusal olarak ayrılamayan durumlarda veya sıralama eksikliği olan durumlarda (bu durumda optimizasyon dejenere olur) çalışmasına izin verir.

Bu durumda, doğru sınıflandırıldıklarını varsayarak diğer sınıflandırıcıların da iyi performans göstermemesi için bir neden yoktur. Örneğin, SVM "optimal ayırma hiperdüzlemini" bulur (yani sınıflar arasındaki marjı veya boşluğu en üst düzeye çıkaran hiper düzlem). CSVM parametresi bazı yanlış sınıflandırılması (aykırı) sağlar sırt parametresi, bir kapasite kontrol parametresi benzerdir. Parametre seçim sürecinin özenle yürütüldüğü varsayıldığında, iki yöntemin böyle bir veri kümesinde hemen hemen aynı sonuçları vermesini beklerdim.

— tdc
kaynak

LS-SVM ikili sınıflandırmasının -1,1 etiketlerde Ridge Regresyon'a eşdeğer olduğunu gösterebileceğini hatırlıyorum, formülasyonları aynı.

— Firebug

Bu konuda haklı olabileceğini düşün

— tdc