Seyrek bir eğitim seti SVM'yi olumsuz etkiler mi?

İletileri bir SVM kullanarak farklı kategorilere ayırmaya çalışıyorum. Eğitim setinden istenen kelimelerin / simgelerin bir listesini derledim.

Bir mesajı temsil eden her vektör için, 1kelime varsa karşılık gelen satırı ayarladım :

"corpus": [mary, küçük, kuzu, yıldız, parıltı]

ilk mesaj: "mary'nin küçük bir kuzusu vardı" -> [1 1 1 0 0]

ikinci mesaj: "pırıltı küçük yıldız" -> [0 1 0 1 1]

Bence bu SVM ile oldukça yaygın bir kurulum, ama sorum şu: setteki binlerce kelimeyle, mesaj başına sadece 1-2 kelime varsa ne olur? Eğitim vektörleri setimin doğrusal bağımlılığı, algoritmanın yakınsama yeteneğini olumsuz etkileyecek mi?

classification svm sparse

— jonsca
kaynak

Çok fazla veri var, ancak çok az etiketlenmiş veri var mı? Eğer öyleyse yarı gözetimli öğrenmeye bakmak isteyebilirsiniz. Etiketlenmemiş verilerinizin bir kısmını kullanmak, hem doğruluğunuzu artırmalı hem de aşırı sığdırma riskini azaltmalıdır.

— nöron

@neuron Bunu yapmayı düşündüm. Yarı denetimli bir mimari örneği nedir?

— jonsca

Ben sadece yarı-denetimli "hackish" yöntemleri kullandım (diğer bir deyişle, eğitim setinde tren modeli, verileri tahmin etmek,> 0.5 tahmin tahminiyle tüm verileri çekmek ve eğitim setiyle birleştirmek ve yeni eğitim setinde moel oluşturmak için model kullanmak). Ancak flexmix'in birkaç yerden bahsettiğini gördüm (bkz. Cran.r-project.org/web/packages/flexmix )

— nöron

@neuron Tamam, iyi, çünkü gördüğüm makaleler (wikipedia benzeri hızlı bir arama olsa da) mimariler hakkında çok spesifik değildi. Ben kontrol edeceğim flexmix- ama, birkaç yıl için benim takvimde "Öğrenmek R" vardı!

— jonsca

Yapın, R ŞAŞIRTICI, sizin için kullanılabilir hale gelen kütüphaneler sadece akıl almaz. Caret, sqldf / rmysql, foreach (paralel), ggplot2 ve googlevis gibi şeyler inanılmaz derecede faydalı araçlardır. İlk başta dilin hayranı değildim, ama benim üzerimde büyüdü ve şimdi kullanmayı kesinlikle seviyorum.

— nöron

Seyreklik ve doğrusal bağımlılık iki farklı şeydir. Doğrusal bağımlılık, özellik vektörlerinin bazılarının diğer özellik vektörlerinin (veya örneklere uygulananla aynı) basit katları olduğu anlamına gelir. Açıkladığınız kurulumda, doğrusal bağımlılığın olası olmadığını düşünüyorum (tüm belgelerde iki terimin aynı frekansa (veya katlarına) sahip olduğunu ima eder). Sadece seyrek özelliklere sahip olmak SVM için herhangi bir sorun oluşturmaz. Bunu görmenin bir yolu, problemi değiştirmeden aynı çözümü veren koordinat eksenlerinin rastgele bir dönüşünü yapabilmenizdir, ancak verileri tamamen seyrek yapar (bu kısmen rastgele projeksiyonların nasıl çalıştığıdır) ).

Ayrıca size, SVM bahsediyoruz anlaşılmaktadır Primal . Çekirdek SVM'yi kullanırsanız, seyrek bir veri kümesine sahip olmanız, çekirdek matrisinin seyrek olacağı anlamına gelmediğini unutmayın. Bununla birlikte, düşük rütbe olabilir. Bu durumda, daha verimli eğitim için bu durumdan gerçekten yararlanabilirsiniz (örneğin , düşük seviyeli çekirdek gösterimlerini kullanarak verimli svm eğitimi ).

— tdc
kaynak

Doğru, terminoloji ile biraz hızlı ve gevşek. Mantıklı.

— jonsca