Destek Vektör Makinelerinin genelleme kabiliyeti için teorik sonuçlarla ilgileniyorum, örneğin sınıflandırma hatasının olasılığı ve bu makinelerin Vapnik-Chervonenkis (VC) boyutu ile ilgili sınırlar. Bununla birlikte, literatürde okumak, benzer tekrar eden bazı sonuçların, özellikle de belirli bir sınırın tutulması için gerekli teknik koşullar ile ilgili olarak yazardan yazara biraz farklılık gösterdiği izlenimini edindim.
Aşağıda, SVM sorununun yapısını ve tekrar tekrar bir şekilde bulduğum ana genelleme sonuçlarının 3. durumunu hatırlayacağım fuar boyunca 3 ana referans veriyorum.
Sorun ayarı :
Biz (IID) birbirinden bağımsız ve özdeş dağıtılmış çift veri örneği olduğunu varsayalım tüm , ve . , ve tanımlanan ayırma köprüsü arasında minimum kenar boşluğunu en üst düzeye çıkaran bir destek vektör makinesi (SVM) oluşturuyoruz ve ve tanımlanan iki sınıfı ayırmak için arasındaki en yakın nokta . SVM'nin gevşek değişkenler ekleyerek yumuşak bir marj ile bazı hataları kabul etmesine izin veriyoruz - ancak gösterimsel basitlik için çekirdek olasılığını göz ardı ediyoruz. ve çözüm parametreleri aşağıdaki dışbükey kuadratik optimizasyon programı çözülerek elde edilir:b ∗
Bu makinenin genelleme kabiliyeti ile ilgileniyoruz.
Vapnik-Chervonenkis boyut :
İlk sonuç, ayrı bir hiper düzlemin VC boyutunu sınırladığı (Vapnik, 2000), teorem 5.1. İzin vermek, sahibiz:
Bu sonuç yine (Burges, 1998), teorem 6'da bulunabilir. Ancak, Burges teoremi, boşluk toleranslı sınıflandırıcılar olarak bilinen özel bir sınıflandırıcılar kategorisi tanımlaması gerektiğinden, Vapnik'in aynı sonucundan daha kısıtlayıcı görünmektedir. SVM'nin ait olduğu , teoremi belirtmek için.-
Hata olasılığı sınırları :
(Vapnik, 2000) 'de, sayfa 139'daki teorem 5.2, SVM genelleme yeteneği üzerinde aşağıdaki sınırı vermektedir:
burada , destek vektörlerinin sayısıdır. Bu sonuçlar tekrar (Burges, 1998), denklemler (86) ve (93) 'te tekrar bulunmuştur. Fakat yine Burges, Vapnik'ten farklı teoremlerde minimum fonksiyon içindeki bileşenleri farklı koşullarla ayırdığı için farklı görünüyor.
(Vapnik, 2000), s.133'te ortaya çıkan bir diğer sonuç şudur. Tüm , ve ve izin vererek , şu şekilde tanımlarız :‖ x i ‖ 2 ≤ R 2 sa ≡ V C ϵ ∈ [ 0 , 1 ] ζ
Ayrıca SVM tarafından yanlış sınıflandırılmış eğitim örneği sayısı olarak tanımladık . Daha sonra olasılıkla bir test örneği tarafından doğru ayrılamayacaktır olasılığı olduğunu öne sürülebilir -margin hiper yani, SVM ile kenar : bağlandığı 1 - ϵ m ∗ - m ∗ -
Bununla birlikte, (Hastie, Tibshirani ve Friedman, 2009), s.438'de, çok benzer bir sonuç bulunmuştur:
Sonuç :
Bana öyle geliyor ki, bu sonuçlar arasında belli bir çatışma var. Öte yandan, bu referanslardan ikisi SVM literatüründe kanonik olmasına rağmen, özellikle doksanların ortasında SVM algoritması ile ilgili araştırmanın başladığını düşünürsek, biraz eski olmaya başlar (1998 ve 2000).
Sorularım:
- Bu sonuçlar bugün hala geçerli mi yoksa yanlış oldukları kanıtlandı mı?
- O zamandan beri nispeten gevşek koşullara sahip daha sıkı sınırlar elde edildi mi? Öyleyse, bunları kim tarafından ve nerede bulabilirim?
- Son olarak, SVM hakkındaki ana genelleme sonuçlarını sentezleyen herhangi bir referans materyali var mı?
Kaynaklar :
Vapnik, VN (1998). İstatistiksel Öğrenme Teorisi , 1. baskı, John Wiley & Sons
Vapnik, VN (2000). İstatistiksel Öğrenme Teorisinin Doğası , 2. baskı, Springer