VC boyutu neden önemlidir?

12

Wikipedia şunları söylüyor:

VC boyutu, bir algoritmanın paramparça edebileceği en büyük nokta kümesinin temelidir.

Örneğin, doğrusal bir sınıflandırıcı n + 1 kardinalitesine sahiptir. Sorum şu, neden önemsiyoruz? Doğrusal sınıflandırma yaptığınız çoğu veri kümesi çok büyüktür ve çok fazla nokta içerir.

classification algorithms vc-dimension

— Undergradstudent
kaynak

4

VC boyutu nedir

@CPerkins tarafından belirtildiği gibi, VC boyutu bir modelin karmaşıklığının bir ölçüsüdür. Ayrıca, belirttiğiniz gibi wikipedia gibi veri noktalarını paramparça etme yeteneği ile de tanımlanabilir.

Temel sorun

Görünmeyen veriler üzerinde genelleme yapan bir model (örn. Bazı sınıflandırıcılar) istiyoruz .
Belirli miktarda örnek veri ile sınırlıyız.

Aşağıdaki görüntü ( buradan alınmıştır ) bazı Modelleri gösterir ( $\mathcal{S_1}$ kadar $\mathcal{S_k}$ ), burada x ekseni üzerinde gösterilen ve çağrılan farklı karmaşıklık (VC boyutu) $h$ .

Görüntüler, daha yüksek bir VC boyutunun daha düşük bir ampirik riske izin verdiğini (bir modelin örnek veriler üzerinde yaptığı hata), ancak daha yüksek bir güven aralığı getirdiğini göstermektedir. Bu aralık, modelin genelleme yeteneğine olan güven olarak görülebilir.

Düşük VC boyutu (yüksek sapma)

Düşük karmaşıklıkta bir model kullanırsak, veri kümesiyle ilgili bir tür varsayım (sapma) ortaya koyarız, örneğin doğrusal bir sınıflandırıcı kullanırken verilerin doğrusal bir modelle tanımlanabileceğini varsayıyoruz. Aksi takdirde, verilen problemimiz doğrusal bir modelle çözülemez, örneğin problem doğrusal olmayan yapıda olduğu için. Verilerin yapısını öğrenemeyecek kötü bir performans modeliyle sonuçlanacağız. Bu nedenle güçlü bir önyargı vermekten kaçınmaya çalışmalıyız.

Yüksek VC boyutu (daha büyük güven aralığı)

X ekseninin diğer tarafında, genel temel yapısını yani modelin abartıyor olduğunu öğrenmek yerine verileri ezberlemeyi tercih edecek kadar büyük bir kapasiteye sahip olabilecek daha yüksek karmaşıklık modelleri görüyoruz. Bu sorunu fark ettikten sonra karmaşık modellerden kaçınmamız gerektiği anlaşılıyor.

Bir sapma yani düşük VC boyutuna sahip olmamakla birlikte yüksek VC boyutuna sahip olmamamız gerektiğinden bu tartışmalı görünebilir. Bu problemin istatistiksel öğrenme teorisinde derin kökleri vardır ve önyargı-varyans-dengesizliği olarak bilinir . Bu durumda yapmamız gereken, olabildiğince karmaşık ve olabildiğince basit olmaktır, bu yüzden aynı ampirik hata ile sonuçlanan iki modeli karşılaştırırken, daha az karmaşık olanı kullanmalıyız.

Umarım size VC boyutu fikrinin arkasında daha fazla şey olduğunu gösterebilirim.

— Minato
kaynak

1

VC boyutu, bir küme arasında belirli bir nesneyi (işlevi) bulmak için ihtiyaç duyulan bilgi bitlerinin (örneklerin) sayısıdır. $N$ nesneler (işlevler) .

$VC$ boyut, bilgi teorisindeki benzer bir kavramdan gelir. Bilgi teorisi, Shannon'un aşağıdakileri gözlemlemesinden başladı:

Eğer varsa $N$ nesneler ve bunlar arasında $N$ belirli bir nesneyi aradığınız nesneler. Bu nesneyi bulmak için kaç bilgi parçasına ihtiyacınız var ? Nesne kümenizi iki yarıya bölebilir ve "Aradığım nesnenin hangi yarısında bulunur?" . İlk yarıda ise "evet", ikinci yarıda ise "hayır" alırsınız. Başka bir deyişle, 1 bit bilgi alırsınız . Bundan sonra, aynı soruyu sorar ve sonunda istediğiniz nesneyi bulana kadar setinizi tekrar tekrar bölersiniz. Kaç bilgiye ihtiyacınız var ( evet / hayır cevapları)? Açıkça $log_2(N)$ bilgi bitleri - sıralı dizideki ikili arama sorununa benzer şekilde.

Vapnik ve Chernovenkis de örüntü tanıma probleminde benzer bir soru sordular. Varsayalım ki $N$ giriş verilen fonksiyonlar $x$ , her işlev evet veya hayır (denetlenen ikili sınıflandırma sorunu) ve bunların arasında çıkış yapar $N$ Belirli bir veri kümesi için evet / hayır doğru sonuçları veren belirli bir işlevi aradığınız işlevler $D=\{(x_1,y_1), (x_2, y_2), ..., (x_l, y_l)\}$ . Şu soruyu sorabilirsiniz: " Belirli bir işlev için hangi işlevler hayır döndürüyor ve hangi işlevler evet döndürüyor $x_i$ veri kümenizden. Sahip olduğunuz eğitim verilerinden gerçek cevabın ne olduğunu bildiğiniz için, bazıları için size yanlış cevap veren tüm fonksiyonları atabilirsiniz. $x_i$ . Kaç bilgiye ihtiyacınız var? Başka bir deyişle: Tüm bu yanlış işlevleri kaldırmak için kaç eğitim örneğine ihtiyacınız var? . Burada Shannon'un bilgi teorisindeki gözleminden küçük bir fark var. İşlev kümenizi tam olarak yarıya bölmüyorsunuz (belki yalnızca bir işlev $N$ bazıları için yanlış cevap veriyor $x_i$ ) ve belki de işlev kümeniz çok büyüktür ve bir işlevi bulmanız yeterlidir. $\epsilon$ -İstediğiniz işlevi kapatın ve bu işlevin $\epsilon$ -olasılıkla kapat $1-\delta$ ( $(\epsilon, \delta)$ - PAC çerçevesi), ihtiyacınız olan bilgi bitlerinin sayısı (örnek sayısı) $\frac{log_2N/\delta}{\epsilon}$ .

Şimdi varsayalım ki $N$ fonksiyonlarında hata yapmayan bir fonksiyon yoktur. Önceden olduğu gibi, bir işlevi bulmanız yeterlidir. $\epsilon$ -olasılıkla kapat $1-\delta$ . İhtiyacınız olan örnek sayısı $\frac{log_2N/\delta}{\epsilon^2}$ .

Her iki durumda da sonuçların $log_2N$ - ikili arama problemine benzer.

Şimdi sonsuz sayıda fonksiyona sahip olduğunuzu ve bu fonksiyonlar arasında $\epsilon$ -olasılıkla en iyi işleve yakın $1-\delta$ . Fonksiyonların sürekli afin (SVM) olduğunu ve (çizimin basitliği için) $\epsilon$ -en iyi işlevine kapatın. Eğer fonksiyonunuzu biraz hareket ettirirseniz, sınıflandırma sonuçlarını değiştirmez, ilk sonuç ile aynı sonuçlarla sınıflandıran farklı bir fonksiyona sahip olursunuz. Size aynı sınıflandırma sonuçlarını (sınıflandırma hatası) veren tüm bu işlevleri alabilir ve bunları tek bir işlev olarak sayabilirsiniz, çünkü verilerinizi aynı kayıpla (resimdeki bir çizgi) sınıflandırırlar.

^{___________________Her iki çizgi (fonksiyon) noktaları aynı başarı ile sınıflandırır ___________________}

Bu tür bir işlev kümesinden belirli bir işlevi kaç örnek bulmanız gerekir (işlevlerimizi, her bir işlevin belirli bir nokta kümesi için aynı sınıflandırma sonuçlarını verdiği işlev kümelerine ayırdığımızı hatırlayın)? İşte bu $VC$ boyut anlatıyor - $log_2N$ ile değiştirildi $VC$ çünkü belirli noktalar için aynı sınıflandırma hatasına sahip bir dizi fonksiyona bölünmüş sonsuz sayıda sürekli fonksiyonunuz vardır. İhtiyacınız olan örnek sayısı $\frac{VC -log(\delta)}{\epsilon}$ Mükemmel tanıyan bir fonksiyonunuz varsa ve $\frac{VC - log(\delta)}{\epsilon^2}$ orijinal işlev kümenizde mükemmel bir işleve sahip değilseniz.

Yani, $VC$ size ulaşmak için ihtiyacınız olan birkaç örnek için size bir üst sınır (btw geliştirilemez) verir $\epsilon$ olasılık hatası $1-\delta$ .

— Vlad
kaynak

0

VC boyutu, modelin karmaşıklığının bir ölçüsüdür. Örneğin, VC boyutu Dvc verildiğinde, iyi bir kural, modelinizin karmaşıklığı göz önüne alındığında n = 10xDvc veri noktalarına sahip olmanızdır.

Bunu, test hatası üzerinde bir üst sınır oluşturmak için de kullanabilirsiniz.

— CPerkins
kaynak