Sinir ağının VC boyutunun hesaplanması

11

Sadece dizeleri alabilen giriş nöronları ile sigmoid nöronların bazı sabit tekrarlayan olmayan (DAG) topolojisi (sabit düğüm ve kenar kümesi, ancak öğrenme algoritması kenarlardaki ağırlığı değiştirebilir) varsa girdi olarak ve bir çıkışa yol açar (0'dan uzakta belirli bir sabit eşikse 1'e veya -1'e yuvarladığımız gerçek bir değer üretir). Bu ağın VC boyutunu hesaplamanın (veya yaklaşık olarak) hızlı bir yolu var mı? $n$ $\{-1,1\}^n$

notlar

CS.SE'de biraz daha kesin bir algoritmik reformülasyon sordum:

Bir sinir ağının VC boyutunu etkili bir şekilde hesaplamak veya yaklaşık olarak hesaplamak

— Artem Kaznatcheev
kaynak

Sadece açıklığa kavuşturmak için: gizli nöron katmanlarınız var mı? Sorunuz, gizli katmanlarınız olup olmadığını açıkça belirtmiyor.

— Andrew

@ Ve yöntem her iki durum için de çalışmalıdır. Hiçbir gizli katman doğrusal bir sınıflandırıcı olmadığından, yapılması önemsizdir; bu yüzden önemsiz olmayan davaya daha çok ilgi duyuyorum; 2'den fazla gizli katmanımız olduğunu varsayalım (daha kolay olduğu için yöntem daha az çalışmalıdır).

— Artem Kaznatcheev

6

Sinir ağlarındaki VC boyutlarını hesaplamak için genel bir formül ararken avlanmanız sırasında tökezledim, ancak görünüşe göre bir tane yok. Görünüşe göre sadece belirli dar durumlarda geçerli olan farklı VC denklemlerinden oluşan bir grup var. Dikkat: Bunu neredeyse anladığım eski araştırmaya, sadece şimdi öğrendiğim VC Boyutları kavramına dayandırıyorum. Yine de, Peter L. Bartlett ve Wolfgang Maass tarafından bu makaleyi yağsızlaştırmak faydalı olabilir 1VC boyutlarının hesaplanabilirliği üzerine. 13 teoremde VC formüllerini elde etmek için nasıl büyük uzunluklara gittiklerini, ancak her biri için ne kadar çeşitli ve çok sayıda gerekli koşul olduğunu not edin. Bu önkoşullar, aktivasyon fonksiyonlarındaki operatör sayısından izin verilen atlama türlerine, nöronların sayısına ve konumlarına, girişin bit derinliğine vb. bu dağınık "gotcha" ların birçoğu formülleri sadece belirli dar sınıflar için yararlı kılmaktadır. Daha da kötüsü, Teorem 5 ve 8'de sigmoidal aktivasyon fonksiyonlarının VC değerlerini hesaplamanın özellikle zor olduğunu belirtiyorlar. 6-7.

"Parçalı polinom aktivasyon fonksiyonlarına sahip ağların VC boyutu iyi anlaşılmış olsa da, nöral ağların çoğu uygulaması lojistik sigmoid fonksiyonunu veya Gauss radyal temel fonksiyonunu kullanır. Ne yazık ki, bu fonksiyonları sınırlı sayıda kullanarak hesaplamak mümkün değildir. Teorem 5'te listelenen aritmetik işlemler. Bununla birlikte, Karpinski ve Macintyre [Karpinski ve Macintyre, 1997] üstel değerlerin hesaplanmasına izin vermek için Teorem 5'i genişletmiştir Kanıt aynı fikirleri kullanır, ancak bir denklem sisteminin çözümlerinin sayısına bağlı olan çok daha zor. "

Ben de karşılaştım arasında teşvik başlığı ile bu yazıda "Sinir Ağları için Sınırlandırma VC-Boyut:. İlerleme ve Beklentiler" 2Matematiğin çoğu kafamın üstünde ve çeviri becerilerimin eksikliğinin üstesinden gelmek için yeterince uzun sürmedim, ancak Bartlett kitabının ikinci baskısından önce olduğu için dünyayı sarsan herhangi bir çözüm sunmadığından şüpheleniyorum. ve aynı yazarların daha sonra yaptıkları bir çalışmayı gösteren Maass. Belki de son 20 yılda yapılan araştırmalar, sinir ağları için VC boyutlarının hesaplanabilirliğini geliştirdi, ancak bulduğum referansların çoğu 90'ların ortasından beri var gibi görünüyor; görünüşe göre konu üzerinde o zamandan beri ölmüş bir çalışma telaşı vardı. Eğer yetenekler 90'larda olduklarından çok daha yeni bir bursla genişletilmemişse, umarım birisi yakında daha geniş çapta uygulanabilir bir çözüm bulur, böylece sinir ağlarımdaki VC boyutlarını hesaplamaya başlayabilirim. Üzgünüm yapamadım

1 Bartlett, Peter L. ve Maass, Wolfgang, 2003, "Sinir Ağlarının Vapnik-Chervonenkis Boyutu", s. 1188-1192 Beyin Teorisi ve Sinir Ağları El Kitabı, Arbib, Michael A. ed. MIT Yayınları: Cambridge, Mass.

2 Karpinski, Marek ve Macintyre, Angus, 1995, "Yapay Sinir Ağları için VC Boyutunun Sınırlandırılması: İlerleme ve Beklentiler", s. Vitanyi, P. ed. Yapay Zeka Ders Notları, No. 904. Springer: Berlin.

— SQLServerSteve
kaynak

0

İşte en son iş: http://jmlr.org/papers/v20/17-612.html .

Temel olarak, ağırlıkları, katmanları ve relu aktivasyonlarına sahip bir ağ aşağıdaki gibidir: ve bazı sabitleri için . $W$ $L$

c W L \log (W / L) \leq V C \leq C W L \log (W L)

$c WL \log(W/L) \leq VC \leq CWL \log(WL)$

c

$c$

C

$C$

Çalışmanın geçerliliği göz önüne alındığında, kullanışlı sınırlar verdiğini düşünüyorum. Yine de, tam olarak okumadığım için sınırların (ve özellikle ve sabitlerinin ) sıkılığından emin değilim . $c$ $C$

— jachilles
kaynak