Kötü VC boyutuna rağmen derin öğrenme neden artmaktadır?


86

Vapnik-Chervonenkis (VC) -Boyut sinir ağları için, formül arasında değişmektedir için ile, en kötü durumda, kenarları sayısıdır ve düğüm sayısıdır. Güçlü bir genelleme garantisine sahip olmak için gereken eğitim örneklerinin sayısı VC boyutuyla doğrusaldır.O(E)O(E2)O(E2V2)EV

Bu, başarılı derin öğrenme modellerinde olduğu gibi, milyarlarca kenarı olan bir ağ için, eğitim veri setinin en iyi durumda, en kötü durumda katrilyona kadar milyarlarca eğitim örneğine ihtiyaç duyduğu anlamına gelir. En büyük eğitim setlerinin şu anda yaklaşık yüz milyar örneği var. Yeterli eğitim verisi olmadığı için, derin öğrenme modellerinin genelleme olasılığı düşüktür. Bunun yerine, eğitim verilerini çok fazla kullanıyorlar. Bu, modellerin, makine öğrenmesi için istenmeyen bir özellik olan eğitim verilerine benzer olmayan veriler üzerinde iyi performans göstermeyeceği anlamına gelir.

Derin öğrenmenin genelleştirilememesi nedeniyle, VC boyutsal analizine göre, derin öğrenme sonuçları neden bu kadar karmaşık? Yalnızca bazı veri kümelerinde yüksek bir doğruluğa sahip olmak, kendi başına çok şey ifade etmez. VC boyutunu önemli ölçüde azaltan derin öğrenme mimarileri hakkında özel bir şey var mı?

VC boyut analizinin konuyla ilgili olduğunu düşünmüyorsanız, lütfen derin öğrenmenin genel olduğunu ve fazla uydurmadığına dair kanıt / açıklama sağlayın. Yani iyi hatırlama VE hassaslık var mı, yoksa sadece iyi hatırlama mı? % 100 hatırlama,% 100 hassasiyet gibi başarmak için önemsizdir. Her ikisini de% 100'e yakın almak çok zor.

Aksine bir örnek olarak, burada derin öğrenmenin fazla yorucu olduğunun kanıtı . Belirleyici bir modelin deterministik / stokastik gürültü içerdiği için kandırılması kolaydır. Bir üst donanım örneği için aşağıdaki resme bakın.

Takma, takma ve takma örneği.

Ayrıca, test verilerinde iyi bir doğruluk olmasına rağmen, üst üste binme modelindeki sorunları anlamak için bu soruya verilen daha düşük dereceli cevaplara bakınız .

Bazıları düzenlileşmenin büyük bir VC boyutu sorununu çözdüğünü belirtti . Daha fazla tartışma için bu soruya bakın .


Yorumlar uzun tartışmalar için değildir; bu konuşma sohbete taşındı .
DW

7
Neden "sinirli" bir şeyin iyi olduğu hakkında soru sormuyorum Cevap "insanlar" dır. Pazarlama dahil olmak üzere birçok nedenden ötürü insanlar ilgiyle ilgilenir.
luk32,

Derin öğrenme pratikte çalışır. Çok zor olabilir. Tamamen haksız olabilir. Bir eldritch tanrısından evrenin sırlarını öğrenmek olabilir. Ancak yutturmaca, aniden kod üzerine 30 satır yazabilen ve imzaları taramak ve banka işlemlerini doğrulamak için bunları depolanmış olanlarla eşleştirmek için bir kameraya öğreten uygulayıcılardan geliyor. Veya fotoğraflarda bilinmeyen insanları etiketleyin. Vb Belki de "doğruysa hakaret değil" satırını duydunuz? Eğer işe yarıyorsa, bu yutturmaca değil. Üzerinde çalışmadığı ve aşırı popüler hype gibi birçok sorunu var. Ancak gerçek hayat uygulamasında çalışır.
Stella Biderman

@StellaBiderman standart makine öğrenme teknikleri etrafında takım oluşturma kolaylığı iyi ve her şeydir. Ancak ilgi, modelin VC analizi göz önüne alındığında, fazladan görünen insan yeteneğine rakip olan DNN'lerin varsayılan öğrenme kabiliyetiyle daha fazla görünüyor. Bu kadar yüksek bir VC boyutu, modellerin genelleşmeyeceğini ve bunun yerine veri kümelerini ezberlediğini ve onları çok kırılgan hale getirdiğini ima ediyor. Tüm çekişmeli örnek raporlar bu noktayı gösteriyor.
yters

@gerrit Düzenlemenin bu kadar yardımcı olduğundan emin değilim. Bahse girerim VC boyutunun ne anlama geldiğini bildiğinden daha fazla insan biliyordur.
David Richerby

Yanıtlar:


75

"Harita ve arazi aynı fikirde değilse, araziye güven."

Derin öğrenmenin neden olduğu kadar iyi çalıştığı da anlaşılmıyor, ancak VC boyutları gibi öğrenme teorisinden çıkan eski kavramların pek de yardımcı olamadığı anlaşılıyor.

Konu çok tartışılıyor, örneğin:

Konusuna ilişkin düşmanca örneklerde , sorun keşfedilmiştir:

  • C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich, Konvolyonlarla daha derine inmek .

Daha da geliştirilmiştir:

Bir sürü takip çalışması var.


Yorumlar uzun tartışmalar için değildir; bu konuşma sohbete taşındı .
DW

"Bir sürü takip çalışması var" derken, son 2014 makalesine mi bakıyorsunuz? Bahsettiğiniz ilk iki makale oldukça yeni. Bahsettiğiniz bildirilerle güncelleme yapabilir misiniz?
VF1

2
"Harita ve arazi aynı fikirde değilse, araziye güven." İçin Güçlü +1. Modeller matematiğin yapması gerekip gerekmediğinden bağımsız olarak pratikte son derece iyi çalışır. Bilimsel bir POV'dan, bu her zaman olur ve eğer bir şey sorunları daha ilginç hale getirirse. Kimse Razborov ve Rudich'in Doğal Kanıtlar konusundaki çalışmalarını okumadı ve "peki NP sanırım nihayet ilginç bir soru değil" oldu. Gittiler ve karmaşıklık teorisi yapmak için cebirsel geometri kullanmanın mümkün olabileceğini düşündüler. Bilim açısından, anlayışımızı aşan problemler daha iyi , daha kötü değil.
Stella Biderman

65

“VC boyutlu analizine göre Derin Öğrenmenin genelleştirilememesi durumunda […]”

Hayır, VC boyutlu analizin söylediği bu değil. VC boyutlu analiz, genelleştirmenin garanti altına alındığı bazı yeterli koşulları verir. Ancak sohbet mutlaka öyle değil. Bu şartları yerine getirmemenize rağmen, ML yöntemi hala genel olabilir.

Başka bir deyişle: derin öğrenme VC boyutlu analizin beklediğinizden daha iyi çalışması (VC analizinin "tahminlerinden" daha iyidir). Bu, derin öğrenme eksikliğinden değil, VC boyutlu analizden bir eksiklik. Derin öğrenmenin kusurlu olduğu anlamına gelmez. Aksine, derin öğrenmenin neden işe yaradığını bilmediğimiz anlamına gelir - ve VC analizi hiçbir yararlı görüş sağlayamaz.

Yüksek VC boyutu, derin öğrenmenin kandırılabileceği anlamına gelmez. Yüksek VC boyutu, pratik durumlarda kandırılıp atılamayacağı konusunda hiçbir şey garanti etmez. VC boyutu, tek yönlü, en kötü durumda bir sınırlama sağlar: bu koşulları yerine getirirseniz, o zaman iyi şeyler olur, ancak bu koşulları karşılamazsanız, ne olacağını bilmiyoruz (belki de yine de iyi şeyler olacak) doğa mümkün olan en kötü durumdan daha iyi davranır; VC analizi iyi şeylerin olamayacağına / olmayacağına dair söz vermez .

Model uzayının VC boyutu büyük olabilir (olabildiğince çok karmaşık kalıplar içerir), ancak doğa basit kalıplarla açıklanır ve ML algoritması doğada mevcut olan basit kalıpları öğrenir (örneğin, düzenlileştirme nedeniyle) - - Bu durumda, VC boyutu yüksek olur, ancak model genelleşir (doğada bulunan belirli bir model için).

Yani ... derin öğrenme dair artan kanıtlar vardır edebilir düşmanca örneklerle aptal. Fakat akıl yürütme zincirinize dikkat edin. Çektiğiniz sonuçlar, başladığınız yerlerden gelmiyor.


6
Yüksek VC boyutunun genelleştirilmesi zor olduğu anlamına gelir (bir anlamda, en azından keyfi dağılımlarla uğraşırken). genelleme hatası daha düşük bağlanmış tam VC boyutuna kıyasla daha küçük numune sayısı için, bunun için herhangi bir algoritma böyle göreceli bir dağılım olduğu anlamına gelir yüksek genelleme hatası (yüksek olasılıkla) yaşar. Ω(dn)
Ariel

5
-1 için "Yüksek VC boyutlu hiçbir şey garanti etmez." Bu doğru değil: yüksek VC boyutu PAC öğrenimi için örnek karmaşıklığı düşük sınırlar anlamına gelir. İyi bir cevap, "gerçek hayat" dağılımlarına karşı en kötü durumlara değinmelidir.
Sasho Nikolov

1
@SashoNikolov, iyi nokta - teşekkür ederim! Düzenlenen.
DW

Bu yayın kalitesiz incelemede yapıldı. İçeriği, uzunluğu, oyları ve kalitesi göz önüne alındığında, bu çok saçma, burada bunu işaret ediyor, ama metaya ihtiyaç olabilir, çünkü bir şeyler gerçekten yanlış.
Evil,

23

Endüstri halkı VC boyutuna, holiganlarına saygısızlık ediyor ...

Daha ciddi bir kayda göre, PAC modeli öğrenme hakkında düşünmenin zarif bir yolu olmasına rağmen (bence en azından) ve ilginç kavram ve soruları (VC boyutu ve örnek karmaşıklığı ile bağlantısı gibi) ortaya çıkaracak kadar karmaşıktır. , gerçek yaşam durumlarıyla ilgisi çok az.

PAC modelinde rastgele dağıtımları gerçekleştirmeniz gerektiğini unutmayın, bunun anlamı algoritmanızın ters dağıtımları yapması gerektiğidir. Gerçek dünyadaki bazı fenomenleri öğrenmeye çalışırken, hiç kimse size sonuçlarınızı karıştırmak için "ters veriler" vermez, bu nedenle bir kavram sınıfının PAC öğrenilebilir olması çok zor olabilir. Bazen, genelleme hatasını belirli bir dağıtım sınıfı için VC boyutundan bağımsız olarak sınırlayabilirsiniz. Bu, VC boyutundan bağımsız olarak formüle edilen marj sınırları için geçerlidir. Yüksek ampirik marjı (elbette ki tüm dağıtımlar için gerçekleşemez, örneğin zıt etiketleri olan uçakta iki yakın nokta ele al ve onlara dağıtmaya odaklan) garanti edersen düşük genelleme hatası vaat edebilirler.

Bu yüzden, PAC modelini ve VC boyutunu bir kenara koymak, hype'ın sadece işe göründüğü gerçeğinden geldiğini ve daha önce mümkün olmayan görevlerde başarılı olduğunu düşünüyorum (akla gelen en yeni başarılardan biri AlphaGo). Sinir ağları hakkında çok az şey biliyorum, bu yüzden daha fazla deneyime sahip birisinin işe yarayacağını umuyorum, ama bildiğim kadarıyla henüz kesin bir garanti yok (kesinlikle PAC modelinde olduğu gibi). Belki de doğru varsayımlar altında, sinir ağlarının başarısı resmi olarak haklı çıkarılabilir (Nöral ağların resmi tedavisi ve "derin öğrenme" konusunda çalışmalar olduğunu varsayıyorum. .


Yorumlar uzun tartışmalar için değildir; bu konuşma sohbete taşındı .
DW

15

Derinlemenin genelleştirilememesi durumunda,

Bunu nereden aldın bilmiyorum. Ampirik olarak, genelleme görünmeyen veriler üzerinde puan (örneğin doğruluk) olarak görülür.

CNN'lerin neden kullanıldığı cevabı basittir: CNN'ler her şeyden çok daha iyi çalışır . Örnek olarak ImageNet 2012'ye bakınız:

  • CNN'ler:% 15.315 (bu erken bir örnekti. CNN'ler şimdi çok daha iyi. Yaklaşık% 4 ilk 5 hatada)
  • En iyi CNN olmayanlar:% 26.172 En iyi 5 hatası ( kaynak - CNN kullanmayan bilgi tekniklerime kadar% 25 ilk 5 hatanın altına düşmedi )

Daha iyi olan ve insanlar buna kayan bir sınıflandırıcı oluşturun.

GÜNCELLEME: Derin Öğrenmenin bu kanıtı gibi genel olarak makine öğrenmesinin kolayca kandırıldığına dair yayınlanmış kanıtlar sunan herkese bir cevap vereceğim.

Durum bu değil. Basit bir veri setinde son derece basit olan bir sınıflandırıcı oluşturabilirsiniz. Onu kandırmak mümkün olmayacak ("kolay" ın ne anlama geldiği bile önemli değil), ama ilginç de değil.


3
Düşük bir hata genelleme anlamına gelmez. Bu gerekli, ancak yeterli olmayan bir durumdur.
02

3
@yters Lütfen daha sonra genelleştirmeyi tanımlayın.
Martin Thoma

5
@ yters, bu yorum bana Makine Öğrenimi hakkında fazla bir şey okumadığınızı düşünüyor. Martin görünmeyen verilerde doğruluk dedi . Antrenman verilerinin doğruluğu hakkında konuşuyorsunuz. Genelleştirmenin ne olduğu konusunda temel olarak haklısınız, ancak lütfen buradaki herkesin de anladığını fark edin .
Ken Williams,

1
@yters Ken'in (ve kendim de dahil bu sitedeki pek çok insanın) bunu bildiğinden eminim. Bununla birlikte, test kümeniz veri kümenizi temsil etmiyorsa, genelleme hakkında herhangi bir açıklama yapamazsınız. Bunu akılda tutmaya değer olsa da, bunun bu soru için size nasıl yardımcı olduğunu anlamıyorum. Test setinizin üretim sırasındaki verilerinizi temsil ettiğini varsaymanız / emin olmanız yeterlidir. Aslında, eğer eğitim örnekleri dağıtımı temsil etmiyorsa, herhangi bir sınıflandırıcıyı isteğe bağlı olarak kötü hale getirebileceğinizi göstermek gerçekten kolaydır.
Martin Thoma

2
Bu çok açık. Bir modelin yanlış veriler üzerinde doğrulanmışsa eğitilmiş olması durumunda genelleşmesini bekleyemezsiniz. Daha iyi verilere ihtiyacın var, daha iyi bir model değil.
Emre

9

Tek kelime cevabı "düzenleme" dir. Saf VC boyut formülü burada gerçekten geçerli değil çünkü düzenlileştirme ağırlıkların genel olmamasını gerektirir. Ağırlık kombinasyonlarının sadece küçük bir (sonsuz?) Oranı düzenlileştirmeden sonra kabul edilebilir bir kayba sahiptir. Gerçek boyut, sonuç olarak daha az sayıda büyüklük sırasıdır, bu yüzden sahip olduğumuz eğitim setleri ile genelleme yapılabilir. Gerçek hayattaki sonuçlar, fazla uydurmanın genel olarak olmadığını göstermektedir.


2
Gerçek hayat sonuçlarının derinlemesine öğrenmenin genelleştiğini gösterdiği tekrarlanan iddiasını gördüm. Genelleme gösteren sonuçlar tam olarak nedir? Şimdiye kadar gördüğüm tek şey, DL'in kendi başına DL genellemesi olduğu anlamına gelmeyen belirli veri kümelerinde düşük hata oranlarına ulaşması.
01’de

3
eğitilmediği verilerde iyi sonuçlar ("iyi" = diğer ML yöntemlerinden daha iyi) gösterir . Genel olarak genel olarak nasıl ölçmek istediğinizi bilmiyorum.
lvilnis

3

Makaleyi ele alıyoruz: Derin Öğrenmeyi Anlamak, Genelleştirmeyi Yeniden Düşünmek Gerektirir. içinde

Genelleştirmeyi yeniden düşünmek eski fikirleri gözden geçirmeyi gerektirir: istatistiksel mekanik yaklaşımlar ve karmaşık öğrenme davranışı Charles H. Martin ve Michael W. Mahoney

Bakınız: https://arxiv.org/pdf/1710.09553.pdf

Temel olarak, VC sınırlarının çok gevşek olduğunu savunuyoruz çünkü temel yaklaşım ve alınan istatistiksel sınırın gerçekçi olmadığı.

Daha iyi bir yaklaşım, bir veri bağımlı fonksiyon sınıfı olarak kabul edilen İstatistiksel Mekanik'te yatmaktadır, Termodinamik sınırı almaktadır (sadece büyük sayıların sınırı değildir).

Dahası, derin ihtiyaçlardaki doğal süreksizliklerin Google gazetesinde (yukarıda) gözlendiğine inandığımız öğrenme eğrisinde bir aşama geçişine yol açtığını da belirtmiştik

Limitlerle ilgili olarak, makalemizin 4.2 bölümüne bakın.

"Açıkçası, eğer m örnek boyutunu sabitlersek ve [işlev sınıfının boyutunu] N → ∞, [ya da tam tersi, N'yi sabitlersek, m → ∞] 'a izin verirsek, önemsiz olmayan bir sonuç beklememeliyiz çünkü N] büyüyor, ancak örnek boyutu sabittir. Bu nedenle, [İstatistiksel Mekanik'te] biri tipik olarak, m = N → ∞ olduğu için α = m / N'nin sabit bir sabit olduğu sonucuna varılır. "

Yani, çok nadiren derin bir ağa daha fazla veri (m) eklerdik. Her zaman ağın (N) boyutunu da artırıyoruz, çünkü verilerden daha ayrıntılı özellikler / bilgiler alabileceğimizi biliyoruz. Bunun yerine, pratikte makalede neyi tartıştığımızı yapıyoruz - m / N oranı sabit büyük mertebeden sınırını alın (sabitleme deyin ve N'nin artmasına izin verin).

Bu sonuçlar Öğrenme İstatistik Mekaniğinde iyi bilinmektedir. Analiz daha karmaşıktır, ancak sonuçlar derin öğrenmedeki birçok olguyu açıklayan daha zengin bir yapıya yol açmaktadır.

Ayrıca ve özellikle, istatistiklerden elde edilen birçok sınırın önemsiz hale geldiği veya düzgün olmayan olasılık dağılımları için veya değişkenlerin ayrık değerler alması durumunda geçerli olmadığı bilinmektedir. Sinir ağları ile, önemsiz olmayan davranış süreksizliklerden (aktivasyon işlevlerinde) kaynaklanır, faz geçişlerine (termodinamik sınırda ortaya çıkar) yol açar.

Yazdığımız yazı, göze çarpan fikirleri bir bilgisayar bilimi izleyicisine anlatmaya çalışıyor.

Vapnik’in teorisi, 1994’te, sinir ağları için gerçekten geçerli olmadığını fark etti.

“[VC boyutunun] çok katmanlı ağlara yayılması [birçok] zorlukla karşılaşıyor. Mevcut öğrenme algoritmaları, ağ tarafından uygulanabilir tüm fonksiyonlar kümesi üzerindeki ampirik riski minimize etmek olarak görülemez… [çünkü] büyük olasılıkla ... arama [bu] işlevlerin bir alt kümesine sınırlandırılacak ... Bu setin kapasitesi tüm setin kapasitesinden çok daha düşük olabilir ... [ve] gözlem sayısıyla değişebilir. Bu, 'aktif' bir fonksiyonlar alt kümesi olan "sabit olmayan kapasite" kavramını düşünen bir teori gerektirebilir.
Vapnik, Levin ve LeCun 1994

http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf

VC teorisi ile muamele etmek kolay olmasa da, bu, statik makinalar için bir sorun değildir ve tarif ettikleri şey, protein katlanmasının Enerji Peyzaj Teorisi'ne çok benzemektedir. (bu gelecekteki bir makalenin konusu olacak)


Kulağa ilginç geliyor, ancak tartışmanızı takip ettiğimden emin değilim. İlk cümleye, yani temel yaklaşımın / istatistiksel limitin gerçekçi olmayışına, istatistiksel mekaniği anlamayı gerektirmeyen kendi kendine yeten bir şekilde nasıl ele alınabileceğini açıklayabilir misiniz? VC sınırları hangi varsayımlarda bulunuyor ve neden gerçekçi değiller? Belki bu bilgiyi eklemek için cevabınızı düzenleyebilirsiniz?
DW

Bu konuyu tartışan Vapnik ve LeCun (1994) tarafından yayınlanan orijinal çalışmaya bir referans ekledim.
Charles Martin

Ve bazı açıklamalar ekledi.
Charles Martin

1

Kimse yukarıdaki cevaplarda belirtmiş gibi görünmüyor, alıntılanan VC boyut formülünün sadece 1 katmanlı bir sinir ağı için olduğuna dikkat çekiyor. Benim tahminim, VC boyutunun aslında L katmanlarının sayısı arttıkça katlanarak büyüyor . Benim akıl yürütme, aktivasyon fonksiyonunun yerine polinom olanların geldiği derin sinir ağlarını düşünmeye dayanıyor. Sonra oluşan polinomların derecesi, tabakalar arttıkça üssel olarak artar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.