Duda ve arkadaşlarının Desen Sınıflandırmasında ücretsiz öğle yemeği teoremini anlama


12

Duda, Hart ve Stork'un Desen Sınıflandırmasında Herhangi Bir Sınıflandırıcının Doğasında Üstünlük Eksikliği Bölüm 9.2'de kullanılan gösterimler hakkında bazı sorularım var . Öncelikle kitaptan alakalı bazı metinler vereyim:

  • Kolaylık olması açısından, eğitim seti desenlerinden ve öğrenilecek bilinmeyen hedef fonksiyonu tarafından oluşturulan için olan iki kategori sorununu düşünün , , burada .Dxiyi=±1i=1,...,nF(x)yi=F(xi)
  • (ayrık) hipotez kümesini veya öğrenilecek olası parametre kümelerini göstermesine izin verin . H'deki belirli bir hipotez bir sinir ağındaki nicelenmiş ağırlıklar veya fonksiyonel bir modeldeki 0 parametreleri veya bir ağaçtaki karar setleri vb. İle tanımlanabilir.Hh(x)H
  • Ayrıca, , algoritmanın antrenmandan sonra hipotezi üretme olasılığından ; bunun doğru olma olasılığı olmadığını unutmayın .P(h)hh
  • Daha sonra, , algoritmanın verileri üzerinde eğitildiğinde hipotez verme olasılığını belirtir . En yakın komşu ve karar ağaçları gibi deterministik öğrenme algoritmalarında, tek bir hipotez hariç her yerde sıfır olacaktır . Stokastik yöntemler (rasgele başlangıç ​​ağırlıklarından eğitilmiş sinir ağları gibi) veya stokastik Boltzmann öğrenmesi için geniş bir dağılım olabilir.P(h|D)hDP(h|D)hP(h|D)
  • sıfır-bir veya başka bir kayıp fonksiyonu için hata olsun .E

Gerçek işlev ve Aday öğrenme algoritması olasılığı olduğunda beklenen eğitim dışı ayarlı sınıflandırma hatasık P k ( h ( x ) | D ) E k ( E | F , n ) = x D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D )F(x)kPk(h(x)|D)

Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Teorem 9.1. (Ücretsiz Öğle Yemeği Yok) İki ve öğrenme algoritması için, örnekleme dağılımı ve eğitim sayısı bağımsız olarak aşağıdakiler doğrudur :P 2 ( h | D ) P ( x ) nP1(h|D)P2(h|D)P(x)n

  1. Tüm hedef fonksiyonlar üzerinde eşit ortalamalar ,FE1(E|F,n)E2(E|F,n)=0

  2. Herhangi bir sabit eğitim seti , , üzerinden eşit ortalamaDFE1(E|F,D)E2(E|F,D)=0

Bölüm 1 aslında diyor

FDP(D|F)[E1(E|F,n)E2(E|F,n)]=0

2. Bölüm aslında diyor

F[E1(E|F,D)E2(E|F,D)]=0

Sorularım

  1. formülünde , yani ı yerine ile ve toplam dışına hareket , bu bir dağılım gerçekten çünkü boyunca verilen için stokastik öğrenme algoritması inci?Ek(E|F,n)
    Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D),
    Pk(h(x)|D)Pk(h|D)xDhHDk
  2. Göz önüne alındığında aday öğrenme algoritması inci neden formülde, bir stokastik yöntemdir , üzerinde hiçbir toplamı yoktur , yani ?kEk(E|F,n)hhH
  3. Nasılsın ve birbirinden farklı?Ei(E|F,D)Ei(E|F,n)

    Does Bir eğitim seti verildi dışı eğitim hata oranı ortalama ?Ei(E|F,D)D

    Does bir eğitim boyutu verilen tüm eğitim seti üzerinde ortalama dışı eğitim hata oranı, ortalama ? Cevabınız evet ise, NFL teoremindeki 1. bölüm neden yazarak eğitim setlerine göre ve neden , eğitim büyüklüğü verildiğinde tüm eğitim setlerine göre ortalama yoktur ?Ei(E|F,n)nEi(E|F,n)DEk(E|F,n)n

  4. NFL teoreminin 1. bölümünde , sabit bir eğitim boyutu olan tüm eğitim setlerinin toplamı anlamına geliyor ?Dn
  5. Eğer bölüm 1'deki eğitim boyutu daki tüm olası değerler üzerinde daha fazla özetlenirse , sonuç hala 0 olur, değil mi?Nn
  6. Formül içinde , bir değiştirme durumunda üzere örneğin, zorunlu eğitim seti dışında sınırlı değildir, olacak her iki parça içinde NFL teoremi hala doğru mu?Ek(E|F,n)xDxx
  7. ve arasındaki gerçek ilişkinin olarak belirleyici bir işlev olduğu varsayılırsa , bunun yerine koşullu dağılımlar veya buna eşdeğer olan bir ortak dağılım bilerek ve (ayrıca bkz benim başka bir soru , o zaman değiştirebilir) olmak (garip bölüm 1 ve 2'de gösterilmiştir). NFL teoremindeki iki parça hala doğru mu?xyFy=F(x)P(y|x)P(x,y)P(y|x)P(x)Ek(E|F,n)
    Ek(E|P(x,y),n)=Ex,y[1δ(y,h(x))]Pk(h(x)|D)
    Pk(h(x)|D)

Teşekkürler ve saygılar!


Mı Dirac / Kronecker-delta? Gelenδ
Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Bu Ücretsiz Öğle Yemeği Yok teoremi Durdurma problemiyle aynı mıdır? Bağlılar mı?

Yanıtlar:


6

Cevaplarını bildiğimi düşündüğüm soruları cevaplayacağım.

  1. Bu cevap hayır çünkü uygun setinin parçası olmayan bir seçiyorsunuz ve , bağlı .xDhx
  2. h , beklenen hata oranını elde etmek için sadece test setindeki değerlerinde değerlendirildiğinden tüm setinde değil, sadece test setindeki ayrı kümesinde değerlendirilir .xHx
  3. Ei(E|F,D) , fonksiyonu ve egzersiz seti verildiğinde beklenen egzersiz dışı hata oranıdır . Ama Bence farklı çünkü gerçek değerlerini değil, sadece eğitim noktası sayısını şartlandırıyorsunuz . Ancak sonraki ifadeler göz önüne alındığında bu şaşırtıcıdır.FDEi(E|F,n)nx
  4. D , eğitim vektörleri kümesidir. de eğitim vektörü vardır . Yani deki sabit egzersiz vektörlerini özetliyorsunuz . Sadece bir set .nDnDD
  5. Bence 5'in cevabı hayır. Notasyon biraz kafa karıştırıcı gibi görünüyor.

6 ve 7 hakkında yorum yapamıyorum.


2
+1. Siteye hoş geldiniz, Amazon'daki yorumlarınızın büyük bir hayranıyım. Düzenleme konusundaki varsayımımı özür dilerim, matematiksel gösterim çoğunlukla bir şeyin her iki tarafına da $ 'koyarak yapılır. Eğer sarı-daire-? yazarken sağ üstte, daha fazla bilgi verecek "gelişmiş yardım" için bir bağlantı göreceksiniz; ayrıca, bazı mevcut mathjax'a (yukarıdakilerden herhangi biri gibi) sağ tıklayıp nasıl yapıldığını görmek için "Matematik Farklı Göster -> TeX komutları" nı seçebilirsiniz.
gung - Monica'yı eski durumuna getirin

2
Başka bir deyişle, @gung diyor ki: Bu site LaTeX'i (neredeyse) tam olarak beklediğiniz şekilde (ekran matematiği dahil) destekler. Siteye hoş geldiniz. LATEX
kardinal

@Michael Lütfen diğerlerine hoş geldin eklememe izin verin: Sizi burada gördüğüme sevindim. (Michael Amerikan İstatistik Derneği tartışma listelerine son derece bilgili katkılarda bulundu.)
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.