Duda, Hart ve Stork'un Desen Sınıflandırmasında Herhangi Bir Sınıflandırıcının Doğasında Üstünlük Eksikliği Bölüm 9.2'de kullanılan gösterimler hakkında bazı sorularım var . Öncelikle kitaptan alakalı bazı metinler vereyim:
- Kolaylık olması açısından, eğitim seti desenlerinden ve öğrenilecek bilinmeyen hedef fonksiyonu tarafından oluşturulan için olan iki kategori sorununu düşünün , , burada .
- (ayrık) hipotez kümesini veya öğrenilecek olası parametre kümelerini göstermesine izin verin . H'deki belirli bir hipotez bir sinir ağındaki nicelenmiş ağırlıklar veya fonksiyonel bir modeldeki 0 parametreleri veya bir ağaçtaki karar setleri vb. İle tanımlanabilir.
- Ayrıca, , algoritmanın antrenmandan sonra hipotezi üretme olasılığından ; bunun doğru olma olasılığı olmadığını unutmayın .
- Daha sonra, , algoritmanın verileri üzerinde eğitildiğinde hipotez verme olasılığını belirtir . En yakın komşu ve karar ağaçları gibi deterministik öğrenme algoritmalarında, tek bir hipotez hariç her yerde sıfır olacaktır . Stokastik yöntemler (rasgele başlangıç ağırlıklarından eğitilmiş sinir ağları gibi) veya stokastik Boltzmann öğrenmesi için geniş bir dağılım olabilir.
- sıfır-bir veya başka bir kayıp fonksiyonu için hata olsun .
Gerçek işlev ve Aday öğrenme algoritması olasılığı olduğunda beklenen eğitim dışı ayarlı sınıflandırma hatasık P k ( h ( x ) | D ) E k ( E | F , n ) = ∑ x ∉ D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D )
Teorem 9.1. (Ücretsiz Öğle Yemeği Yok) İki ve öğrenme algoritması için, örnekleme dağılımı ve eğitim sayısı bağımsız olarak aşağıdakiler doğrudur :P 2 ( h | D ) P ( x ) n
Tüm hedef fonksiyonlar üzerinde eşit ortalamalar ,
Herhangi bir sabit eğitim seti , , üzerinden eşit ortalama
Bölüm 1 aslında diyor
2. Bölüm aslında diyor
Sorularım
- formülünde , yani ı yerine ile ve toplam dışına hareket , bu bir dağılım gerçekten çünkü boyunca verilen için stokastik öğrenme algoritması inci?
- Göz önüne alındığında aday öğrenme algoritması inci neden formülde, bir stokastik yöntemdir , üzerinde hiçbir toplamı yoktur , yani ?
Nasılsın ve birbirinden farklı?
Does Bir eğitim seti verildi dışı eğitim hata oranı ortalama ?
Does bir eğitim boyutu verilen tüm eğitim seti üzerinde ortalama dışı eğitim hata oranı, ortalama ? Cevabınız evet ise, NFL teoremindeki 1. bölüm neden yazarak eğitim setlerine göre ve neden , eğitim büyüklüğü verildiğinde tüm eğitim setlerine göre ortalama yoktur ?
- NFL teoreminin 1. bölümünde , sabit bir eğitim boyutu olan tüm eğitim setlerinin toplamı anlamına geliyor ?
- Eğer bölüm 1'deki eğitim boyutu daki tüm olası değerler üzerinde daha fazla özetlenirse , sonuç hala 0 olur, değil mi?
- Formül içinde , bir değiştirme durumunda üzere örneğin, zorunlu eğitim seti dışında sınırlı değildir, olacak her iki parça içinde NFL teoremi hala doğru mu?
- ve arasındaki gerçek ilişkinin olarak belirleyici bir işlev olduğu varsayılırsa , bunun yerine koşullu dağılımlar veya buna eşdeğer olan bir ortak dağılım bilerek ve (ayrıca bkz benim başka bir soru , o zaman değiştirebilir)
olmak (garip bölüm 1 ve 2'de gösterilmiştir). NFL teoremindeki iki parça hala doğru mu?
Teşekkürler ve saygılar!