Doğrusal bir model için , büzülme terimi her zaman .P ( β )
Önyargı (engelleme) terimini küçültmememizin nedeni nedir ? Yapay sinir ağ modellerinde yanlılık terimini küçültmeli miyiz?
Doğrusal bir model için , büzülme terimi her zaman .P ( β )
Önyargı (engelleme) terimini küçültmememizin nedeni nedir ? Yapay sinir ağ modellerinde yanlılık terimini küçültmeli miyiz?
Yanıtlar:
İstatistiksel Öğrenmenin Elementleri Hastie ve ark. Çıkıntı regresyonunu aşağıdaki gibi tanımlayın (Bölüm 3.4.1, denklem 3.41): yani açıkça kesişme terimini sırt cezalarından hariç tut . β 0
Sonra yazıyorlar:
[...] ceza süresinin dışında kaldığına dikkat edin. Müdahalenin cezalandırılması işlemi prosedürü için seçilen kökene bağlı hale getirir ; yani, hedeflerinin her birine sabit bir eklemek , tahminlerin aynı miktarında değişmesine neden olmaz . Y c y i c
Gerçekten de, sabit terimi mevcudiyetinde ilave tüm sadece yol açacaktır artan de ve buna karşılık olarak tüm tahmin değerleri da artacak . Kesişme cezalandırılmış, bu doğru değildir: daha az artması gerekir .y i β 0 C y ı c β 0 C
Aslında, doğru (lisanssız) bir kesişim terimi olmasına bağlı olan lineer regresyonun hoş ve kullanışlı birkaç özelliği vardır. Örneğin, ortalama değeri ve ortalama değeri eşittir ve (sonuç olarak) karesi çoklu korelasyon katsayısı , tayin katsayısına eşittir : bakınız örneğin, bu konuya Bir açıklama: Çoklu korelasyon katsayısı ve belirleme katsayısının geometrik yorumu .y ı R R ' 2 ( R ) 2 = cos 2 ( y , y ) = ‖ y ‖ 2R,R '2
Müdahalenin cezalandırılması artık hepsinin doğru olmamasına yol açacaktır.
Büzülme veya düzenlenme amacını hatırlayın. Öğrenme algoritmasının eğitim verilerinin üzerine gelmesini veya eşdeğerde olmasını engellemek - keyfi olarak büyük parametre değerlerini seçmekten kaçınmaktır. Bu, gürültünün varlığında az sayıda eğitim örneği olan veri setleri için daha muhtemeldir (gürültü varlığı ve etkisi hakkında çok ilginç tartışmalar Yaser Abu-Mustafa tarafından "Veriden Öğrenme" de tartışılmıştır). Gürültülü verilerde, düzenli bir hale getirme olmadan öğrenilen bir model muhtemelen görünmeyen bazı veri noktalarında kötü performans gösterecektir.
Bunu akılda tutarak, iki sınıfta sınıflandırmak istediğiniz 2B veri noktalarına sahip olduğunuzu hayal edin. Önyargı parametrelerinin dışındaki her şeyin düzeltilmesi, önyargı terimini değiştirmek, sınırı yalnızca yukarı veya aşağı doğru hareket ettirir. Bunu daha yüksek boyutlu bir uzaya genelleyebilirsiniz.
Öğrenme algoritması, önyargı terim için keyfi olarak büyük değerler koyamaz, çünkü bu büyük olasılıkla brüt zarar değerine yol açar (model eğitim verilerine uymaz). Başka bir deyişle, bir eğitim seti verildiğinde, siz (veya bir öğrenme algoritması) uçağı keyfi olarak gerçek olandan uzağa taşıyamazsınız.
Bu nedenle, önyargı terimini küçültmek için hiçbir neden yoktur, öğrenme algoritması aşırı uyarma riski olmadan iyi olanı bulacaktır.
Son bir not: Bazı yazılarda, sınıflandırma için yüksek boyutlu alanlarda çalışırken, yanlılık terimini modellemenin kesin bir gerekliliği olmadığını gördüm. Bu, doğrusal olarak ayrılabilir veriler için işe yarayabilir çünkü daha fazla boyut eklendiğinde, iki sınıfı ayırmak için daha fazla olasılık vardır.
Kesişim terimi kesinlikle büzülmeye karşı bağışık değildir. Genel "büzülme" (yani normalleştirme) formülasyonu, normalleştirme terimini kayıp fonksiyonuna koyar, örneğin:
Nerede genellikle Lebesgue normuna ilgili edilir ve kontrolleri ne kadar kilo biz büzülme vadede koymak bir skalerdir.λ
Büzülme terimini bu gibi kayıp fonksiyonuna koyarak , modeldeki tüm katsayıları etkiler . Sorunuzun, ( ) dahil tüm katsayıların bir vektörü olduğu gösterimi ile ilgili bir karışıklıktan kaynaklandığından şüpheleniyorum . Sizin lineer model muhtemelen daha iyi olarak yazılabilir olur hangi bunu bir sütun ile veri demek "tasarım matrisi" dir sol tarafta eklenen (yakalamayı almaya ).P ( β ) β 0 y = X β + ϵ X 1 ′ s
Şimdi sinir ağlarının düzenlenmesi ile konuşamam. Yapay sinir ağları için önyargı teriminin küçülmesinden kaçınmak ya da yukarıda açıklanan formülasyondan farklı olarak düzenli kayıp işlevini tasarlamak isteyebilirsiniz. Sadece bilmiyorum Ancak, ağırlıkların ve önyargı şartlarının birlikte düzenlendiğinden şüpheleniyorum.