Bir isimde ne var: hiperparametreler


19

Normal bir dağılımda iki parametremiz var: ortalama μ ve varyans σ2 . Örüntü Tanıma ve Makine Öğrenimi kitabında , aniden hata işlevinin düzenlenme terimlerinde bir hiperparametre görünür λ.

Hiperparametreler nedir? Neden böyle adlandırılıyorlar? Ve genel olarak parametrelerden sezgisel olarak nasıl farklıdırlar?


3
Ben şahsen bunun hipermetrelik bir salgın olduğunu düşünüyorum. Hiper, hiper. Hipersfer - bu bir küre, d @ manit, boyut 3'ü aştığı için çok hiperleşmeyi bırak. Hiperparametre - bu bir parametredir, d @ mnit, sadece birkaçına sahip olduğunuz için hiper olmayı durdurun ve bir şekilde hiyerarşik düzeyi veya bir şeyi gösterir. Her durumda, bir optimizasyon sorununuz varsa, hangi parametrelerin optimize edildiğini ve herhangi bir kısıtlamayı açıkça belirtin (çok düzeyli optimizasyonsa, bunu belirtin). Umarım bu yorumda fazla hiper alamadım.
Mark L. Stone

2
Her zaman "hipersfer" i "eş boyut bir küre" demek için kullandım, bu yüzden en azından matematikte bir şey ifade ediyor gibi görünüyor. Ya da en azından matematik hakkında konuşurken. Şimdi sakinleşeceğim.
Matthew Drury

Yanıtlar:


18

Hiperparametre terimi oldukça belirsizdir. Hiyerarşinin diğer parametrelerinden daha yüksek bir parametreye başvurmak için kullanacağım. Örneğin, bilinen bir varyansı olan bir regresyon modelini düşünün (bu durumda 1)

yN(Xβ,I)

ve daha sonra parametrelerde bir önceki, örn.

βN(0,λI)

Burada , β'nın dağılımını ve β , y'nin dağılımını belirler . Sadece referans vermek istediğimde β parametresini çağırabilirim ve sadece λ'ya bakmak istediğimde hiperparametre diyebilirim.λββyβλ

Parametreler birden çok düzeyde göründüğünde veya daha hiyerarşik seviyeler olduğunda (ve hiperhiperparametreler terimini kullanmak istemiyorsanız) adlandırma daha karmaşık hale gelir. Yazarın bu konuda hiperparametre veya parametre terimini kullandıklarında tam olarak ne anlama geldiğini belirtmesi en iyisidir.


Bu güzel bir açıklama. Şimdi bunu bir 'işlevler-ish bileşimi' olarak görüyorum. Eğer sembollerin ne koymak çevirmek için, Normalde ortalama ile dağıtılan X p , ancak b e t bir sırayla, Normalde falan dağıtılan olduğunu. ThanksyXβbeta
cgo

10

Hiperparametre, tamamen veya kısmen diğer parametreleri etkileyen bir parametredir. Karşılaştığınız optimizasyon problemini doğrudan çözmezler, aksine problemi çözebilecek parametreleri optimize ederler (bu nedenle hiper , çünkü optimizasyon probleminin bir parçası değildir, ancak "eklentiler" dir). Gördüğüm için, ancak referansım yok, bu ilişki tek yönlüdür (bir hiperparametre, üzerinde etkisi olan parametrelerden, dolayısıyla hiperden etkilenemez ). Genellikle normalleştirme veya meta optimizasyon şemalarında kullanılırlar.

Örneğin, parametreniz , düzenleme maliyetini ayarlamak için μ ve σ'yı serbestçe etkileyebilir (ancak μ ve σ'nın λ üzerinde hiçbir etkisi yoktur ). Böylece λ , μ ve σ için bir hiperparametredir . Eğer ek bir olsaydı t alınmak etkileyen parametre  , bu bir hyperparameter olacağını  ve bir hyperhyperparameter ^ ı ve σ (ama bu isimlendirilmesi görmedim, ama onu görürsem yanlış olur hissetmez ki) .λμσμσλλμστλλμσ

Hiperparametre kavramını çapraz doğrulama için çok yararlı buldum, çünkü size parametrelerin hiyerarşisini hatırlatıyor, aynı zamanda hala (hiper-) parametrelerini değiştiriyorsanız hala çapraz doğrulama yaptığınızı ve genellemediğinizi hatırlatıyor. Sonuçlarınıza dikkat edin (dairesel düşünmeden kaçınmak için).


7

Diğer açıklamalar biraz belirsiz; İşte bunu açıklığa kavuşturması gereken daha somut bir açıklama.

Hyperparameters modelinin parametrelerdir sadece , değil modellenen fiziksel sürecin. Sonlu veri ve / veya sonlu hesaplama zamanı varlığında modelinizin "çalışması" için "yapay" olarak tanıtırsınız . Bir şeyi ölçmek veya hesaplamak için sonsuz bir gücünüz olsaydı, modelinizde artık hiperparametreler bulunmayacaktı, çünkü gerçek sistemin herhangi bir fiziksel yönünü tanımlamayacaklardı.

Diğer taraftan, düzenli parametreler fiziksel sistemi tanımlayan ve sadece yapayları modellemeyen parametrelerdir.


6

Bu kesin olarak tanımlanmış bir terim değil, bu yüzden size ortak kullanımla tutarlı görünen başka bir tanım vereceğim.

Hiperparametre, son öngörücü fonksiyonun fonksiyonel formuna katılmayan bir makine öğrenme algoritmasında tahmin edilen bir miktardır.

Bir örnekle sırt regresyonunu gevşetmeme izin verin. Sırt regresyonunda aşağıdaki optimizasyon problemini çözüyoruz:

β = argmin λ ( y - X β ( λ ) ) t ( y - X Β ( λ ) )

β(λ)=argminβ((yXβ)t(yXβ)+λβtβ)
β=argminλ(yXβ(λ))t(yXβ(λ))

İlk problemde X,yX,y olan

f(X)=Xβ

λβλ


3

@Jaradniemi tarafından açıkça belirtildiği gibi, hiperparametre teriminin bir kullanımı genellikle koşullu olasılık ifadelerini kullanarak, biri diğerinin üzerine / altına inşa edilmiş bir istatistiksel model kaskadına sahip olduğunuz hiyerarşik veya çok düzeyli modellemeden gelir.

Ancak aynı terminoloji, farklı anlamlara sahip başka bağlamlarda da ortaya çıkar. Örneğin, hiperparametre teriminin çok düzeyli bir modelden elde edilmeyen stokastik bir modelin simülasyon parametrelerini (çalışma uzunluğu, bağımsız çoğaltma sayısı, her çoğaltmadaki etkileşen parçacık sayısı vb.) İfade etmek için kullanıldığını gördüm. modellemesi.


1
FWIW Tipik olarak çalışma uzunluğu, etkileşen parçacık sayısı, vb. Ayar parametreleri olarak adlandırılır.
jaradniemi

Katılıyorum. Bana göre hiperparametrelerden daha uygun bir seçim. Yine de, başkalarına, diğer bilgi alanlarında, hala yeterince makul geliyordu.
Marcelo Ventura
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.