Sinir ağları bir işlev veya olasılık yoğunluk işlevi öğrenir mi?


19

Soru biraz garip gelebilir çünkü istatistiksel çıkarımda ve sinir ağlarında yeniyim.

Sinir ağlarını kullanan sınıflandırma problemlerinde girişlerinin alanını çıkışlarının alanıyla eşleştiren fonksiyonunu öğrenmek istediğimizi söylüyoruz : x yfxy

f(x;θ)=y

Parametreleri ( ) doğrusal olmayan bir işlevi modellemek veya bir olasılık yoğunluk işlevini modellemek için mi takıyoruz?θ

Soruyu nasıl daha iyi yazacağımı gerçekten bilmiyorum. Her iki şeyi de birkaç kez okudum (olasılık yoğunluk fonksiyonu ya da bunun gibi fonksiyon) bu yüzden karışıklığım.

Yanıtlar:


15

Açıkçası, sinir ağları doğrusal olmayan bir fonksiyona uymaktadır.

Uygun aktivasyon fonksiyonları seçilirse ve belirli koşullara uyulursa, olasılık yoğunluk fonksiyonuna uymak olarak yorumlanabilirler (Değerler pozitif olmalı ve 1 vb.). Ancak bu, gerçekte ne yaptıklarını değil, çıktılarını nasıl yorumlamayı seçtiğinizle ilgilidir. Başlık altında, hala PDF tahmini özel sorununa uygulamayı seçtiğiniz doğrusal olmayan fonksiyon tahmin edicileridir.


3
@sdiabr aslında olmaz bir pdf simüle etmek ağını isteseydi eşiği kullanmak - pdf o basit sınıflandırıcı olur eşik ile 1 ve 0'a yanı sıra başka değerlere sahip olabilir çünkü.
Skander H.

2
Bu bakmak için doğru yolu eşikleme bir sorun olduğudur dış ağdan öğrenilen tasarruflar elde edebilirsiniz. Bu ayrımı gözetmemek, ML'nin gerçek dünya sorunlarına uygulanmasında birçok soruna neden olur.
Matthew Drury

1
Evet tamam, anladım. Yani eşikleme hakkında unutmak, o zaman ben bir pdf modelleme olurdu? Sanırım eşikle kafam karıştı çünkü Bernouilli dağılımını modelleme hakkında bir şeyler okudum. Ancak, eşik olmadan, bu zaten Bernoilli değil mi? Sigmoid aktivasyon fonksiyonuna sahip tek bir çıkış düğümü olması durumunda, p veya (1-p) olasılığı ile 0 veya 1 çıkışı olur
sdiabr

1
Evet, tekrar kafam karıştı, teşekkürler @CagdasOzgenc. Tekrar deneyelim: Çıktı katmanında sigmoid işlevini kullanarak doğrudan bir pdf modelliyoruz, değil mi? her hangi bir dağılımı takip etmeyi öğrenebilir.
sdiabr

2
Bununla birlikte, bilinmeyen katsayıların olasılık dağılımını öğrenmiyorsunuz, bu nedenle posterior prediktif dağılımı öğrenmiyorsunuz.
Küstah Denge

11

Genellikle Yapay Sinir Ağları tam olasılık yoğunluklarını modellemek için kullanılmaz. Odak noktaları sadece bir dağılımın ortalamasını modellemek (veya deterministik bir durumda sadece doğrusal olmayan bir işlev). Bununla birlikte, Yapay Sinir Ağları üzerinden tam olasılık yoğunluklarını modellemek çok mümkündür.

Bunu yapmanın kolay bir yolu, örneğin bir Gauss davası için, bir çıktıdan ortalamanın ve ağın başka bir çıktısından ve daha sonra işlevinin bir parçası olarak en aza indirilmesidir . ortak kare hatası yerine eğitim süreci. Bu bir Sinir Ağı için maksimum olabilirlik prosedürü.logN(y|x;μ,σ)

Bu ağı bir değeri giriş olarak her eklediğinizde size ve , sonra üçlüsünü yoğunluğuna . istediğiniz herhangi bir için yoğunluk değerini elde etmek için . Bu aşamada , gerçek bir alan adı kaybı işlevine göre hangi değerini kullanacağınızı seçebilirsiniz . Akılda tutulması gereken bir şey söz konusu değildir çıktı aktivasyonu böylece yayarlar ki sınırlanmayan edilmelidir için ise pozitif bir tek aktivasyon olmalıdır.xμσy,μ,σf(y|x)N(μ,σ)yyμinf+infσ

Genel olarak, peşinde olduğumuz belirleyici bir işlev olmadıkça, sinir ağlarında kullanılan standart kare kaybı eğitimi, yukarıda tarif ettiğim prosedürle hemen hemen aynıdır. Kaputun altında bir dağılımı önemsemeden dolaylı olarak varsayılır ve dikkatlice incelerseniz size kare kaybı için bir ifade verir ( Gauss maksimum olasılığının kayıp fonksiyonu) tahmincisi ). Ancak bu senaryoda, beğeninize bir değeri yerine, yeni bir değeri verildiğinde her seferinde yayarsınız .GaussianσlogN(y|x;μ,σ)yμx

Sınıflandırma için çıktı, yayılacak tek bir parametreye sahip olan bir yerine dağılımı olacaktır . Diğer cevapta belirtildiği gibi, bu parametre ile arasındadır, böylece çıkış aktivasyonu buna göre olmalıdır. Lojistik bir işlev veya aynı amaca ulaşan başka bir şey olabilir.BernoulliGaussian01

Daha sofistike bir yaklaşım, Bishop'un Karışım Yoğunluğu Ağlarıdır. Bu konuda sık başvurulan makalede okuyabilirsiniz:

https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf


Ah beni ona vurdun Bishop Bishop'ın MDN'lerine atıfta bulunmak istedim ... Sinir Ağları'nı pdf'lerin çıktısını almanın başka bir yolu da var, elbette Bayesci paradigması. Bunun üzerine bir cevap yazacağım.
DeltaIV

Karışım yoğunluğu ağları hakkında bir başka eğlenceli makale, sörf koşullarını tahmin etmek için kullanıldı: icml.cc/Conferences/2005/proceedings/papers/…
Matthew Drury

"Tüm üçlü y, μ, σ" değerini "tüm üçlü x, μ, σ" olarak değiştirmeli mi?
moh

@moh no. x verilir ve yoğunlukta görünmez.
Çağdaş Özgenç

1

Muhalif cevabım, en etkileyici pratik uygulamalarda (örneğin, medyada en fazla kapsama sahip oldukları yerlerde) ne işlev ne de olasılıklar olduğudur. Stokastik karar verme sürecini uygularlar.

Yüzeyde NN sadece fonksiyona uyuyor gibi görünüyor, evrensel yaklaşık referansı kuyruğa alıyor . Bazı durumlarda, bazı etkinleştirme işlevleri ve Gauss hataları gibi belirli varsayımlar kullanıldığında veya Bayes ağlarındaki kağıtları okuduğunuzda, NN'nin olasılık dağılımları üretebileceği görülmektedir.

Ancak, bu sadece bu arada. NN'nin yapması planlanan karar modelini modellemektir. Bir araba AI tarafından sürüldüğünde, NN, önünde bir nesne olması olasılığını hesaplamaya çalışmaz, daha sonra bir insan olma olasılığını hesaplamak için bir nesne olduğu göz önüne alınır. Ne de sensör girişlerinin çeşitli nesnelerle eşleşmesini hesaplamıyor. Hayır, NN'nin yana doğru yönlendirmek veya aracı sürmeye devam etmek için tüm girdilere dayanarak bir karar vermesi bekleniyor. Olasılığı hesaplamıyor, arabaya ne yapacağını söylüyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.