Bayes Ağlarından Yapay Sinir Ağlarına: çok değişkenli regresyon çok çıkışlı bir ağa nasıl aktarılabilir

Bayesian Hiyerarşik Doğrusal Model ile uğraşıyorum , burada onu tanımlayan ağ.

$Y$ , bir süpermarketteki bir ürünün günlük satışlarını temsil eder (gözlemlenir).

$X$ , fiyatlar, promosyonlar, haftanın günü, hava durumu, tatiller dahil olmak üzere bilinen bir gerileme matrisidir.

$S$ , her bir ürünün bilinmeyen gizli envanter seviyesidir, bu da en çok soruna neden olur ve ikili değişkenlerin bir vektörünü göz önünde bulundurduğum, her ürün için stoklama ve dolayısıyla ürünün kullanılamaması olan bir ürün. Teorik olarak bilinmese bile, her ürün için bir HMM ile tahmin ettim, bu yüzden X olarak bilinir. Sadece uygun formalizm için gölgelikten çıkarmaya karar verdim. $1$

$\eta$ , dikkate alınan karışık etkilerin ürün fiyatı, promosyonlar ve stoklar olduğu tek bir ürün için karışık efekt parametresidir.

$\beta$ , sabit regresyon katsayılarının vektörü, ve ise karışık etki katsayısının vektörleridir. Bir grup markayı , diğeri lezzeti gösterir (bu bir örnektir, gerçekte birçok grubum var, ancak burada netlik için sadece 2 rapor ediyorum). $b_1$ $b_2$

$\Sigma_{\eta}$ , ve , karışık efektler üzerinde hiperparametrelerdir. $\Sigma_{b_1}$ $\Sigma_{b_2}$

Sayım verilerine sahip olduğum için, her ürün satışını Regresörlere koşullu olarak dağıtılmış Poisson olarak ele aldığımı varsayalım (bazı ürünler için Lineer yaklaşım tutarken ve diğerleri için sıfır şişirilmiş model daha iyi olsa bile). Böyle bir durumda bir ürün için olurdu ( bu sadece bayes modelinin kendisi ile ilgilenen için, ilginç veya önemsiz bulursanız soruya atlayın :) ): $Y$

$\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0)$

$\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1)$

$\Sigma_{b_2} \sim IW(\alpha_2,\gamma_2)$ , biliniyor. $\alpha_0,\gamma_0,\alpha_1,\gamma_1,\alpha_2,\gamma_2$

$\eta \sim N(\mathbf{0},\Sigma_{\eta})$

$b_1 \sim N(\mathbf{0},\Sigma_{b_1})$

$b_2 \sim N(\mathbf{0},\Sigma_{b_2})$

$\beta \sim N(\mathbf{0},\Sigma_{\beta})$ , biliniyor. $\Sigma_{\beta}$

$\lambda _{tijk} = \beta*X_{ti} + \eta_i*X_{pps_{ti}} + b_{1_j} * Z_{tj} + b_{2_k} Z_{tk}$ ,

$Y_{tijk} \sim Poi(exp(\lambda_{tijk}))$

$i \in {1,\dots,N}$ içinde içinde $j \in {1,\dots,m_1}$ $k \in {1,\dots,m_2}$

$Z_i$ 2 grup için karışık etki matrisi, ürünün fiyatını, tanıtımını ve stoklamasını göz önünde bulundurur. , genellikle normal çok değişkenli önceliklerin kovaryans matrisleri için kullanılan ters Wishart dağılımlarını belirtir. Ama burada önemli değil. Olası bir örneği tüm fiyatların matrisi olabilir, hatta . Karışık etkiler varyans-kovaryans matrisi için öncelikler ile ilgili olarak, sadece girişler arasındaki korelasyonu korumaya çalışacağım, böylece ve aynı markanın veya her ikisinden birinin ürünleri ise pozitif olurdu aynı lezzet. $X_{pps_i}$ $IW$ $Z_i$ $Z_i=X_i$ $\sigma_{ij}$ $i$ $j$

Bu modelin arkasındaki sezgi, belirli bir ürünün satışının fiyatına, kullanılabilirliğine veya olmamasına değil, aynı zamanda diğer tüm ürünlerin fiyatlarına ve diğer tüm ürünlerin stoklarına da bağlı olması olacaktır. Tüm katsayılar için aynı modele (okuma: aynı regresyon eğrisi) sahip olmak istemediğim için, verilerimde bulunan bazı grupları parametre paylaşımı yoluyla kullanan karışık efektler ekledim.

Sorularım:

Bu modeli sinir ağı mimarisine aktarmanın bir yolu var mı? Bayes ağı, markov rasgele alanlar, bayes hiyerarşik modelleri ve sinir ağları arasındaki ilişkileri arayan birçok soru olduğunu biliyorum, ama bayes hiyerarşik modelinden sinir ağlarına giden bir şey bulamadım. Sinir ağları ile ilgili soruyu soruyorum, çünkü sorunumun yüksek bir boyutluluğuna sahipim (340 ürünüm olduğunu düşünün), MCMC aracılığıyla parametre tahmini haftalar alıyor (runJags'de paralel zincirler çalıştıran 20 ürün için denedim ve günler sürdü) . Ama rastgele gitmek ve sadece sinir kutusu ağına kara kutu olarak veri vermek istemiyorum. Ağımın bağımlılık / bağımsızlık yapısından yararlanmak istiyorum.

Burada sadece sinir ağı çizdim. Gördüğünüz gibi, önsavının ( ve sırasıyla fiyat ve ürünün yok satma belirtmek olarak olanlardır üstünde gizli katmana inputed edilir) ürün özgü (Burada düşünülen fiyat ve depo çıkışları). $P_i$ $S_i$ $i$ (Mavi ve siyah kenarların belirli bir anlamı yoktur, sadece figürü daha net hale getirmekti). Ayrıca ve arasında yüksek korelasyon olabilirken $Y_1$ $Y_2$ $Y_3$ Tamamen farklı bir ürün olabilir (2 portakal suyu ve kırmızı şarap hakkında düşünün), ancak bu bilgileri sinir ağlarında kullanmıyorum. Gruplandırma bilgilerinin sadece ağırlık iniziyalizasyonunda kullanılıp kullanılmadığını veya ağın soruna göre özelleştirilebileceğini merak ediyorum.

Fikrimi düzenle:

Benim fikrim şöyle olurdu: Daha önce olduğu gibi, ve birbiriyle ilişkili , tamamen farklı bir ürün. Bunu önceden bilmek 2 şey yapıyorum: $Y_1$ $Y_2$ $Y_3$

Gizli katmandaki bazı nöronları sahip olduğum herhangi bir gruba önceden yerleştiriyorum, bu durumda 2 var {( ), ( )}. $Y_1,Y_2$ $Y_3$
Girişler ve tahsis edilen düğümler (kalın kenarlar) arasında yüksek ağırlıklar başlatıyorum ve elbette verilerdeki kalan 'rastgele' durumları yakalamak için başka gizli düğümler oluşturuyorum.

yardımınız için şimdiden teşekkür ederim

— Tommaso Guerrini
kaynak

@Tomasso Guerrini sizin için cevabı burada: stats.stackexchange.com/questions/4498/…

— Anton Danilov

thanks @AntonDanilov, maalesef kabul edilen cevap 'Sinir ağları "grafikler" ile birlikte gelirken genellikle bağımlılık bilgilerini kodlamazlar ve düğümler rastgele değişkenleri temsil etmezler ": /

— Tommaso Guerrini

Eğer denediniz Stan ya da cihazınız sorun için uygulanabilir değil mi? Hamiltonian Monte Carlo, Gibbs örneklemesinden daha hızlı büyüklük emirleri olabilir ve yüzlerce (hatta binlerce) değişkene iyi ölçeklendirilebilir.

— lacerbi

Aynı soruları Stan kullanıcılarının posta listesine göndermeyi denediniz mi? Bir modelin çalışması için genellikle teknik yönlerde son derece yardımcı olurlar. Örneğin, durumunuzdaki sorunların daha iyi bir parametrelendirmeyle çözülmesi mümkündür. ( Hamiltonian Monte Carlo , Gibbs örneklemesinden çok daha hızlı

— karışmalıdır

Muhtemelen bu posta listesini spam ettiğimi söylemek daha iyi .. Bu arada Luigi'ye çok teşekkür ederim .. Gelen bir son teslim tarihim olduğu için sorunları çözmek için daha fazla zamanımın olmadığı bir durumdayım. STAN harika bir araç gibi görünüyor, ancak öğrenme eğrisi inanılmaz performansını gerçekten gerçekleştirmek için biraz dik (şu andan itibaren hızını JAGS ile anladım)

— Tommaso Guerrini

Kayıt için, bunu bir cevap olarak görmüyorum, ama sadece uzun bir yorum! Metal bir çubuktan ısı akışını modellemek için kullanılan PDE (ısı denklemi) opsiyon fiyatlamasını modellemek için de kullanılabilir. Bildiğim hiç kimse, opsiyon fiyatlaması ve ısı akışı arasında bir bağlantı önermeye çalışmadı. Sanırım Danilov'un bağlantısından alıntı aynı şeyi söylüyor. Hem Bayes Grafikleri hem de Sinir Ağları, farklı iç parçaları arasındaki ilişkileri ifade etmek için grafik dilini kullanır. Bununla birlikte, Bayes grafikleri giriş değişkenlerinin korelasyon yapısı hakkında bilgi verir ve bir nöral ağın grafiği giriş işlevinden tahmin fonksiyonunun nasıl oluşturulacağını anlatır. Bunlar çok farklı şeyler.
DL'de kullanılan çeşitli yöntemler en önemli değişkenleri 'seçmeye' çalışır, ancak bu ampirik bir konudur. Ayrıca, tüm değişkenler grubunun ya da kalan değişkenlerin korelasyon yapısı hakkında bilgi vermez. Sadece hayatta kalan değişkenlerin öngörü için en iyi olacağını öne sürer. Örneğin, sinir ağlarına bakarsanız, doğru hatırlarsam 2000 veri noktası ve 5 bağımlı değişken olan Alman kredi veri setine yönlendirilir. Deneme yanılma yoluyla, sadece 1 gizli katmanı olan ve değişkenlerin sadece 2'sini kullanan bir netin tahmin için en iyi sonuçları verdiğini düşünüyorum. Bununla birlikte, bu sadece tüm modelleri inşa ederek ve bağımsız test setinde test ederek bulunabilir.

— meh
kaynak

Aynı modelin farklı veriler üzerinde uygulanmasıyla karşılaştırmanızı almıyorum: burada veriler aynı ve model farklı değil. Dahası, ben zaten bayes posterior çıkarım yoluyla elde edilen bir sinir ağı kullanarak değişkenlerimin korelasyon yapısı üzerinde çıkarım yapmaya çalışmıyorum. Grafik sadece hiyerarşik modelde neler olduğunu resmediyordu, bu yüzden 'grafik dili' şeyini anlamıyorum (Yine de sizi başlıkla yanlış yönlendirmiş olabilirim, ancak akılda kalıcı bir tanesine ihtiyacım vardı: D)

— Tommaso Guerrini

Ve belki de sorunuzu anlamıyorum. Hala iki grafik yapısında kenarların oluşturulma şeklinin birbiriyle hiçbir ilgisi olmadığını düşünüyorum. Bir sinir ağı, belirli bir kenar ve ağırlık kümesiyle tanımlanabilir, ancak böyle bir ağın doğru veya kullanışlı olacağını düşünmek için bir nedeni yoktur. Bir sinir ağı yaratmanın kalbi, verilerin 'doğru' ağırlıkları belirlemesine izin vermek için geri yayılmaya benzer bir şey kullanmaktır.

— meh

"Grafik sadece hiyerarşik modelde neler olduğunu resmetmekti". Bir durumda kovaryans yapısını tanımladığımızı ve modelin bir posterioriyi çok iyi yorumlayabileceğini kabul ediyoruz, diğerinde degrade inişin işi yapmasına izin veriyoruz ve yorumlanmasa bile (benim durumumda olduğu gibi) iyi performanslarla sonuçlanıyor. Sorum şu: performansı tahmin etmeden yorumlanabilirliği korumanın bir yolu var mı? Bu yüzden bunu yığın üzerinde sordum ve bu yüzden düzenlemede bu fikri öneriyorum, fikirler arıyorum. Umarım şimdi size açıktır.

— Tommaso Guerrini

Biri olumsuz kanıtlayamaz, bu yüzden Bayesian Ağlarının grafikleri ile sinir ağlarının grafikleri arasında hiçbir bağlantı olmadığını kesin olarak söyleyemem. Böyle bir bağlantı hakkında hiçbir bilgim olmadığını ve herhangi bir bağlantı hakkında derinden şüpheci olduğumu söyleyebilirim. Sinir ağı için grafik yapısı vermek üzere Bayes ağının grafik yapısını kullanmak mümkün olsa da, sinir ağı açısından bu makul görünmemektedir. Şu anda ayrıntıları çözmek için zamanım yok, ancak bir düşünce deneyi olarak bağımsız değişkenlerin tümünün istatistiki olduğu bir veri kümesi hayal edin

— meh

Şu anda ayrıntıları çözmek için zamanım yok, ancak bir düşünce deneyi olarak, bağımsız değişkenlerin istatistiksel olarak anlamlı olduğu, ancak birbiriyle ilişkili olmadığı bir veri kümesi hayal edin. Örneğin burada mutlak değerde çok büyük ve ağın (doğrusal olmayan) aktivasyon fonksiyonu ile. Y ve z'nin doğrusal olmayan ilişkisi nedeniyle, y ve arasındaki korelasyonun yaklaşık sıfır olması olabilir. Yine de iyi bir modelin parçası olmalılar.

y = \sum x_{i} + \sum z_{i}

$y = \sum x_i + \sum z_i$

z_{i} = A \times σ^{- 1} (x_{i})

$z_i = A \times \sigma^{-1}(x_i)$

σ

$\sigma$

z_{i}

$z_i$

— meh