Bayesian Hiyerarşik Doğrusal Model ile uğraşıyorum , burada onu tanımlayan ağ.
, bir süpermarketteki bir ürünün günlük satışlarını temsil eder (gözlemlenir).
, fiyatlar, promosyonlar, haftanın günü, hava durumu, tatiller dahil olmak üzere bilinen bir gerileme matrisidir.
1 , her bir ürünün bilinmeyen gizli envanter seviyesidir, bu da en çok soruna neden olur ve ikili değişkenlerin bir vektörünü göz önünde bulundurduğum, her ürün için stoklama ve dolayısıyla ürünün kullanılamaması olan bir ürün. Teorik olarak bilinmese bile, her ürün için bir HMM ile tahmin ettim, bu yüzden X olarak bilinir. Sadece uygun formalizm için gölgelikten çıkarmaya karar verdim.
, dikkate alınan karışık etkilerin ürün fiyatı, promosyonlar ve stoklar olduğu tek bir ürün için karışık efekt parametresidir.
b 1 b 2 , sabit regresyon katsayılarının vektörü, ve ise karışık etki katsayısının vektörleridir. Bir grup markayı , diğeri lezzeti gösterir (bu bir örnektir, gerçekte birçok grubum var, ancak burada netlik için sadece 2 rapor ediyorum).
Σ b 1 Σ b 2 , ve , karışık efektler üzerinde hiperparametrelerdir.
Sayım verilerine sahip olduğum için, her ürün satışını Regresörlere koşullu olarak dağıtılmış Poisson olarak ele aldığımı varsayalım (bazı ürünler için Lineer yaklaşım tutarken ve diğerleri için sıfır şişirilmiş model daha iyi olsa bile). Böyle bir durumda bir ürün için olurdu ( bu sadece bayes modelinin kendisi ile ilgilenen için, ilginç veya önemsiz bulursanız soruya atlayın :) ):
α 0 , γ 0 , α 1 , γ 1 , α 2 , γ 2 , biliniyor.
Σ β , biliniyor.
,
içinde içinde k ∈ 1 , … , m 2
X p p s i I W Z i Z i = X i σ i j i j 2 grup için karışık etki matrisi, ürünün fiyatını, tanıtımını ve stoklamasını göz önünde bulundurur. , genellikle normal çok değişkenli önceliklerin kovaryans matrisleri için kullanılan ters Wishart dağılımlarını belirtir. Ama burada önemli değil. Olası bir örneği tüm fiyatların matrisi olabilir, hatta . Karışık etkiler varyans-kovaryans matrisi için öncelikler ile ilgili olarak, sadece girişler arasındaki korelasyonu korumaya çalışacağım, böylece ve aynı markanın veya her ikisinden birinin ürünleri ise pozitif olurdu aynı lezzet.
Bu modelin arkasındaki sezgi, belirli bir ürünün satışının fiyatına, kullanılabilirliğine veya olmamasına değil, aynı zamanda diğer tüm ürünlerin fiyatlarına ve diğer tüm ürünlerin stoklarına da bağlı olması olacaktır. Tüm katsayılar için aynı modele (okuma: aynı regresyon eğrisi) sahip olmak istemediğim için, verilerimde bulunan bazı grupları parametre paylaşımı yoluyla kullanan karışık efektler ekledim.
Sorularım:
- Bu modeli sinir ağı mimarisine aktarmanın bir yolu var mı? Bayes ağı, markov rasgele alanlar, bayes hiyerarşik modelleri ve sinir ağları arasındaki ilişkileri arayan birçok soru olduğunu biliyorum, ama bayes hiyerarşik modelinden sinir ağlarına giden bir şey bulamadım. Sinir ağları ile ilgili soruyu soruyorum, çünkü sorunumun yüksek bir boyutluluğuna sahipim (340 ürünüm olduğunu düşünün), MCMC aracılığıyla parametre tahmini haftalar alıyor (runJags'de paralel zincirler çalıştıran 20 ürün için denedim ve günler sürdü) . Ama rastgele gitmek ve sadece sinir kutusu ağına kara kutu olarak veri vermek istemiyorum. Ağımın bağımlılık / bağımsızlık yapısından yararlanmak istiyorum.
Burada sadece sinir ağı çizdim. Gördüğünüz gibi, önsavının ( ve sırasıyla fiyat ve ürünün yok satma belirtmek olarak olanlardır üstünde gizli katmana inputed edilir) ürün özgü (Burada düşünülen fiyat ve depo çıkışları). S i i (Mavi ve siyah kenarların belirli bir anlamı yoktur, sadece figürü daha net hale getirmekti). Ayrıca ve arasında yüksek korelasyon olabilirkenY 1 Y 2 Y 3Tamamen farklı bir ürün olabilir (2 portakal suyu ve kırmızı şarap hakkında düşünün), ancak bu bilgileri sinir ağlarında kullanmıyorum. Gruplandırma bilgilerinin sadece ağırlık iniziyalizasyonunda kullanılıp kullanılmadığını veya ağın soruna göre özelleştirilebileceğini merak ediyorum.
Fikrimi düzenle:
Benim fikrim şöyle olurdu: Daha önce olduğu gibi, ve birbiriyle ilişkili , tamamen farklı bir ürün. Bunu önceden bilmek 2 şey yapıyorum:Y 2 Y 3
- Gizli katmandaki bazı nöronları sahip olduğum herhangi bir gruba önceden yerleştiriyorum, bu durumda 2 var {( ), ( )}.Y 3
- Girişler ve tahsis edilen düğümler (kalın kenarlar) arasında yüksek ağırlıklar başlatıyorum ve elbette verilerdeki kalan 'rastgele' durumları yakalamak için başka gizli düğümler oluşturuyorum.
yardımınız için şimdiden teşekkür ederim