Bir P (Y | X) modeli, P (X) 'nin iid olmayan örneklerinden ve P (Y | X)' nin iid örneklerinden stokastik eğim alçalması ile eğitilebilir mi?


10

Bazı veri setlerinde stokastik eğim alçalması ile parametreli bir model (örn. Olasılığı en üst düzeye çıkarmak için) eğitilirken, eğitim örneklerinin eğitim veri dağıtımından alındığı yaygın olarak kabul edilir. Dolayısıyla, bir ortak dağıtım modellemekse , her bir eğitim örneği bu dağıtımdan çıkarılmalıdır.( x i , y i )P(X,Y)(xi,yi)

Amaç bunun yerine bir koşullu dağılım modellemekse, eğer iid şartı nasıl değişir?P(Y|X)

  1. Ortak dağıtımdan her bir örneği yine mi çizmeliyiz?(xi,yi)
  2. Biz çizmek mı gelen IID , daha sonra çizmek gelen IID ? P ( X ) y ixiP(X)yiP(Y|X)
  3. dan iid değil çizebilir miyiz (örn. Zamanla ilişkili), sonra dan iid çizebilir ?xiP(X)yiP(Y|X)

Stokastik degrade iniş için bu üç yaklaşımın geçerliliği hakkında yorum yapabilir misiniz? (Veya gerekirse soruyu yeniden söylememe yardımcı olun.)

Mümkünse # 3 yapmak istiyorum. Uygulamam takviye öğreniminde, burada kontrol politikası olarak parametreli bir koşullu model kullanıyorum. Devletlerin dizisi derece ilişkilidir, ancak eylemleri devlet şartına bir stokastik politikasından istatistiksel bağımsız örneklenir. Elde edilen örnekler (veya bunların bir alt kümesi), politikayı eğitmek için kullanılır. (Başka bir deyişle, bir ortamda uzun bir süre kontrol politikası uyguladığınızı, bir durum / eylem örnekleri veri kümesi topladığınızı düşünün. Daha sonra durumlar zamanla ilişkilendirilmiş olsa da, eylemler duruma göre bağımsız olarak üretilir.) Bu, bu makaledeki duruma biraz benzemektedir .xiyi(xi,yi)

İlk başta alakalı görünen bir makale, Ryabko, 2006, " Koşullu Bağımsız Veri için Desen Tanıma "; ancak, durum ihtiyacım tersine çevrilir, burada (etiket / kategori / eylem) den değil çekilebilir ve (nesne / desen / durum) çizilir) .yix i P ( X | Y )P(Y)xiP(X|Y)

Güncelleme: Ryabko gazetesinde bahsedilen iki makale ( burada ve burada ) burada alakalı görünmektedir. Onlar varsayalım (örneğin muhtemelen IID durağan olmayan verilmez) keyfi bir süreç geliyor. Bu durumda en yakın komşu ve çekirdek tahmincilerinin tutarlı olduğunu gösteriyorlar. Fakat ben bu durumda stokastik gradyan kökenli temelli tahminin geçerli olup olmadığı konusunda daha fazla ilgileniyorum.xi


1
Belki bir şey eksik ve kağıdı okumadım, ama: dan non-iid çiziyorsunuz ve sonra den iid örnekleniyorsunuz . (2006) den non-iid çekiyor ve sonra den iid örnekliyor . Bunlar yeniden adlandırma ile aynı görünüyor. ve nesneleri hakkında bu durumu aynı kılan temelde farklı bir şey var mı ? xiP(X)yiP(YX)yiP(Y)xiP(XY)xy
Dougal

@Dougal: Fark koşullu rasgele alanlar, tedavi gibi o koşullu dağılım modelleri vardır ve farklı ... onlar sadece bir yönünü (modellemek ( "girişler" ve "çıkışlar") fakat ). XYP(Y|X)P(X|Y)
Tyler Streeter

2
Bu durumda aşağıdaki benzetmeyi düşünürüm. Diyelim ki ve birbiriyle ilişkili iki zaman serisidir (zamanla korelasyon). bulmaya eşdeğer bir fonksiyonunu bulmak . Eğer , kalıntı olduğu, bir meyil olmaksızın, daha sonra tahmin prosedürü yakınlaşıyor IID (dolayısıyla sabit ve ilişkisiz) 'dir. Temel olarak zaman serilerini zaman sırasına göre veya herhangi bir rastgele sıraya göre işlemek, koşullu olasılık doğru olarak belirtildiği ve artıklar IID olduğu sürece bir MLE prosedüründe önemli olmamalıdır. X i Y i = f ( X i ; θ ) P ( Y i | X i ; θ ) P ( Y i | X i ; θ )YiXiYi=f(Xi;θ)P(Yi|Xi;θ)P(Yi|Xi;θ)
Çağdaş Özgenç

Yanıtlar:


1

2 ya da 3 yapabileceğinizi düşünüyorum. Bununla birlikte, 3 ile ilgili sorun, X için rasgele dağıtımlara izin verirken, konsantre olma olasılığının tamamına ya da tamamına yakınına sahip olan dağılımları x-uzayında küçük bir aralık olmasıdır. Bu, P'nin (Y | X) genel tahminini incitecektir, çünkü belirli X değerleri için çok az veriniz veya hiç verileriniz yoktur.


3 numaralı yaklaşımla potansiyel olarak yüksek varyansla tarafsız bir sonuç alacağımı mı söylüyorsunuz?
Tyler Streeter

X noktasında veya yakınında veri yoksa, P (Y | X = x ) değerini bile tahmin edemezsiniz ve yalnızca birkaç nokta varsa tahminin varyansı büyük olur. 111
Michael R.Chernick

Evet, bu varyansın büyük olabileceği anlamına gelir. Sanırım asıl endişem tahmin edilen P (Y | X) 'un taraflı olup olmayacağı.
Tyler Streeter

Bir nokta tahmini tartışmadık. P (X), P (Y) ve P (X | Y) için tarafsız tahminleriniz varsa ve bunları P (Y | X) = P (X | Y) P (Y) / P (X) formülüne takın. önyargılı bir tahmin alacaksınız.
Michael R.Chernick

Stokastik gradyan kökenli P (Y | X) tahmininden bahsettiğimi vurgulamalıyım, bu durumda eğitim örneklerinin sırası ne kadar hızlı veya doğru modele yakınsamayı etkileyebilir. Sadece örneklerin sıralaması önemli değil, örnek ortalamaları kullanmıyorum.
Tyler Streeter
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.