Makine öğrenimi probleminin regresyon çerçevesine çevrilmesi


12

I , için açıklayıcı değişkenlerinin bir panelinin yanı sıra ikili sonucuna bağlı değişkenlerin bir vektörüne sahip olduğunu . Bu nedenle , daha önceki bir zamanda değil , yalnızca son zamanında gözlenir . Tamamen genel durum, her seferinde her birim için için birden fazla , ama kısalık için durumuna odaklanalım . i = 1 . . . N t = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1Xiti=1...Nt=1...TYiTYTXijtj=1...KitK=1

Zamansal korelasyonlu açıklayıcı değişkenlere sahip bu tür "dengesiz" çiftlerinin uygulamaları, örneğin (günlük hisse senedi fiyatları, üç aylık temettüler), (günlük hava raporları, yıllık kasırgalar) veya (her hareketten sonra satranç pozisyonu özellikleri, oyunun sonu).(X,Y)

tahmini yapmak için (muhtemelen doğrusal olmayan) regresyon katsayıları ile , eğitim verilerinde, için erken gözlemleri verildiğinde , bunun nihai sonuca yol açtığınıβt X i t t < T Y i TYitXitt<TYiT

Y^it=f(k=1tXikβk),t=1...T

Bir ekonometri geçmişinden geldiğimde, bu tür verilere uygulanan fazla regresyon modellemesi görmedim. OTOH, bu verilere aşağıdaki makine öğrenme tekniklerinin uygulandığını gördüm:

  1. veri kümesinin tamamında denetimli öğrenme yapmak , örneğin en aza indirmek

i,t12(Yitf(Xitβt))2

gözlemlenen önceki tüm noktalara basitçe tahmin ederek / engelleyerekY

YitYiT,t=1...T1

Bu "yanlış" hissettirir çünkü zaman içindeki farklı noktalar arasındaki zamansal korelasyonu dikkate almayacaktır.

  1. ve discount parametresi öğrenme parametresi ile zamansal fark gibi takviye öğrenimi yapmak ve başlayarak geri yayılım yoluyla için özyineli olarak çözmeλ β t t = Tαλβtt=T

Δβt=α(Y^t+1Y^t)k=1tλtkβY^k

ile gradyanı ile ilgili olarak . f ( ) ββY^f()β

Bu daha "doğru" gibi görünüyor çünkü geçici yapıyı dikkate alıyor, ancak ve parametreleri bir tür "ad hoc".λαλ

Soru : Yukarıdaki denetimli / güçlendirici öğrenme tekniklerinin klasik istatistik / ekonometride kullanılan bir regresyon çerçevesine nasıl eşleştirileceğine dair literatür var mı? Özellikle, (doğrusal olmayan) en küçük kareler veya maksimum olabilirlik yaparak "tek seferde" (yani tüm eşzamanlı olarak) parametrelerini tahmin edebilmek istiyorum gibi modellerde t = 1 ... Tβtt=1...T

YiT=f(t=1TXitβt)+ϵi

Ayrıca, ve meta-parametrelerini öğrenmenin zamansal farkının maksimum olabilirlik formülasyonundan kurtarılıp kurtarılamayacağını öğrenmek isterim .λαλ


Üçüncü paragraftaki formülasyonu açıklığa kavuşturabilir misiniz? Sen tahmin etmek istediğinizi yazmak dan , , ancak aşağıdaki formül ne yapacağı tahmin istediğini, . X i t t < T Y i tYiTXitt<TYit
NRH

@NRH aslında, sadece gözlemliyorum , ancak literatürde gözetimli öğrenme ile ilgili olarak gördüğüm şey , gözlemlenmeyen eşit olmasını ve sonra açıklamak için uygun yapmalarıdır. den bu sahte (bu, oyunun nihai sonucuna her pozisyon için bir değerlendirme fonksiyonunun yerleştirildiği oyun oynama uygulamalarında yapılır). Bu benim ilk formülasyonumdan net değilse üzgünüm. Her durumda, , gözlemlenen olaylar göz önüne alındığında tahmin edilen "sonuç" (oyun uygulamalarında) olacaktır . , Y ı t Y i T Y ı t X ı t -Y ı t X ı tYiTYitYiTYitXitY^itXit
TemplateRex

Düzeni ve gözlemlediklerinizi anlıyorum, ancak sorudaki formülasyonunuz belirsiz. tahmin etmek için bir model mi eğitmek istiyorsunuz , yoksa formüllerin önerdiği gibi tüm için tahmin etmek için bir model mi eğitmek istiyorsunuz ? Belki de sadece bir yazım hatasıdır. Eğer yazarken "... tahmini ait ..." demek istiyorsun "... tahmini ait ..."? Y i t t Y i T Y i tYiTYittYiTYit
NRH

bunu neden yapmak istediğiniz belli değil. Eğer gerçek pratik uygulamayı açıklayabilirseniz daha net cevaplar alabilirsiniz. Genel olarak, her bir zaman için en iyi tahmin, her bir t için ayrı ayrı mevcut verileri üzerinde gerilemesi yapmak olacaktır . Eşzamanlı bir yaklaşımın herhangi bir faydası olduğu açık değildir. Veri kümeniz için istatistiksel modeli belirtmeniz gerektiğini düşünüyorum ve belki de faydaları daha açık olacaktır. X 1 , , X tYTX1,,Xt
seanv507

@NRH, evet, tahmin etmek istiyorum den o sonucun neden bilerek Ben de gözlemlemek nerede test verileri için en uygun eylemleri için, eğitim verisinde ancak sonucu henüz gözlemlememiştir. Formülasyonumu güncelleyeceğim. X i t Y i T X i tYitXitYiTXit
TemplateRex

Yanıtlar:


1

Sorunun açıklaması benim için tamamen açık değil, bu yüzden bazı varsayımları tahmin etmeye çalışıyorum. Bu, sorunuza cevap vermezse, en azından sorunları daha iyi açıklığa kavuşturmaya yardımcı olabilir.

Benim için net olmayan ilk şey, tahmininizi dayandırmak istediğiniz verilerdir. Eğer tahmin etmek isterseniz dek gözlenen verilere dayalı t < T bu yani gelecek verilerini kullanmak olacağından ardından yöntemde 2'deki gibi bir özyinelemeli yaklaşım mantıklı değil X τ ile τ > t .YTt<TXττ>t

İkincisi, tahmin ettiğiniz özelliklerinin ne olacağını belirtmezsiniz. Genel olarak, bilgi verilir X 1 , ... , x t zamanında t < t koşullu beklenen Y'nin t = E [ Y T | X 1 , ... , x t ] "en iyi tahmin" olduğu , Y T L2 anlamda. Koşullu beklentiyi gerçekten tahmin etmek istiyorsanız, normal en küçük kareler pratik tahmin için tercih edilen yöntemdir.YtX1,,Xtt<TYt=E[YTX1,,Xt]YT

Dahası, dayalı regresyon tarafından yansıtılmayan korelasyonlar hakkındaki görüşünüzü anlamıyorum . Bu kadar bildiğiniz her şeyi içeriyor t gözlemleriniz arasındaki korelasyon dahil.X1,,Xtt

Bunu özetlemek ve bir cevap olarak ifade etmek: Eğer L2 anlamda en uygun tahmini yapmak istiyorsanız, sadece kadar gözlemlenen verilere dayanarak en küçük kareler regresyonunu kullanabilirsiniz.t<T


XitYiTY^itYiT

0


α
γγ=1


αγ

αγ
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.