Heterossedastik verilerin varyansını tahmin etme


15

Ben hata değişkenleri yanı sıra doğrusal model açısından ortalama değerleri tahmin etmeye çalışıyorum heteroscedastic veriler üzerinde bir gerileme yapmaya çalışıyorum . Bunun gibi bir şey:

y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)~N-(0,σ(x,t)),y¯(x,t)=y0+birx+bt,σ(x,t)=σ0+cx+dt.

Kelime olarak veriler , çeşitli ve değerlerinde tekrarlanan ölçümlerinden oluşur . Ben, bu ölçümler, bir "gerçek" ortalama değeri oluşur kabul arasında doğrusal bir fonksiyonu olan ve Gauss gürültü ile, , olan standart sapma (veya varyans Karar vermedim) ayrıca doğrusal olarak bağlıdır . ( ve daha karmaşık bağımlılıklara izin verebilirim - doğrusal bir form için güçlü bir teorik motivasyon yoktur - ancak bu aşamada işleri aşırı karmaşıklaştırmamayı tercih ederim.)x t ˉ y ( x , t ) x t ξ ( x , t ) x , t x ty(x,t)xty¯(x,t)xtξ(x,t)x,txt

Buradaki arama teriminin "heteroseladastisite" olduğunu biliyorum, ancak şimdiye kadar bulabildiğim tek şey ı daha iyi tahmin etmek için nasıl azaltılacağı / kaldırılacağı tartışmaları , ancak tahmin etmeye çalışmak açısından hiçbir şey yok bağımsız değişkenler açısından. ve güven aralıklarıyla (veya Bayesian eşdeğerleriyle) tahmin istiyorum ve eğer SPSS'de bunu yapmanın kolay bir yolu varsa daha iyi! Ne yapmalıyım? Teşekkürler.y¯ y 0 , a , b , σ 0 , c dσy0,a,b,σ0,cd


Bazı referanslar için bu ilgili soruya bakın , Parametrelerin fonksiyonu olarak varyans
Andy W

GARCH'ı denedin mi?
Aksakal

Genelleştirilmiş Doğrusal Modeller, sorununuzu ele alan şubedir. Aynı adlı bir kitap var, çok tavsiye edilir.
Diego

Yanıtlar:


1

Bence ilk probleminiz artık normal bir dağıtım değil ve verilerin homoscedastic olacak şekilde nasıl dönüştürülmesi gerektiği tam olarak şeklindedir. Örneğin, , hata orantılı tiptir ve regresyondan önce y verisinin logaritması veya normal en küçük karelerden (OLS) ayarlanan regresyon alınmalıdır. ) ağırlıklı ağırlıklı en küçük karelere (regresyonu küçültülmüş oransal tip hataya dönüştürür). Benzer şekilde, ise, logaritmanın logaritmasını almak ve gerilemek gerekir.N(0,σ(x,t))σ(x,t)σ(x,t)=ax+bt1/y2σ(x,t)=eax+bt

Bence hata türlerinin öngörülmesinin zayıf bir şekilde kapsanmasının nedeni, ilk önce herhangi bir eski regresyon (inilti, tipik olarak en küçük kareler, OLS) yapılmasıdır. Ve artık grafikten, yani, , artık şekli gözlemler ve biri verilerin frekans histogramını çizer ve buna bakar. Daha sonra, artıklar sağa açılan bir fan ışınıysa, oransal veri modellemeyi dener, eğer histogram üstel bir çürüme gibi görünürse, karekök, kare / üs, vb. İçin karşılıklılık, vb. , üstel-y alarak.modely1/y

Şimdi, bu sadece kısa hikaye. Uzun sürüm, Theil medyan regresyonu, Deming iki değişkenli regresyon ve yayılan hata ile belirli bir eğri-uyum iyiliği ilişkisi olmayan kötü pozlanmış problemlerin hatasını en aza indirmek için regresyon gibi çok daha fazla regresyon içerir. Sonuncusu bir kuyruklu yalan olduğunu, ancak bu, bkz buÖrnek olarak. Böylece, cevapları elde etmeye çalışılan şey büyük bir fark yaratır. Tipik olarak, eğer değişkenler arasında bir ilişki kurmak istiyorsa, rutin OLS tercih edilen yöntem değildir ve Theil regresyonu bu konuda hızlı ve kirli bir gelişme olacaktır. OLS yalnızca y yönünde en aza iner, bu nedenle eğim çok sığdır ve kesişme, değişkenler arasındaki temel ilişkinin ne olduğunu belirlemek için çok büyüktür. Bunu başka bir şekilde söylemek, EKK bir x verilmiş ay bir az hata tahminini verir, bu yok değil x y ile nasıl değiştiğini dair bir tahmin yapabilir. R değerleri çok yüksek olduğunda (0.99999+) kişinin kullandığı regresyonda çok az fark vardır ve y'deki OLS, x'deki OLS ile yaklaşık olarak aynıdır, ancak, r değerleri düşük olduğunda, y'deki OLS, X cinsinden OLS.

Özetle, bir çok şey, ilk etapta regresyon analizini yapmak için motive edilen nedenin tam olarak ne olduğuna bağlıdır. Bu, gereken sayısal yöntemleri belirler. Bu seçim yapıldıktan sonra, artıklar regresyonun amacı ile ilgili bir yapıya sahiptir ve bu daha geniş bağlamda analiz edilmesi gerekir.


0

STATS BREUSCH PAGAN uzatma komutu, kalıntıları heteroscedastisite açısından test edebilir ve regresörlerin bir kısmının veya tamamının bir fonksiyonu olarak tahmin edebilir.


0

Bu tür sorunlara genel yaklaşım , verilerinizin (düzenli) olasılığını en üst düzeye çıkarmaktır .

LL(y0,a,b,σ0,c,d)=i=1nlogϕ(yi,y0+axi+bti,σ0+cxi+dti)
ϕ(x,μ,σ)=12πσe(xμ)22σ2

θ^θ=(y0,a,b,σ0,c,d)

Hθnθ^H1

İşte Python'da bir örnek kod:

import scipy
import numpy as np

# generate toy data for the problem
np.random.seed(1) # fix random seed
n = 1000 # fix problem size
x = np.random.normal(size=n)
t = np.random.normal(size=n)
mean = 1 + x * 2 + t * 3
std = 4 + x * 0.5 + t * 0.6
y = np.random.normal(size=n, loc=mean, scale=std)

# create negative log likelihood
def neg_log_lik(theta):
    est_mean = theta[0] + x * theta[1] + t * theta[2]
    est_std = np.maximum(theta[3] + x * theta[4] + t * theta[5], 1e-10)
    return -sum(scipy.stats.norm.logpdf(y, loc=est_mean, scale=est_std))

# maximize
initial = np.array([0,0,0,1,0,0])
result = scipy.optimize.minimize(neg_log_lik, initial)
# extract point estimation
param = result.x
print(param)
# extract standard error for confidence intervals
std_error = np.sqrt(np.diag(result.hess_inv))
print(std_error)

σσ1010

Kod tarafından üretilen sonuç (parametre tahminleri ve standart hataları):

[ 0.8724218   1.75510897  2.87661843  3.88917283  0.63696726  0.5788625 ]
[ 0.15073344  0.07351353  0.09515104  0.08086239  0.08422978  0.0853192 ]

Tahminlerin gerçek değerlerine yakın olduğunu görebilirsiniz, bu da bu simülasyonun doğruluğunu onaylar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.