Kuantil regresyon “nasıl çalışır”?


25

Kuantil regresyonun sezgisel ve erişilebilir bir açıklamasını almayı umuyorum.

Diyelim ki basit bir sonuç veri kümesine Yve öngörücülerine .X1,X2

Örneğin, .25, .5, bir regresyon çalıştırırsam ve .β0,0,25,β1,0,25...β2,.75

İstiyorsunuz değerleri sadece sipariş tarafından bulunan değerleri ve belirli bir dağılım / yakınındaki olan örneklere dayanarak bir lineer regresyon analizi?βy

Veya numunelerin tümü , nicelikten uzaklaştıkça azalan ağırlıklarla tahminlerine katkıda bulunur mu?β

Yoksa tamamen farklı bir şey mi? Henüz erişilebilir bir açıklama bulamadım.


3
Matematiğe ilişkin olarak şu iki cevabı faydalı bulabilirsiniz: stats.stackexchange.com/questions/102906/… , stats.stackexchange.com/questions/88387/…
Andy

Yanıtlar:


21

Ben tavsiye Koenker & Hallock (2001, Ekonomik Perspektifleri Dergisi) ve Koenker en Eponymous ders kitabı .

  1. Başlangıç ​​noktası, bir veri kümesinin ortancasının mutlak hataların toplamını en aza indirdiği gözlemidir . Yani,% 50 nicelik belirli bir optimizasyon problemine bir çözümdür (mutlak hataların toplamını minimize eden değeri bulmak için).
  2. Bu kaynaktan, herhangi bir bulmak kolaydır τ yani asimetrik bir miktar en aza indirmek için, -quantile belirli bir azaltma sorununa çözüm ağırlıklı bağlıdır ağırlıkları, mutlak hatalar τ .
  3. Son olarak, regresyona adım atmak için, bu minimizasyon probleminin çözümünü yordayıcı değişkenlerin doğrusal bir kombinasyonu olarak modelliyoruz; bu nedenle, şimdi sorun tek bir değer değil, bir dizi regresyon parametresi bulmaktan biri.

Yani sezgi oldukça doğrudur: numunelerin hepsi katkıda persantil bağlı asimetrik ağırlıklarla, tahminlere τ biz amaçlıyoruz.βτ


Puanınızla ilgili olarak 1), bu yalnızca Y'nin simetrik olarak dağıldığını varsaymakla doğru olmaz mı? Eğer Y {1, 1, 2, 4, 10} gibi eğilirse, medyan 2 kesinlikle mutlak hatayı en aza indirmez. Kuantil regresyon her zaman Y'nin simetrik olarak dağıldığını varsayıyor mu? Teşekkürler!
Ben

1
@Ben: hayır, simetri gerekli değildir. Kilit nokta, medyanın beklenen mutlak hatayı en aza indirmesidir . 1, 2, 4, 10 ve olasılıklar 0,4, 0,2, 0,2, 0,2 değerlerine sahip ayrı bir dağılıma sahipseniz, 2'nin bir puan özeti gerçekten beklenen mutlak hatayı en aza indirir . Bir simülasyon R kodunun sadece birkaçıdır:foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
S. Kolassa - Monica

(Ve evet, "toplamları" tartışmak yerine
cevabımda

Derp. Ne düşünüyordum. Bu şimdi mantıklı, teşekkürler.
Ben

19

Kantil regresyonun temel fikri, analistin sadece veri anlamına gelmek yerine verilerin dağıtımı ile ilgilenmesinden kaynaklanmaktadır. Hadi ortalama ile başlayalım.

Ortalama regresyon , veri ortalamasına şeklinde bir çizgiye uyar . Başka bir deyişle, E ( Y | X = x ) = x β . Bu çizgiyi tahmin etmek için genel bir yaklaşım en az kare yöntemi kullanmaktır, arg min β ( y - x β ) ( y - X β ) .y=XβE(Y|X=x)=xβargminβ(y-xβ)'(y-Xβ)

Öte yandan, medyan regresyon, verilerin yarısının yanlarda olmasını bekleyen bir çizgi arar. Bu durumda hedef fonksiyon nerede | . | ilk norm.argminβ|y-Xβ||.|

Medyan fikrini kuantileştirme, kuantil regresyonda sonuçlanır. Bunun arkasındaki fikir, verinin yüzde 'sinin ötesinde olduğu bir çizgi bulmak .α

Burada küçük bir hata yaptınız, Q-regresyonu bir miktar veri bulmak gibi değil, o alt kümeye (hatta daha zorlu sınırlara bile) uyacak şekilde bir çizgiye uyuyor.

Q-regresyonu, verileri bir q grubuna kuantil ve diğerlerine ayıran bir çizgi arar . Hedef fonksiyonu, S-gerileme söyleyerek kontrol fonksiyonu olan β a = arg dakika β { a | y - X β | I ( y > X β ) + ( 1 - α ) | y - X β | I ( y < X β ) } .α

β^α=argminβ{α|y-Xβ|ben(y>Xβ)+(1-α)|y-Xβ|ben(y<Xβ)}.

Gördüğünüz gibi bu akıllı hedef işlevi, nicel ifadeyi bir optimizasyon problemine çevirmekten başka bir şey değildir.

Üstelik, gördüğünüz gibi, Q-regresyonu belirli bir miktar ( ) için tanımlanmıştır ve daha sonra tüm miktarları bulmak için genişletilebilir. Başka bir deyişle, Q-regresyonu yanıtın (koşullu) dağılımını çoğaltabilir.βα


Bu cevap mükemmel.
Jinhua Wang,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.