Kantil regresyon ne zaman OLS'tan daha kötüdür?


22

Koşullu ortalama ilişkisini kesinlikle anlamamız gereken bazı benzersiz durumların dışında, bir araştırmacının OLS'yi Quantile Regression yerine seçmesi gereken durumlar nelerdir?

OLS ikamesi olarak sadece medyan regresyonu kullanabildiğimiz için cevabın "kuyruk ilişkilerini anlamada bir yararı yoksa" olmasını istemiyorum.


4
Bence çoğu araştırmacı hem OLS hem de nicel regresyonu eğlendirir; Yöntemler arasındaki farklar, modellemeye çalıştığınız şeye ışık tutacaktır. OLS ile ilgili olarak, normallik varsayımlarına atlarsanız, çoğu istatistiksel pakette bulunan oldukça iyi belgelenmiş ve kapsamlı bir test metodolojisi elde edersiniz.
Jonathan Lisic

Yanıtlar:


18

Eğer ortalama ile ilgileniyorsanız, ORS'yi kullanın, medyanda ise nicelik kullanın.

Büyük farklardan biri, ortalamanın aykırı değerler ve diğer aşırı verilerden daha fazla etkilenmesidir. Bazen, istediğin budur. Bir örnek, bağımlı değişkeninizin bir mahalledeki sosyal sermaye olup olmadığıdır. Çok fazla sosyal sermayeye sahip tek bir kişinin varlığı tüm mahalle için çok önemli olabilir.


6
İlk cümlenize meydan okuyalım. Hem OLS hem de kuantil regresyon (QR), y = X β + ε veri üretme süreci için değerini tahmin ediyor . Hata dağılımı ağır kuyruklu, varsa β Q, R, daha etkilidir β O L S . Ne olursa olsun bu koşullu dağılım momenti P ( y | X ) bizi ilgilendiren, biz kullanmalıdır β O L S ve P daha etkilidir.βy=Xβ+εβ^QRβ^OLSP(y|X)β^OLSβ^QR
Richard Hardy

@RichardHardy'nin bu cevabın eleştirisini takiben medyan tahmin edilebilir olan miktarlardan sadece bir tanesidir . Bu Hyndman kağıt dediği bir yaklaşım getirmektedir katkı kuantil regresyon artırılması , quantiles bir dizi araştırıyor Elektrik Akıllı Sayaç Veri Tahmin Belirsizlik Katkı Dilim Regresyon Arttırılması tarafından ( ieeexplore.ieee.org/document/7423794 ).
Mike Hunter

15

Sorunun öncülünde bir karışıklık var gibi görünüyor. İkinci paragrafta, "yalnızca OLS ikamesi olarak medyan regresyon kullanabiliriz" diyor. X koşullu medyan gerileme bu Not olan dilim regresyon (bir formu).

Temel veri oluşturma işlemindeki hata normal dağılmış ise (artıkların normal olup olmadığını kontrol ederek değerlendirilebilir), koşullu ortalama koşullu ortancaya eşittir. Ayrıca, ilgilenebileceğiniz herhangi bir miktar (örneğin, yüzde 95 veya yüzde 40), X boyutunda belirli bir nokta için standart OLS yöntemleriyle belirlenebilir. Kuantil regresyonun ana çekiciliği, OLS'den daha sağlam olmasıdır. Dezavantajı, eğer bütün varsayımlar karşılanırsa, daha az verimli olacağıdır (yani, aynı gücü elde etmek için daha büyük bir örneklem boyutuna ihtiyacınız olacaktır / tahminleriniz daha az kesin olacaktır).


12

Hem OLS hem de kuantil regresyon (QR), lineer regresyon modelinde y = X β + ε katsayısı vektörünü tahmin etmek için kestirim teknikleridir.β

y=Xβ+ε
(QR durumda Koenker (1978), s. 33, ikinci paragraf bakın).

Belirli hata dağılımları (örneğin ağır kuyrukları sahip olanlar) için, QR tahmin β Q R, daha etkilidir OLS tahmin β O L S ; geri çekme olduğu β O L S sadece doğrusal tarafsız tahminlerin sınıfına etkilidir. Bu, KoSer'in (1978), QS'yi OLS yerine çeşitli ortamlarda kullanmasını öneren temel motivasyondur. I koşullu dağılımının her an için düşünüyorum P -Y ( Y | X ) biz kullanmalıdır β O L S veβ^QRβ^OLSβ^OLSPY(y|X)β^OLSβ^QR o (hatam varsa düzeltin lütfen) daha etkilidir.

Şimdi doğrudan soruyu cevaplamak için, QR OLS daha "kötü" olduğunu (ve böylece β Ç L S tercih edilmelidir β Q R ) ne zaman β O L S daha etkilidir β Q R . Böyle bir örnek, hata dağılımının Normal olduğu durumdur.β^OLSβ^QRβ^OLSβ^QR

Referanslar:

  • Koenker, Roger ve Gilbert Bassett Jr. "Regresyon nicelendiriyor". Ekonometri: Ekonometri Derneği Dergisi (1978): 33-50.

3

Peter Flom'un harika ve özlü bir cevabı vardı, sadece genişletmek istiyorum. Sorunun en önemli kısmı "daha kötüsünü" nasıl tanımlayacağınızdır.

Daha kötüsünü tanımlamak için, bazı ölçümlere ve bağlantı elemanlarının ne kadar iyi ya da kötü olduğunu hesaplama fonksiyonuna ihtiyacımız var.

Kayıp fonksiyonunun farklı tanımlarına sahip olabiliriz ve her tanımda doğru ya da yanlış yoktur, ancak farklı tanım farklı ihtiyaçları karşılar. İyi bilinen iki kayıp fonksiyonu kare kaybı ve mutlak değer kaybıdır.

Lsq(y,y^)=i(yiy^i)2
Labs(y,y^)=i|yiy^i|

Kare kaybı bir başarı ölçüsü olarak kullanırsak, niceliksel regresyon OLS'den daha kötü olacaktır. Öte yandan, eğer mutlak değer kaybı kullanırsak, niceliksel regresyon daha iyi olacaktır.

Peter Folm'in cevabı budur:

Eğer ortalama ile ilgileniyorsanız, ORS'yi kullanın, medyanda ise nicelik kullanın.


Yeni gözlemler için (hedef öngörü olduğunda) beklenen zarardan ziyade, örnek gözlemlemenin (hedefimizi zaten mükemmel bir şekilde bildiğimiz için çok az ilgi çeken) uygun örnekleme hitap ettiği için örneğin yanıltıcı olabileceğini düşünüyorum (parametre tahmin olduğunda) amaç açıklama olduğunda). Daha fazla ayrıntı için Peter Flom'un cevabı ve cevabım altındaki yoruma bakınız.
Richard Hardy

3

Y2π

Ortalamayı tahmin etmek istiyorsan, bunu kuantil regresyondan elde edemezsin.

Asgari varsayımlarla (ancak kuantil regresyondan daha fazla varsayımlarla) ancak kuantilikleri tahmin etmek istiyorsanız, ancak verimi daha yüksek olan tahmin etmek istiyorsanız, semiparametrik sıra regresyon kullanın. Bu ayrıca size aşılma olasılıkları verir. Ayrıntılı bir örnek çalışma RMS ders notumda , bir veri setinde, birkaç parametre üzerindeki ortalama ortalama mutlak tahmin hatasının (nicelikler ve ortalama) ordinal regresyonla elde edildiğini gösterdiği notlarıdır. Fakat sadece ortalamayı tahmin etmek için, OLS en iyisidir ve sadece miktarları tahmin etmek için kuantil regresyon en iyisidir.

Ordinal regresyonun bir diğer büyük avantajı, ortalamanın tamamen tahmin edilmesi dışında olmasıdır. Y-Transformasyon değişmez.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.