En Küçük Kareler Varsayımları


9

Aşağıdaki doğrusal ilişkiyi varsayalım: ; burada bağımlı değişken, tek bir bağımsız değişken ve hata terimi.Yben=β0+β1Xben+ubenYbenXbenuben

Stock & Watson'a (Ekonometriye Giriş; Bölüm 4 ) göre, üçüncü en küçük kareler varsayımı , ve dördüncü momentlerinin sıfır olmayan ve sonlu .Xbenuben(0<E(Xben4)< ve 0<E(uben4)<)

Üç sorum var:

  1. Bu varsayımın rolünü tam olarak anlamıyorum. Bu varsayım geçerli değilse OLS önyargılı ve tutarsız mıdır yoksa çıkarım için bu varsayımlara ihtiyacımız var mı?

  2. Stock ve Watson, "bu varsayım, veya değerlerinin son derece büyük değerlerle bir gözlem yapma olasılığını sınırlamaktadır ." Ancak, sezgim bu varsayımın aşırı olduğudur. Büyük aykırı değerlere sahipsek (dördüncü anların büyük olacağı şekilde) sorun yaşıyor muyuz, ancak bu değerler hala sınırlıysa? Bu arada: Altta yatan tanım bir aykırı değer nedir?Xbenui

  3. Bunu şu şekilde yeniden formüle edebilir miyiz: " ve basıklığı sıfır ve sonlu değil mi?"Xiui


Ne yazık ki şu anda tam teşekküllü bir cevap yazamıyorum ama size şu soruyu cevaplamak için: 1, OLS tutarlılığı ne olursa olsun işe yarıyor. 2, aykırı değerlerin net bir tanımı yoktur, ancak OLS aykırı değerlerin varlığında büyük örnekte iyi çalışır. 3, benim hayatım için bunun doğru olmayacağı bir örnek düşünemiyorum, ama birisi bana yanlış olduğunu kanıtlayabiliyor, bu yüzden garanti yok
Repmat

5
"Ama OLS, büyük örnekte aykırı değerlerin varlığında iyi çalışır" ... x-uzayında (yani etkili bir gözlem) yeterince büyük bir aykırı değer alır ve tek bir nokta LS uyumunu geçmeye zorlayabilir; eğer Y yönünde de bir aykırı değerse, çizginiz ne kadar aşırı olursa olsun hala bir noktadan geçecektir.
Glen_b -Monica

2
Aykırı değerlerin tanımlanması kolaydır. Bunlar, verilerin büyük bir kısmının modeliyle tutarsız gözlemlerdir. Glen_b'in örneğinin gösterdiği gibi, bu noktanın, veri setindeki diğer tüm gözlemlere ağır basan sınırda uyum üzerinde aşırı etkisi vardır ve bu da son derece önyargılı tahminlere yol açar.
user603

1
@ user603 Elbette ... ve ne ... Henüz aykırı değerleri otomatik olarak algılayan ve açıkça doğru şekilde yapan bir program / betiğe rastlamadım ... OP yardımcı
olmuyor

@Repmat: Lütfen OP'nin sorusunu tekrar okuyun. Yorumum, oradaki soru işaretiyle noktalanan cümlelerden birini doğrudan yanıtlıyor.
user603

Yanıtlar:


9

Siz yapıyorsunuz not EKK tahmincisi tutarlılık için 4 anları varsayımları gerekir, ancak yüksek anları ihtiyaç varsayımlar yapmakx ve ε asimptotik normallik için ve asimptotik kovaryans matrisinin ne olduğunu sürekli olarak tahmin etmek.

Yine de bir anlamda, bu matematiksel, teknik bir nokta, pratik bir nokta değil. OLS'un sonlu örneklerde bir anlamda iyi çalışması için asimptotik tutarlılık veya normallik elde etmek için gereken minimum varsayımlardan daha fazlasını gerektirir.n.

Tutarlılık için yeterli koşullar:

Regresyon denkleminiz varsa:

yben=xben'β+εben

OLS tahmincisi b^ şu şekilde yazılabilir:

b^=β+(X'Xn)-1(X'εn)

İçin tutarlılık , bunu o Karlin ve Taylor Ergodik Teoremi gibi seri bağımlılığı, bir şey ile zaman serisi halinde, Büyük Sayılar Kolmogorov Yasasını uygulamak veya edebilmek gerekir:

1nX'XpE[xbenxben']1nX'εpE[xben'εben]

Gereken diğer varsayımlar:

  • E[xbenxben'] tam dereceli ve bu nedenle matris ters çevrilebilir.
  • Regresörler önceden belirlenmiş veya tamamen dışsaldır, böylece E[xbenεben]=0.

Sonra (X'Xn)-1(X'εn)p0 ve sen al b^pβ

Eğer merkezi limit teoremi uygulamak istiyorsanız o zaman , örneğin yüksek anları varsayımlar, gerekE[gbengben'] nerede gben=xbenεben. Merkezi limit teoremi size asimptotik normallik veren şeydir.b^ve standart hatalar hakkında konuşmanıza olanak tanır. İkinci an içinE[gbengben'] var olmak için, x ve εvarolmaya. Bunu tartışmak istiyorsunn(1nΣbenxben'εben)dN-(0,Σ) nerede Σ=E[xbenxben'εben2]. Bunun çalışması için,Σ sonlu olmak zorundadır.

Hayashi'nin Ekonometri'sinde güzel bir tartışma (bu gönderiyi motive eden) verildi . (4. anlar ve kovaryans matrisinin tahmini için s. 149'a bakınız.)

Tartışma:

4. andaki bu gereksinimler muhtemelen pratik bir noktadan ziyade teknik bir noktadır. Muhtemelen bunun günlük verilerde bir sorun olduğu patolojik dağılımlarla karşılaşmayacaksınız? OLS'un daha yaygın veya diğer varsayımlarının ters gitmesi.

Şüphesiz Stackexchange'te başka bir yerde cevaplanan farklı bir soru, sonlu örneklerin asimptotik sonuçlara yaklaşması için ne kadar büyük bir örneğe ihtiyaç duyduğunuzdur. Fantastik aykırı değerlerin yavaş yakınsamaya yol açtığı bir anlam var. Örneğin, gerçekten yüksek varyansa sahip lognormal dağılımın ortalamasını tahmin etmeyi deneyin. Numune ortalaması, popülasyon ortalamasının tutarlı ve tarafsız bir tahmincisidir, ancak çılgın aşırı basıklık vb.

Sonlu ile sonsuz arasındaki matematikte son derece önemli bir ayrım vardır. Günlük istatistiklerde karşılaştığınız sorun bu değil. Pratik problemler küçük ve büyük kategorilerde daha fazladır. Varyans, basıklık vb ... örneklem büyüklüğü göz önüne alındığında makul tahminler yapabilmem için yeterince küçük mü?

OLS tahmincisinin tutarlı olduğu ancak asemptolojik olarak normal olmadığı patolojik örnek

Düşünmek:

yben=bxben+εben
Nerede xben~N-(0,1) fakat εben 2 serbestlik derecesine sahip bir t-dağılımından Vbirr(εben)=. OLS tahmini,b ancak OLS tahmini için örnek dağılımı b^normal olarak dağıtılmaz. Aşağıda ampirik dağılımb^ 10000 gözlemli bir regresyonun 10000 simülasyonuna dayanmaktadır. Tahminci için QQPlot (dağıtımda normale yaklaşmıyor)

Dağılımı b^normal değil, kuyruklar çok ağır. Ama eğer serbestlik derecesini 3'e çıkarırsanız,εben mevcut ise merkezi sınır geçerlidir ve şunları elde edersiniz: Tahminci için QQPlot (dağıtımda normale yakınsar)

Oluşturmak için kod:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));

1
Güzel cevap. Ancak aşağıdakiler gerçekten bağlama bağlıdır: Günlük verilerde var olmayan 4. anlarla patolojik dağılımlarla karşılaşmayacaksınız. Finansal veriler (finansal varlıklardaki log-getiriler) tipik olarak sınırlı bir 4. anı olmayacak kadar ağırdır. Böylece 4. andaki endişe çok gerçek. (Bunu büyük olasılıkla talebinize bir parantez içi örnek olarak ekleyebilirsiniz.) Ayrıca, bir soru: örneğinizde, nedent(3)4. anı olmamasına rağmen asimptotik normallik verir mi?
Richard Hardy

1
@RichardHardy istiyorsun n(1nΣbenxbenεben)dN-(0,Σ) nerede Σ=E[xbenxben'εben2]. Bu 4. ana ihtiyacın varΣ var olmak ve Σ temelde ikinci bir an εben ne zaman εben2 ile alakasız xbenxben'.
Matthew Gunn

6
  1. Bu yeterli bir varsayımdır, ancak minimal bir varsayım değildir [1]. OLS bu koşullar altında önyargılı değildir, sadece tutarsızdır. OLS'un asimptotik özellikleri,Xaşırı derecede büyük bir etkiye sahip olabilir ve / veya aşırı derecede büyük artıklar elde edebiliyorsanız. Lindeberg Feller merkezi limit teoreminin resmi bir sunumuyla karşılaşmamış olabilirsiniz, ancak dördüncü moment koşulları ile burada ele aldıkları şey budur ve Lindeberg koşulu bize temelde aynı şeyi söyler: aşırı etki noktası yok, aşırı yüksek kaldıraç yok puan [2].

  2. İstatistiklerin bu teorik temelleri, pratik uygulamalar için kaynatıldığında çok fazla karışıklığa neden olur. Aykırı bir tanım yoktur, sezgisel bir kavramdır. Kabaca anlamak için, gözlemin yüksek bir kaldıraç noktası veya yüksek bir etki noktası olması gerekir, örneğin silme tanısının (DF beta) çok büyük olduğu veya öngörücülerdeki Mahalanobis mesafesinin büyük olduğu (tek değişkenli istatistiklerde) bu sadece Z puanı). Ancak pratik konulara dönelim: Eğer insanlar ve hane halkı gelirleri üzerinde rastgele bir araştırma yaparsam ve 100 kişiden biri, örneklediğim kişilerin 1'i milyoner, tahminim milyonerler nüfusun% 1'ini temsil ediyor . Bir biyoistatistik dersinde, bu ilkeler tartışılmakta ve herhangi bir tanı aracının esasen araştırıcı olduğu vurgulanmaktadır [3]."aykırı olanı dışlayan analiz inandığım analizdir" değil , "bir noktayı kaldırmak analizimi tamamen değiştirdi."

  3. Basıklık, dağılımın ikinci anına bağlı olan ölçekli bir miktardır, ancak bu değerlerin sonlu, sıfır olmayan varyans varsayımı, bu özelliğin dördüncü anda tutulması imkansızdır, ancak ikincisinde değil. Yani evet, ama genel olarak basıklık ya da dördüncü anları hiç incelemedim. Onları pratik veya sezgisel bir önlem olarak görmüyorum. Bir kişinin parmaklarının ucuyla bir histogram veya saçılma grafiği üretildiği bu günde, bu grafikleri inceleyerek kalitatif grafik teşhis istatistiklerini kullanmak bizi uyandırır.

[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is- memnun

[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818

[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html


Daha önce de belirtildiği gibi, ones'in aykırı değerlerle ilgili sezgisi birden fazla olduğunda bozulur. Bir DF beta grafiğinde öne çıkmayacaklar veya büyük z skorlarına sahip olmayacaklar çünkü bu istatistiklerin kendileri aykırı değerler tarafından salınabilir. Daha önce tartıştığımız gibi, aykırı değerler , işaretlenmeden bırakılırsa, bunları kaldırmadıkça veya sağlam bir tahmin tekniği kullanmadığınız sürece taraflı katsayılar üretecektir.
user603

1
Bence daha genel olarak, fikirleri ifade ederken, ilgili literatüre işaretçiler ekleyerek cevaplarınız kazanacak, böylelikle OP bu görüşlerden hangisinin yaygın olarak tutulduğunu bilmelidir.
user603

@ user603 İlk yorumunuzda, DFbetas'a (veya herhangi bir teşhis aracına) aykırı değerleri tanımlamak için özel bir yöntem olarak işaret etmedim , ama kesinlikle yararlı bir yöntem. Yarı parametrik çıkarım (ortalama model doğru) aykırı değerleri gerçekleştirirken LS modellerine ağırlık vermez, parametrik olmayan LS dışında herhangi bir durumda bir referans hatta örnek bile oluşturabilir misiniz? İkinci yorumunuz iyi ve alıntı yapmak için birkaç dakikanızı ayıracağım.
AdamO

"OLS bu koşullar altında önyargılı değil, sadece tutarsız" ifadeniz doğru değil. Asimptotik normallik için daha yüksek anlara ihtiyaç vardır. Kolmogorov Büyük Sayılar Kanunu'nun uygulandığı IID örneklerinde tutarlılık için gerekli değildir.
Matthew Gunn
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.