Doğrusal regresyon için olağan varsayımlar nelerdir?
Bunlar şunları içeriyor mu:
- bağımsız ve bağımlı değişken arasındaki doğrusal ilişki
- bağımsız hatalar
- hataların normal dağılımı
- homoscedasticity
Başka var mı?
Doğrusal regresyon için olağan varsayımlar nelerdir?
Bunlar şunları içeriyor mu:
Başka var mı?
Yanıtlar:
Cevap, tam olarak ve her zaman nasıl tanımladığınıza bağlıdır. Doğrusal regresyon modelini şu şekilde yazdığımızı varsayalım:
burada belirleyici değişkenlerin vektörü, , ilgi konusu bir parametredir yanıt değişkendir ve rahatsızlık vardır. Muhtemel tahmin bir : en küçük kareler tahmindir
Şimdi pratik olarak ders kitaplarının tümü, bu tahmini tarafsızlık, tutarlılık, verimlilik, bazı dağıtım özellikleri gibi istenen özelliklere sahip olduğu varsayımlarıyla ilgilenmektedir .
Bu özelliklerin her biri, aynı olmayan belirli varsayımları gerektirir. Bu nedenle, daha iyi soru, LS tahmininin istenen özellikleri için hangi varsayımların gerekli olduğunu sormak olacaktır.
Yukarıda bahsettiğim özellikler, regresyon için bazı olasılık modelleri gerektiriyor. Ve burada farklı uygulama alanlarında farklı modellerin kullanıldığı bir durum var.
Basit durum, bağımsız bir rasgele değişken olarak davranmaktır , rasgele değildir. Her zamanki kelimeyi sevmiyorum, ancak bunun çoğu uygulamalı alanda (bildiğim kadarıyla) her zamanki durum olduğunu söyleyebiliriz.
İstatistiksel tahminlerin istenen özelliklerinden bazılarının listesi:
varoluş
Varlık özelliği garip görünebilir, ancak bu çok önemlidir. tanımında, matrisini tersine
Bu matrisin tersinin tüm olası varyasyonları için mevcut olduğu garanti edilmez . Böylece hemen ilk varsayımımızı elde ediyoruz:
Matris tam dereceli olmalıdır, yani ters çevrilebilir.
Yansızlık
Biz
eğer
İkinci varsayımı adlandırabiliriz, ancak doğrusal ilişkiyi tanımlamanın doğal yollarından biri olduğu için açıkça ifade etmiş olabiliriz.
O sapmasızlık biz sadece gerektirdiğini almak için not herkes için ve sabitlerdir. Bağımsızlık özelliği gerekli değildir.
Tutarlılık
Tutarlılık varsayımlarını elde etmek için ne demek istediğimizi daha net bir şekilde belirtmemiz gerekir . Rastgele değişkenlerin dizileri için farklı yakınsama modlarına sahibiz: olasılıkta, neredeyse kesin olarak, dağılım ve an momenti anlamında. Yakınsama olasılığını almak istediğimizi varsayalım. Büyük sayılar yasasını ya da çok değişkenli Chebyshev eşitsizliğini doğrudan kullanabiliriz ( ).
(Bu eşitsizliğin varyantı, doğrudan Markov'un eşitsizliğini , .)
Olasılıkta yakınsama sol terim herhangi ortadan gerektiği anlamına gelir yana olarak , buna ihtiyacımız olarak . Bu, kesinlikle daha mantıklı çünkü daha fazla veri ile tahmin ettiğimiz oranının artması gerekiyor.
Biz sahip olduğunu
Bağımsızlık olmasını sağlar , dolayısıyla ifade
Şimdi , sonra
Şimdi ek olarak , her bir için nin sınırlandırılmasını istiyorsak, hemen
Dolayısıyla tutarlılığı elde etmek için otokorelasyon olmadığını varsaydık ( ), varyans sabittir ve fazla büyümez. İlk varsayım, bağımsız örneklerden gelirse tatmin olur .
verim
Klasik sonuç Gauss-Markov teoremidir . Bunun şartları tam olarak tutarlılık için ilk iki şart ve tarafsızlık şartıdır.
Dağıtım özellikleri
Eğer normalse, normal rastgele değişkenlerin doğrusal bir kombinasyonu olduğu için hemen normal olduğunu alırız . Daha önceki bağımsızlık, ilişkisizlik ve sabit sapma varsayımlarını kabul edersek, bu
buradaki .
Eğer normal değil, bağımsızsa, merkezi limit teoremi sayesinde yaklaşık dağılımını alabiliriz . Bunun için varsaymak gerekir
bir matrisi . Asimptotik normalliğin sabit varyansı, eğer
değişkeninin değişmesi durumunda sahip olduğumuzu unutmayın . Merkezi limit teoremi daha sonra bize şu sonucu verir:
Bundan dolayı, için bağımsızlık ve sabit varyansın ve için bazı varsayımların bize LS tahmini için birçok yararlı özellik .
Mesele şu ki, bu varsayımlar rahatlatılabilir. Örneğin, rastgele değişken olmamasını istedik . Bu varsayım ekonometrik uygulamalarda mümkün değildir. rasgele olmasına izin verirsek, koşullu beklentileri kullanır ve rasgeleliğini hesaba benzer sonuçlar alabiliriz . Bağımsızlık varsayımı da gevşetilebilir. Zaten, sadece ilişkisizliğin gerekli olduğunu gösterdik. Bu bile daha rahat olabilir ve LS tahmininin tutarlı ve asimptotik normal olacağını göstermek mümkündür. Daha fazla ayrıntı için örneğin White'ın kitabına bakın.
Burada çok sayıda iyi cevap var. Bana göre ancak belirtilmemiş bir varsayım olduğu (en azından açıkça belirtilmediği) ortaya çıkar. Spesifik olarak, bir regresyon modeli, (açıklayıcı / öngörücü değişkenlerinizin değerleri) sabit ve bilindiğini ve durumdaki tüm belirsizliğin değişkeni içinde bulunduğunu varsayar . Ayrıca, bu belirsizliğin sadece örnekleme hatası olduğu varsayılmaktadır .
Bunu düşünmenin iki yolu var: Açıklayıcı bir model oluşturuyorsanız (deneysel sonuçları modelleme), bağımsız değişkenlerin seviyelerinin tam olarak ne olduğunu biliyorsunuzdur, çünkü bunları manipüle etmiş / yönetmişsinizdir. Dahası, veri toplamaya başlamadan önce bu seviyelerin ne olacağına karar verdiniz. Demek, cevaptaki mevcut ilişkideki bütün belirsizlikleri kavramsallaştırıyorsunuz. Öte yandan, öngörücü bir model oluşturuyorsanız, durumun farklı olduğu doğrudur, ancak tahminlere hala sabit ve bilinen gibi davranırsınız , çünkü gelecekte, bir tahmin yapmak için modeli kullanırken olası değeri hakkında bir vektörünüz olacaktır,ve model, bu değerleri doğru gibi değerlendirmek için tasarlanmıştır. Yani, belirsizliği bilinmeyen değeri olarak .
Bu varsayımlar prototip regresyon modeli için denkleminde görülebilir: A (ölçüm hatası yüzünden olabilir) belirsizlikle modeli yanı sıra aynı veri üretme işlemini sahip olabilir, ancak modeli bu şöyle görünecektir: burada rasgele ölçüm hatasını gösterir. (İkincisi gibi durumlar üzerinde çalışmaya yol açmıştır değişkenler modellerinde hatalar ; temel bir sonucu olduğunu ölçüm hatası varsa , naif
Tipik varsayım intrinsik asimetri pratik bir sonucu, geriletici olmasıdır ile ilgili gerileme farklıdır ile . (Buradaki cevabımı görün: Bu gerçeğin daha ayrıntılı bir tartışması için y ile x ve x ile y ile doğrusal regresyon yapmak arasındaki fark nedir? )
Klasik doğrusal regresyon modelinin varsayımları aşağıdakileri içerir:
Buradaki cevaplar, klasik OLS varsayımına halihazırda iyi bir genel bakış sunsa da, klasik lineer regresyon modelinin varsayımına ilişkin daha kapsamlı bir açıklamayı burada bulabilirsiniz:
https://economictheoryblog.com/2015/04/01/ols_assumptions/
Ek olarak, makale belirli varsayımları ihlal ettiği takdirde sonuçları açıklar.
Ne oluyor?!
Cevap, sıradan en küçük kareler (OLS) tahmininin kullanımını doğrulamak için biraz farklı varsayım setlerinin kullanılabileceğidir. OLS çekiç gibi bir alettir: çivilerde çekiç kullanabilirsiniz ancak buzu kırmak için mandallarda da kullanabilirsiniz.
İki geniş varsayım kategorisi, küçük örneklere uygulananlar ve büyük örneklere dayananlardır, böylece merkezi limit teoremi uygulanabilir.
Hayashi'de (2000) tartışıldığı gibi küçük örnek varsayımlar:
(1) - (4) 'te, Gauss-Markov teoremi uygulanır ve normal en küçük kareler tahmincisi en iyi doğrusal yansız tahmin edicidir.
Ayrıca normal hata terimlerinin varsayılması hipotez testine izin verir . Hata terimleri koşullu olarak normalse, OLS tahmincisinin dağılımı da koşullu olarak normaldir.
Dikkate değer bir diğer nokta, normallikte, OLS tahmin edicisinin aynı zamanda maksimum olabilirlik tahmincisi olmasıdır .
Bu varsayımlar, yeterince büyük bir örneğe sahip olmamız durumunda, çok sayıda kanuna (OLS tahmincisinin tutarlılığı için) ve merkezi limit teoremine (OLS tahmincisinin örnekleme dağılımı yakınsamaya dayanacak şekilde) dayanabileceğimiz şekilde değiştirilebilir / rahatlatılabilir. normal dağılım ve hipotez testleri yapabilir, p-değerleri hakkında konuşabiliriz…).
Hayashi bir makroekonomik adamdır ve büyük örnek varsayımları, zaman serisi bağlamı göz önünde bulundurularak formüle edilmiştir:
Bu varsayımların daha güçlü sürümleriyle karşılaşabilirsiniz, örneğin, bu hata terimleri bağımsızdır.
Uygun büyük örnek varsayımları sizi OLS tahmincisinin asimptotik olarak normal olan örnekleme dağılımına götürür .
Hayashi, Fumio, 2000, Ekonometri
Her şey modelinizle ne yapmak istediğinizle ilgili. Hatalarınızın pozitif ya da normal olmadığından emin olun. Tahmin aralığı yapmak istiyorsanız, t-dağılımını kullanmaktan daha iyisini yapabilirsiniz. Varyansınız daha küçük öngörülen değerlerde daha küçükse, yine çok büyük bir tahmin aralığı oluşturacaksınız.
Varsayımların neden orada olduğunu anlamak daha iyidir.
Aşağıdaki diyagramlar, sonlu ve asimptotik senaryolarda hangi sonuçların alınabileceğini görmek için hangi varsayımların gerekli olduğunu göstermektedir.
Sadece varsayımların ne olduğunu değil, aynı zamanda bu varsayımların anlamını da düşünmenin önemli olduğunu düşünüyorum. Örneğin, yalnızca yansız katsayıları önemsiyorsanız, homoskedastikliğe ihtiyacınız yoktur.
Aşağıdakiler Doğrusal Regresyon analizinin varsayımlarıdır.
Doğru şartname . Doğrusal işlevsel form doğru şekilde belirtildi.
Sıkı dışa dönüklük . Regresyondaki hatalar şartlı ortalama sıfıra sahip olmalıdır.
Çoklu bağlantı yok . X'teki regresörlerin tümü doğrusal olarak bağımsız olmalıdır.
Homoscedasticity , hata ifadesinin her gözlemde aynı varyansa sahip olduğu anlamına gelir.
Otomatik ilişki yok : hatalar gözlemler arasında korelasyon göstermiyor.
Normallik. Bazen hataların, regresörlere bağlı normal dağılıma sahip olduğu varsayılmaktadır.
Iid gözlemleri : bağımsızdır ve tüm için , aynı dağılıma sahiptir .
Daha fazla bilgi için bu sayfayı ziyaret edin .
Tek bir varsayım listesi diye bir şey yoktur, en azından 2: bir tanesi sabit, diğeri rasgele tasarım matrisi için olacaktır. Artı , zaman serileri gerilemelerinin varsayımlarına da bakmak isteyebilirsiniz (bkz. S.13).
Tasarım matris durumda bir sabit en sık olabilir ve varsayımları genellikle olarak ifade edilmiştir Gauss-Markov teoremi . Sabit tasarım, regresörleri gerçekten kontrol ettiğiniz anlamına gelir. Örneğin, bir deney ve ayrıca S.13 vb sıcaklık, basınç gibi parametreler bakın ayarlayabilirsiniz burada .
Ne yazık ki, ekonomi gibi sosyal bilimlerde, nadiren deney parametrelerini kontrol edebilirsiniz. Genellikle, ekonomide neler olduğunu gözlemlersiniz , çevre ölçümlerini kaydeder ve daha sonra bunlara gerileyin. Rastgele bir tasarım olarak adlandırılan çok farklı ve daha zor bir durum olduğu ortaya çıktı . Bu durumda Gauss-Markov teoremi olan modifiye da s.12 bakınız burada . Sen koşullar artık cinsinden ifade edilir nasıl görebilirsiniz koşullu zararsız bir değişiklik olmadığı olasılıklar.
Ekonometride, varsayımların isimleri vardır:
Normalden hiç bahsetmediğime dikkat edin. Bu standart bir varsayım değil. Genellikle intro regresyon derslerinde kullanılır, çünkü bazı türevleri kolaylaştırır, ancak regresyonun çalışması ve iyi özelliklere sahip olması gerekmez.
Doğrusallık varsayımı, modelin parametrelerde doğrusal olduğu şeklindedir. Bağımsız değişkenlerin güç işlevi doğrusal bir katkı modelinin bir parçası olduğu sürece, karesel veya daha yüksek dereceden etkilere sahip bir regresyon modeline sahip olmak iyidir. Model gerektiğinde daha yüksek dereceli terimler içermiyorsa, artıkların arsalarında uyumsuzluk belirginleşecektir. Bununla birlikte, standart regresyon modelleri, bağımsız değişkenin bir parametrenin gücüne yükseltildiği modelleri içermez (bu tür modelleri değerlendirmek için kullanılabilecek başka yaklaşımlar olmasına rağmen). Bu modeller doğrusal olmayan parametreler içerir.
En küçük kareler regresyon katsayısı, herhangi bir veride birinci dereceden eğilimi özetlemenin bir yolunu sağlar. @mpiktas cevap, en küçük karelerin gittikçe artan şekilde optimum hale geldiği koşulların eksiksiz bir tedavisidir. Diğer yoldan gitmek ve en küçük kareler işe yaradığında en genel durumu göstermek istiyorum. En küçük kareler denkleminin en genel formülasyonunu görelim:
Bu sadece cevabın koşullu ortalaması için doğrusal bir model.
Not Hata terimini aldım. belirsizliğini özetlemek istiyorsanız, o zaman merkezi limit teoremine itiraz etmeniz gerekir. En genel kareler tahmin edicilerinin en genel sınıfı, Lindeberg koşulu karşılandığında normale yaklaşır : aşağı kaynar, en küçük kareler için Lindeberg koşulu, en büyük kareler artıklarının kesiminin kareler artıklarının toplamına göre 0'a kadar gitmesini gerektirir. . Tasarımınız daha büyük ve daha büyük artıkları örneklemeye devam ederse, deney "suda ölü" olur.
Lindeberg koşulu sağlandığında, regresyon parametresi iyi tanımlanır ve tahminci , bilinen bir yaklaşık dağılımına sahip olan tarafsız bir tahmin edicidir. Daha verimli tahminciler mevcut olabilir. Diğer heterossedastisite veya korelasyon verilerinde, genellikle ağırlıklı bir tahmin edici daha verimlidir . Bu yüzden, daha iyi olanlar mevcut olduğunda, naif yöntemleri kullanmayı asla savunmam. Fakat çoğu zaman değildir!