Zorunlu olmadıkça neden normal regresyonda dağıtılan hata terimlerini (ve homoskedasticity) neden bu kadar önemsiyoruz?


52

Sanırım birisinin artıkların ve / veya heteroskedastikliğin normal dışı olmasının OLS varsayımlarını ihlal ettiğini söylediğini duyduğumda sinirleniyorum. Bir OLS modelindeki parametreleri tahmin etmek için , bu varsayımların hiçbiri Gauss-Markov teoremi tarafından gerekli değildir. Bunun OLS modeli için Hipotez Testinde nasıl önemli olduğunu görüyorum , çünkü bu şeylerin bize t-testleri, F-testleri ve daha genel Wald istatistikleri için düzgün formüller verdiğini varsayıyoruz.

Ancak onlarsız hipotez testi yapmak zor değildir. Sadece homoskedastisiteyi bırakırsak, sağlam standart hataları ve kümelenmiş standart hataları kolayca hesaplayabiliriz. Eğer normalliği tamamen düşürürsek, önyükleme işlemini kullanabilir ve hata terimleri, olasılık oranı ve Lagrange çarpan testleri için başka bir parametrik özellik verebiliriz.

Sadece bu şekilde öğrettiğimiz için utanç verici, çünkü ilk başta buluşmaları gerekmeyen varsayımlarla mücadele eden birçok insan görüyorum.

Neden daha güçlü teknikleri kolayca uygulayabildiğimizde, bu varsayımları bu kadar vurgulamıyoruz? Önemli bir şeyi mi özlüyorum?


2
Disiplinli bir şey gibi görünüyor. Tecrübelerime göre, en uç noktalarda, Ekonometri metinleri, her bir varsayımın satın aldığı çıkarımları hemen hemen her zaman kapsar ve Psikoloji metinleri, konu hakkında hiçbir şeyden söz etmez.
conjugateprior

12
Olsa da, OLS'ın MAVİ olması için homoscedastisite gereklidir.
Momo

4
Bence haklısın, bu varsayımlar gereğinden fazla dikkat çekiyor. Normallik veya şartlı eşcinselliğin başarısızlığı. çoğu uygulayıcının içsellik ve kötü tanımlanmış işlevsel biçimler gibi çıkarım amaçlarına zarar vermeyecek kadar yakın değildir.
CloseToC

2
@CloseToC bu çok iyi bir nokta. Genelde regresyon modelinin istatistiki teknikleri hakkında çok endişeliyiz, büyük resmi unutuyoruz ... modelim doğru tanımlanmış ve dışlayıcı mı? Bu, herhangi bir model oluştururken kendi kendine sormak için en önemli sorulardan biri olarak tekrarlanmalıdır.
Zachary Blumenfeld

Yanıtlar:


25

Ekonometride, normallik olmayışının Klasik Normal Doğrusal Regresyon Modelinin koşullarını ihlal ettiğini söylerken, heteroskedastisitenin hem CNLR hem de Klasik Doğrusal Regresyon Modelinin varsayımlarını ihlal ettiğini söyleyebiliriz.

Ancak "... OLS'yi ihlal ediyor" diyenler de haklı çıkarıldı: Sıradan En Küçük Kareler adı doğrudan Gauss'tan geliyor ve temel olarak normal hatalara atıfta bulunuyor . Başka bir deyişle "OLS", en küçük kareler kestirimi için bir kısaltma değildir (bu çok daha genel bir ilke ve yaklaşımdır), fakat CNLR'dir.

Tamam, bu tarih, terminoloji ve anlambilim idi. OP'nin sorusunun özünü şu şekilde anlıyorum: "Mevcut olmadığında durum için çözümler bulduysak, neden ideali vurgulamalıyız?" (CNLR varsayımları idealdir; mükemmel, en küçük kareler tahmin edici özellikleri "kullanıma hazır" ve asimptotik sonuçlara başvurmalarına gerek kalmadan sağlama açısından idealdir. ).

Bir ideal olarak, öğretime başlamak için iyi bir yer . Her türlü konuyu öğretmek için her zaman yaptığımız şey budur: "basit" durumlar, gerçek hayatta ve gerçek araştırmada karşılaşacakları karmaşıklıklardan arınmış ve kesin çözümler bulunmayan "ideal" durumlardır .

Ve OP’nin görevinde sorunlu bulduğum şey bu: “standartlar mükemmelmiş” gibi sağlam standart hatalar ve önyükleme hakkında yazıyor ya da OP’nin daha önce yazdığı tartışmalar altındaki varsayımların eksikliğine kusursuz çözümler sunuyor.

“.. insanların buluşmak zorunda olmadıkları varsayımları”

Neden? Çünkü durumla başa çıkmanın bazı yöntemleri var, tabi ki biraz geçerliliği olan yöntemler var, ama ideal olmaktan çok mu uzak? Önyükleme ve heteroskedastisite-sağlam standart hatalar , çözüm olmasalardı - gerçekten de öyle olsaydı, CLR ve CNLR'yi tarih kitaplarına gönderen baskın paradigma haline gelebilirlerdi. Ama onlar değil.

Bu nedenle, önemli bulduğumuz tahmin edici özellikleri garanti eden varsayımlar kümesinden başlıyoruz (arzu edilen olarak belirtilen özelliklerin gerçekten olması gereken olup olmadığına dair başka bir tartışma) bu varsayımların yokluğuyla başa çıkmak için bulduğumuz yöntemlerle tam olarak telafi edilemeyen sonuçlar. Bilimsel olarak konuşursak, “maddenin hakikatine giden yolu çizebiliriz” duygusunu iletmek gerçekten tehlikeli olurdu -çünkü basitçe yapamayız.

Bu nedenle, bir problem için kusurlu çözümler olarak kalırlar , bir şeyleri yapmak için alternatif ve / veya kesinlikle üstün bir yol değiller. Bu nedenle, önce problemsiz durumu öğretmemiz, daha sonra olası problemleri göstermemiz ve sonra olası çözümleri tartışmamız gerekir. Aksi takdirde, bu çözümleri gerçekten sahip olmadıkları bir duruma yükseltirdik.


Hmmm, demek istediğin buysa, "tamamen kanıtlanmış" deneyebilirsin.
dediklerinin - Monica Yeniden

@ Hayır, hayır, metotlar matematiksel anlamda "tam olarak kanıtlanmıştır", fakat gerçekte neleri sundukları (asimptotikle ilgili bu "küçük" detay ve değeri nedir) açısından kusursuz değillerdir. Düzeltmeniz doğru olandı.
Alecos Papadopoulos

22

Sınıfta, önyükleme ve bahsettiğiniz diğer teknikleri (tüm varsayımları, tuzaklar vb. Dahil) tartışmak için ilk olarak regresyon modellerini tanıtmak için zamanımız olsaydı, normallik hakkında konuşmanın gerekmediği konusunda hemfikir olurdum. ve homoscedastisite varsayımları. Fakat gerçekte, regresyon ilk tanıtıldığında diğer tüm şeyler hakkında konuşacak zamanımız yok, bu yüzden öğrencilerin muhafazakar olmalarını ve ihtiyaç duyulmayacak şeyleri kontrol etmelerini ve bir istatistikçiye danışmalarını (ya da başka bir istatistik almaları) tercih ederdik. Sınıf veya 2 veya 3, ...) varsayımlar geçerli olmadığında.

Öğrencilere, bu varsayımların ne zaman haricinde önemli olmadığını söylerseniz, çoğu zaman önemli değil sadece önemli olan kısımları hatırlayacaktır.

Eşit olmayan varyanslı bir vakamız varsa, evet, yine de en küçük kareler çizgisine sığabiliriz, ama yine de "en iyi" çizgi mi? ya da bu durumda nasıl sığınacaklarına dair daha fazla deneyime / eğitime sahip birine danışmak daha mı iyi olacaktır. En küçük kareler çizgisinden memnun olsak bile, tahminlerin yordayıcıların farklı değerleri için farklı özelliklere sahip olacağını kabul etmemeli miyiz? Bu yüzden eşit olmayan varyansların kontrolü, daha sonra yapılan yorumlar için iyidir, testler / aralıklar / vb. İçin ihtiyacımız olmasa bile. kullanıyoruz.


Söylediklerinizi, özellikle de önemli bir zaman kısıtlaması olduğunu anlıyor ve takdir ediyorum. Kurumumda gördüğüm şey, öğrenciler bu varsayımlarla mücadele ettiklerinde, genellikle gerekli danışmanlık alamadıkları veya alamadıklarıdır. Bu nedenle, model varsayımları temel alarak veya varsayımları ihlal etmek için klasik modeli kullanarak uygun olmayan projeler seçerek sona erdiler. Daha sağlam teknikler öğreterek öğrencilerin orada seçimlerde daha az kısıtlanacaklarını ve böylece gerçekten tutkulu oldukları projeleri takip etme yetkisine sahip olduklarını savunuyorum.
Zachary Blumenfeld

13
Öğretirken her zaman ideal bir durumla başlar, sonra her türlü komplikasyona girersiniz. Doktora düzeyinde ekonomentriklerde her tür garip şeyi öğretiyorlar, ancak oraya ulaşmak zaman alıyor. Çoğu insanın yüksek lisans düzeyinde bir yerden trenden inmesi bir eğitim sorunu olduğunu sanmıyorum. Aslında, asıl mesele, yarı pişmiş "veri bilimcileri" tarafından yapılan haşere istilasının olduğunu iddia ediyorum, sol ve sağ süslü R paketlerini uygulayan, ne yaptıkları ve mücadele ettikleri hakkında hiçbir fikrinin olmadığı istatistiklerin temellerini neredeyse bilen Çıktıları anlayabilecektir.
Aksakal

@Aksakal, bu çok sayıda kendine güvenen, yetersiz kalifiye analistleri tam olarak nerede görüyorsunuz? Çünkü daha sık karşılaştığım şey tam tersi. İnsanlar, algılanan bir uzmandan ilk önce onay alınmadıkça, öğrendikleri teknikleri denemekten korkuyorlar. Sadece bu sitede, daha tecrübeli / yapıcı bir soru ne zaman olabilir mi? .... "
rolando2

18

1) nadiren insanlar sadece tahmin etmek ister. Genellikle çıkarım - CI'ler, PI'ler, testler - amaç ya da en azından bir kısmı (bazen göreceli olarak gayrı resmi olarak yapılsa bile)

2) Gauss Markov teoremi gibi şeyler mutlaka fazla yardımcı değil - eğer dağılım normalden yeterince uzaksa, doğrusal bir tahminci çok fazla kullanılmaz. Doğrusal tahmin edicinin çok iyi olmaması durumunda, MAVİ'yi almanın bir anlamı yoktur.

3) sandviç tahmin ediciler gibi şeyler çok sayıda gizli parametre içerir. Çok fazla bilginiz varsa hala sorun olabilir, ama çoğu zaman insanlar yok.

4) Tahmin aralıkları, gözlemdeki varyansı iyi bir şekilde ele almayı da içeren koşullu dağılımın şekline dayanır - ayrıntıları PI ile kolayca o kadar kolay sallayamazsınız.

5) bootstrapping gibi şeyler genellikle çok büyük örnekler için kullanışlıdır. Bazen küçük örneklerde bile mücadele ederler - hatta orta büyüklükte örneklerde bile, çoğu zaman gerçek kapsam özelliklerinin reklam gibi bir şey olmadığını görürüz.

Söylenecek olan - birkaç şey, insanların olmasını istedikleri türden bir derde devadır. Bunların hepsinin kendi yeri vardır ve kesinlikle (örneğin) normalliğin gerekli olmadığı ve tahmin ve çıkarımın (testler ve CI'ler) zorunlu olarak normalliğe, sürekli varyansa vb. Gerekmeksizin makul bir şekilde yapılabileceği durumlar vardır.

Çoğu zaman unutulmuş görünen bir şey, bunun yerine yapılabilecek diğer parametrik varsayımlardır. Genellikle insanlar oldukça iyi bir parametrik varsayım yapmak için bir durum hakkında yeterince bilgi sahibi olurlar (örneğin, koşullu cevabın sd ile doğru orantılı olarak doğru çarpık olma eğiliminde olacağı söylenir); genellikle bu, bir seferde hem heteroskedastisite hem de normal olmayan durumlarla başa çıkabilir.

Çok kullanışlı bir araç simülasyondur - bununla birlikte, araçlarımızın özelliklerinin, verilerimizin ortaya çıktığı gibi göründüğü gibi durumlarında inceleyebiliriz ve bu yüzden bunları, bu durumlarda iyi özelliklere sahip olduklarını rahatlatıcı bilgilerinde kullanabiliriz ( ya da bazen, umduğumuz kadar iyi çalışmadıklarını görün.


"nadiren yalnızca insanlar tahmin etmek ister" - kurumsal finansman ve ekonomide, insanlar belirli bir değişkenin etkisini gösterecek çok şey tahmin ediyorlar. Yazarların güven aralıklarına bile bakmadıkları, normal varsayımlar altında elbette önemini fark ettikleri bir ton kağıt okudum.
Aksakal

6
@Aksakal iyi, evet, ama standart hatalara veya t-değerlerine veya p-değerlerine vb. Dikkat ediyorlarsa ... o zaman benim tahminimle sadece tahmin etmek istemiyorlar. Biçimsel olarak aralıkları test ettikleri / yapıp yapmamaları ya da yapmamaları, bu diğer şeylere bakmaları için - ancak gayrı resmi olarak - anlamlı olmaları için ilk başta anlamlarının olması gerekir.
Glen_b
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.