Doğrusal regresyon teşhisini hangi sırayla yapmalısınız?


24

Doğrusal regresyon analizinde, aykırıkları analiz eder, çoklu bağdaşıklığı araştırır, heteroscedastisite test eder.

Soru şudur: Bunları uygulamak için herhangi bir sipariş var mı? Demek istediğim, önce aykırı değerleri analiz etmemiz ve sonra çok kutuplulukları incelememiz gerekir mi? Veya geri?

Bununla ilgili herhangi bir kural var mı?


2
Bazı zorlu kurallar: Herhangi bir montaj yapmadan önce, eşitliğini araştırmalısınız . Eğer mevcut olduğunu bulursanız, (a) eşdoğallığı ele alan bir yöntem kullanmalı, (b) genel özellikleri kaldırmalı ya da (c) özelliklerinizi değiştirmelisiniz (örneğin PCA kullanarak). Bir model hazırladıktan sonra, artıklarda heterosistemikliği arayabilirsiniz. Genel olarak, öngörücü bir model yapıyorsanız, aykırı değerleri kaldırmamalısınız. Bunun yerine, aykırı değerlerin varlığına dayanıklı bir yöntem kullanın.
Chris Taylor

1
Bir kimse, eşitliğini en iyi nasıl araştırır? Tahmincilerin korelasyon matrisinin köşegen dışı unsurlarına mı bakıyorsunuz?
miura

1
Eşitliği araştırmanın en iyi yolu, durum indeksleri ve onlar tarafından açıklanan varyans oranıdır. Yüksek korelasyon, eşzamanlılık için ne gerekli ne de yeterli bir durumdur.
Peter Flom - Reinstate Monica

Yanıtlar:


28

İşlem yinelemeli, ancak doğal bir düzen var:

  1. Öncelikle tamamen sayısal hatalara neden olan koşullar hakkında endişelenmelisiniz . Çok kutuplu olma, bunlardan biridir, çünkü potansiyel olarak düpedüz yanlış cevaplarla sonuçlanan dengesiz denklem sistemlerini üretebilir (16 ondalık basamağa kadar…) Buradaki herhangi bir sorun, genellikle düzeltilene kadar devam edemeyeceğiniz anlamına gelir. Multicollinearity genellikle Variance Inflation Factors kullanılarak ve "hat matrisinin" benzer şekilde incelenmesiyle teşhis edilir. Bu aşamadaki ek kontroller, veri setindeki eksik değerlerin etkisinin değerlendirilmesini ve önemli parametrelerin tanımlanabilirliğinin doğrulanmasını içerebilir. (Ayrık bağımsız değişkenlerin eksik kombinasyonları bazen burada sorunlara neden olabilir.)

  2. Daha sonra, çıktının verilerin çoğunu yansıttığı veya küçük bir alt kümeye duyarlı olup olmadığı konusunda endişelenmeniz gerekir . İkinci durumda, daha sonra yapacağınız her şey yanıltıcı olabilir, bundan kaçınılmalıdır. Prosedürler aykırı değerlerin ve kaldıraçların incelenmesini içerir . (Yüksek kaldıraçlı bir veri bir outlier olmayabilir, ancak tüm sonuçları haksız yere etkilese bile.) Regresyon prosedürüne sağlam bir alternatif varsa, bunu uygulamak için iyi bir zamandır: benzer sonuçlar ürettiğini kontrol edin ve dış değerleri tespit etmek için kullanın.

  3. Son olarak, sayısal olarak sabit (hesaplamalara güvenebileceğiniz) ve tüm veri setini yansıtan bir duruma ulaşmış olmanız , çıktının doğru bir şekilde yorumlanması için ihtiyaç duyulan istatistiksel varsayımların incelenmesine başvurursunuz . Öncelikle bu kaygılar - kabaca bir önem sırasına göre - artıkların dağılımlarına (heterosistemiklik dahil, fakat aynı zamanda simetriye, dağılım şekline, öngörülen değerlerle veya diğer değişkenlerle olası korelasyona ve otokorelasyona), uygunluğa etkileşimli terimler için olası ihtiyaç), bağımlı değişkeni yeniden ifade edip etmeme ve bağımsız değişkenleri yeniden ifade edip etmeme.

Herhangi bir aşamada, bir şeyin düzeltilmesi gerekiyorsa, başlangıcına dönmek akıllıca olacaktır. Gerektiği kadar tekrarlayın.


2
Aslında VIF'ler yerine durum indekslerini kullanmayı tercih ediyorum. Bir süre önce bu konuda tezimi yaptım.
Peter Flom - Reinstate Monica

1
@Peter İyi nokta. Ben de durum endekslerini tercih ediyorum, ama bana öyle geliyor ki VIF'ler şimdi çok popüler.
whuber

whuber, bugün daha önceki yorumunuzdan buraya geldim. Doktora sonrası multicollinearity ile ilgili bazı endişeler hakkında bir istatistikçiye danıştım. IV'lerin bir regresyondaki niteliğine bağlı olarak, kollektifliğin yapısal olarak modellenen fenomenlerin bir parçası olarak kabul edilebileceği görüşünü dile getirdi. Muhtemelen onun hassas dilini yönetiyorum ve adını tekrar bulmak için bile kazmak zorunda kalacağım, ama bu satırlar boyunca çok kutupluluk hakkında farklı bir akıl yürütmeyi motive edecek herhangi bir metin biliyor musunuz? Sadece şanssız bir soru. :)
Alexis

@Alexis İstatistiğin nüanslı ve sofistike bir çoklu bağlanma kavramı olduğu anlaşılıyor. Açıkça ifade eden herhangi bir ders kitabını düşünemiyorum.
whuber

Sadece onu izlemem ve ona sormam gerekecek. :)
Alexis

3

Bence bu duruma bağlı. Belirli bir sorun beklemiyorsanız, muhtemelen bunları herhangi bir sırayla kontrol edebilirsiniz. Aykırı olanları bekliyorsanız ve algıladıktan sonra çıkarmak için bir nedeniniz varsa, önce aykırı olanları kontrol edin. Modelle ilgili diğer konular gözlemler kaldırıldıktan sonra değişebilir. Bundan sonra, çok parçalılık ve heteroscedastiklik arasındaki düzen önemli değil. Chris ile aykırıların keyfi çıkarılmaması gerektiğine katılıyorum. Gözlemlerin yanlış olduğunu düşünmek için bir nedene ihtiyacınız var.

Elbette eğer çok kutupluluk veya heterosistemiklik gözlemlerseniz, yaklaşımınızı değiştirmeniz gerekebilir. Çoklu bağlantı problemi kovaryans matrisi içinde gözlenir ancak kaldıraç noktaları bakmak gibi çoklu doğrusal ve diğer sorunlara tespit etmek için spesifik tanı testleri yoktur Regresyon Teşhis kitabından Belsley, Kuh ve Welsch veya biri Dennis Cook'un regresyon kitaplar .


9
Michael, Gelecekte, biçimlendirme seçeneklerini kullanabilir misiniz? (Bağlantı eklemek için doğru anahtar ctrl-c değil ctrl-l'dir).
user603
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.