Teşhis neden artıklara dayanıyor?

Basit doğrusal regresyonda, genellikle çıkarım yapabilmek için belirli varsayımların karşılanıp karşılanmadığını doğrulamak ister (örn. Artıklar normal olarak dağıtılır).

Takılan değerlerin normal olarak dağıtılıp dağıtılmadığını kontrol ederek varsayımları kontrol etmek makul müdür?

regression residuals diagnostic

— bdeonovic
kaynak

Teşhis neden artıklara dayanıyor?

Çünkü varsayımların çoğu , koşulsuz dağılımı değil, koşullu dağılımı ile ilgilidir . Bu, kalanlar tarafından tahmin ettiğimiz hatalar üzerindeki bir varsayımla eşdeğerdir. $Y$

Basit doğrusal regresyonda, genellikle çıkarım yapabilmek için belirli varsayımların karşılanıp karşılanmadığını doğrulamak ister (örn. Artıklar normal olarak dağıtılır).

Asıl normallik varsayımı artıklarla değil hata terimiyle ilgilidir. Sahip olduklarınıza en yakın şey artıklar, bu yüzden onları kontrol ediyoruz.

Takılan değerlerin normal olarak dağıtılıp dağıtılmadığını kontrol ederek varsayımları kontrol etmek makul müdür?

No monte değerlerinin dağılımı paternine bağlıdır 's. Varsayımlar hakkında size fazla bir şey söylemiyor. $x$

Örneğin, simüle edilmiş veriler üzerinde, tüm varsayımların doğru bir şekilde belirtildiği bir gerileme yaptım. Örneğin hataların normalliği tatmin edildi. Takılan değerlerin normalliğini kontrol etmeye çalıştığımızda aşağıdakiler olur:

donanımlarda normalite teşhisi

Açıkça normal değiller; aslında bimodal görünüyorlar. Neden? Uygun değerlerin dağılımı 'lerin modeline bağlı olduğu için . Hatalar normaldi, ancak takılan değerler neredeyse her şey olabilir. $x$

İnsanlar genellikle (aslında, çok daha sık) kontrol Başka bir şey normalliği olan ler ... ama koşulsuz üzerinde ; yine, bu s modeline bağlıdır ve bu nedenle gerçek varsayımlar hakkında fazla bir şey söylemez. Yine, varsayımların hepsinin bulunduğu bazı veriler oluşturdum; koşulsuz değerlerinin normalliğini kontrol etmeye çalıştığımızda : $y$ $x$ $x$ $y$

ham y değerlerinde normalite teşhisi

Yine, burada bakınız olmayan normalite (y en eğri olan) koşullu normallik ilişkili değildir s. $y$

Aslında ben (koşullu dağılımı ve şartsız dağılımı arasındaki bu ayrım geçen o yanımda şu anda bir ders kitabı var , bu erken bir bölümde açıklar sadece dağılımına bakarak neden -) ler değil' sağ ve sonra tekrar tekrar izleyen bölümlerde çekleri dağılımına bakarak normallik varsayımı içinde değerlerinin etkisini dikkate almadan 'ler varsayımların uygunluğunu (genellikle yapar başka bir şey de sadece bakmak için değerlendirmek bu değerlendirmeyi yapmak için histogramlar, ancak bu başka bir sorun ). $Y$ $y$ $-$ $y$ $-$ $x$ $-$

Varsayımlar nelerdir, bunları nasıl kontrol ederiz ve ne zaman yapmamız gerekir?

(hatasız gözlenmiştir) sabit bir şekilde monte sitesindeki tedavi edilebilir. Genel olarak bunu teşhis amaçlı olarak kontrol etmeye çalışmıyoruz (ancak bunun doğru olup olmadığı konusunda iyi bir fikrimiz olmalı). $x$
ve modeldeki arasındaki ilişki doğru bir şekilde belirtilir (örn. Doğrusal). En uygun doğrusal modeli çıkarırsak, artıkların ortalaması ile arasındaki ilişkide kalan bir model olmamalıdır . $E(Y)$ $x$ $x$
Sabit varyans (yani bağlı değildir . Hataların yayılması sabittir; bunun karşı artıkların yayılmasına bakarak kontrol edilebilir veya bazı işlev işaretleyerek kare kalıntıların karşı ve ortalamadaki değişikliklerin kontrol edilmesi (örneğin, günlük ya da kare kök gibi fonksiyonlar. R, kare kalıntıların dördüncü kökünü kullanır). $\text{Var}(Y|x)$ $x$ $x$ $x$
Koşullu bağımsızlık / hataların bağımsızlığı. Belirli bağımlılık biçimleri kontrol edilebilir (örneğin, seri korelasyon). Eğer bağımlılık biçimini tahmin edemiyorsanız, kontrol etmek biraz zor.
Normallik / koşullu hataların koşullu dağılımı . Örneğin, kalıntıların QQ çizimi yapılarak kontrol edilebilir. $Y$

(Aslında bahsetmediğim, ek hatalar, hataların sıfır ortalamaya sahip olduğu gibi bazı varsayımlar vardır.)

Standart hatalar değil, yalnızca en küçük kareler çizgisinin uygunluğunu tahmin etmekle ilgileniyorsanız, bu varsayımların çoğunu yapmanız gerekmez. Örneğin, hataların dağılımı çıkarımı (testler ve aralıklar) etkiler ve tahminin verimliliğini etkileyebilir, ancak LS hattı hala en iyi doğrusal tarafsızdır; Bu nedenle, dağıtım tüm doğrusal tahmin edicilerin kötü olacağı kadar normal değilse, hata terimiyle ilgili varsayımlar geçerli değilse bu bir sorun olmak zorunda değildir.

— Glen_b-Monica'yı eski durumuna döndür
kaynak

Cevabıma bazı diyagramlar ekledim.

— Glen_b Monica

Bu harika bir cevap. Daha fazlasını istiyorsanız, burada biraz benzer bir bölgeyi kapsıyorum: Ya normalde artıklar dağıtılırsa, Y değilse?

— gung - Monica'yı eski durumuna getirin

@gung Önce ona bağlanmadığım için kendimi tekmeliyorum.

— Glen_b

@Glen: Çok iyi bir eğilim. Uzun zamandır aynı karışıklığı yaşadım, ders kitaplarındaki ve internetteki kaynakların çoğunda o kadar iyi davranılmadı. Öte yandan, koşullu dağılım için, özellikle zaman serileri bağlamında bir model çıkarmak için Y'nin koşulsuz dağılımı neredeyse her zaman incelenir. Arkasında teorik bir muhakeme var mı? Bir soru olarak sormaya çalıştım ama bence düzgün ifade edemedi: stats.stackexchange.com/questions/74886/…

— Çağdaş Özgenc

@CagdasOzgenc Bunu düşünebilmemin tek nedeni, bir modeliniz olmadan önce yapmanın kolay olması. Bu bağlantılı soruya verdiğiniz cevap, yayınlandığında bana iyi bir cevap gibi görünüyordu.

— Glen_b-Monica