Regresyon analizi yeni başlayanlar için zordur, çünkü farklı başlangıç varsayımlarının ima ettiği farklı sonuçlar vardır. Zayıf başlangıç varsayımları sonuçların bazılarını haklı çıkartabilir, ancak daha güçlü varsayımlar eklediğinizde daha güçlü sonuçlar elde edebilirsiniz. Sonuçların matematiksel olarak türetilmesine aşina olmayan insanlar, bir sonucu için gerekli varsayımları, ya da sonuçları istenen bir sonuç elde etmek için çok zayıf bir şekilde pozlayarak ya da bir sonuç için gerekli olduğu inancında bazı gereksiz varsayımları pozlayarak yanlış anlayabilirler. .
Ek sonuçlar elde etmek için daha güçlü varsayımlar eklemek mümkün olsa da, regresyon analizi , yanıt vektörünün koşullu dağılımı ile ilgilidir . Bir model bunun ötesine geçerse, çok değişkenli analiz alanına giriyor ve kesinlikle (sadece) bir regresyon modeli değil. Mesele, koşullu dağılımlar olduklarını (tasarım matrisindeki açıklayıcı değişkenler göz önüne alındığında) belirtmek için her zaman dikkatli olmadan regresyondaki dağılım sonuçlarına başvurmanın yaygın olması gerçeği ile daha da karmaşık hale gelir. Modellerin koşullu dağılımların ötesine geçtiği durumlarda (açıklayıcı vektörler için marjinal bir dağılım varsayarak) kullanıcı bu farkı belirtmek için dikkatli olmalıdır; Maalesef insanlar buna her zaman dikkat etmiyorlar.
Homoskedastic linear regresyon modeli: Genellikle kullanılan en erken başlangıç noktası, herhangi bir normallik varsayımı olmadan model formunu ve ilk iki hata-anını varsaymaktır:
Y=xβ+εE(ε|x)=0V(ε|x)∝I.
Bu kurulum, katsayılar için OLS tahmincisini, hata varyansı için tarafsız tahmin ediciyi, artıkları ve tüm bu rasgele niceliklerin momentlerini (tasarım matrisindeki açıklayıcı değişkenlere bağlı olarak) elde etmenize izin vermek için yeterlidir. Bu miktarların tam koşullu dağılımını elde etmenize izin vermez, ancak büyükse ve sınırlayıcı davranışına bazı ek varsayımlar konulursa, asimptotik dağılımlara itiraz edilmesine izin verir . Daha ileri gitmek için, hata vektörü için belirli bir dağılım formu varsaymak yaygındır.xnx
Normal hatalar: Homoskedastik lineer regresyon modelinin çoğu tedavisi, hata vektörünün normal olarak dağıldığını varsaymaktadır, bu, moment varsayımları ile birlikte şunları verir:
ε|x∼N(0,σ2I).
Bu ek varsayım, katsayılar için OLS tahmin edicisinin model için MLE olmasını sağlamak için yeterlidir ve ayrıca katsayı tahmin edicisinin ve artıkların normalde dağıldığı ve hata varyansı için tahmin edicinin ölçeklendirilmiş ki-kare dağılımına sahip olduğu anlamına gelir (tümü tasarım matrisindeki açıklayıcı değişkenlere şartlı). Ayrıca, cevap vektörünün koşullu olarak normal şekilde dağılmasını sağlar. Bu analizde, güven aralıklarının ve hipotez testlerinin oluşturulmasına izin veren açıklayıcı değişkenlere bağlı dağılım sonuçları verir. Analist, cevabın marjinal dağılımına ilişkin bulgular yapmak isterse, daha ileri gitmeleri ve modeldeki açıklayıcı değişkenler için bir dağıtım yapmaları gerekir.
Ortak-normal açıklayıcı değişkenler: Homosidastik lineer regresyon modelinin bazı tedavileri standart tedavilerden daha ileri düzeydedir ve sabit açıklayıcı değişkenlerde şart koşmaz. (Muhtemelen bu, regresyon modelinden çıkıp çok değişkenli analize geçiştir.) Bu türden en yaygın model, açıklayıcı vektörlerin IID eklem-normal rastgele vektörler olduğunu varsayar. İzin vermek olmak inci açıklayıcı vektörü ( matrisinin inci satır) elde ederiz: i iX(i)ii
X(1),...,X(n)∼IID N(μX,ΣX).
Bu ek varsayım, cevap vektörünün marjinal olarak normal şekilde dağılmasını sağlamak için yeterlidir. Bu güçlü bir varsayımdır ve genellikle çoğu soruna dayatılmaz. Belirtildiği gibi, bu model, regresyon modelleme alanı dışına ve çok değişkenli analizlere götürür.