Bir olasılık dağılımından rastgele bir çekilmeden kaynaklanan bireysel bir sayının (artık gibi) rastgele bir değişken değil, gerçekleşmiş bir değer olduğunu söyleyebilirim . Aynı şekilde şunu söyleyebilirim kiN verilerinizden hesaplanan artıklar ve modeliniz e=y−y^, gerçekleşen değerler kümesidir. Bu sayı kümesi, temeldeki bir dağıtımdan bağımsız çekiliş olarak gevşek bir şekilde kavramsallaştırılabilirϵ ~ N(μ,σ2). (Ne yazık ki, burada birkaç ek karmaşıklık var. Örneğin, aslındaN bağımsız bilgi parçaları, çünkü artıklar, e, iki koşulu karşılamalıdır: ∑ei=0, ve ∑xiei=0.)
Şimdi, bazı sayılar kümesi göz önüne alındığında, artıklar ya da her neyse, bir varyansları olduğu kesinlikle doğrudur, ∑(ei−e¯)2/N, ama bu ilginç değil. Önem verdiğimiz şey, veri oluşturma süreci hakkında bir şeyler söyleyebilmektir (örneğin, nüfus dağılımının varyansını tahmin etmek). Önceki formülü kullanarak, bu formülü değiştirerekNkalan serbestlik dereceleriyle, ancak bu iyi bir yaklaşım olmayabilir. Bu çok hızlı bir şekilde karmaşıklaşabilen bir konudur, ancak birkaç olası neden heterossedastisite olabilir (yani, popülasyonun varyansı farklı seviyelerde farklı olabilir)x) ve aykırı değerlerin varlığı (yani, belirli bir artık tamamen farklı bir popülasyondan çekilir). Neredeyse kesinlikle, pratikte, bir aykırı değer çizilen nüfusun varyansını tahmin edemezsiniz, ancak yine de teoride, bir varyansı vardır. Bu satırlar boyunca yazarların aklında olan şeylerden şüpheleniyorum, ancak o kitabı okumadığımı not etmeliyim.
Güncelleme: Soruyu tekrar okuduktan sonra, teklifinx- bir noktanın değeri, takılan regresyon hattını ve dolayısıyla o nokta ile ilişkili tortunun değerini etkiler. Burada anlaşılması gereken temel fikir kaldıraçtır . Bu konuları şu cevabımda tartışıyorum : Interpreting plot.lm () .