Cevap hayır önyargı ve varyans veri bunları tahmin etmek için kullanılan ziyade, model parametrelerinin nitelikleridir çünkü. Bu ifadede, öngörü alanı boyunca sapma ve sapma (ha!) İle ilgili kısmi bir istisna vardır; daha fazlası. Bunun, yordayıcılar ve yanıt değişkenleri ile ilgili bazı "doğru" işlevleri bilmekle hiçbir ilgisi olmadığını unutmayın.
Tahminini düşünün β doğrusal bir regresyonda, β^=(XTX)−1XTY, nerede X bir N×P tahmin matrisi, β^ bir P×1 parametre tahminlerinin vektörü ve Y bir N×1vektör. Tartışmanın aşkına, çizmek için sonsuz bir veri popülasyonuna sahip olduğumuzu varsayalım (bu tamamen saçma değil, bu arada - eğer bazı fiziksel süreçlerden aktif olarak veri kaydediyorsak, öngörücü ve yanıt verilerini hızlı bir şekilde kaydedebilirdik böylece pratik olarak bu varsayımı karşılar). Yani çiziyoruzN her biri tek bir yanıt değeri ve her biri için bir değer içeren gözlemler Pbelirleyiciler. Sonra tahminimizi hesaplıyoruzβ^ve değerleri kaydedin. O zaman tüm bu süreci alalım ve tekrar edelimNiter kere, her seferinde Nnüfustan bağımsız çekimler. BirikireceğizNiter tahminleri β^üzerinde parametre vektöründeki her elemanın varyansını hesaplayabiliriz. Bu parametre tahminlerinin varyansının ters orantılı olduğunu unutmayın.N ve orantılı P, yordayıcıların dikliği varsayar.
Her parametrenin sapması benzer şekilde tahmin edilebilir. "Gerçek" işlevine erişimimiz olmayabilir, ancak diyelim ki hesaplamak için nüfustan keyfi olarak çok sayıda çekiliş yapabiliriz.β^best"true" parametre değeri için bir proxy görevi görür. Bunun tarafsız bir tahmin (normal en küçük kareler) olduğunu ve kullanılan gözlem sayısının, bu tahminin varyansı ihmal edilebilir olacak şekilde yeterince büyük olduğunu varsayacağız. Her biri içinP parametreleri, hesaplıyoruz β^bestj−β^j, nerede j aralığından 1 için Niter. Bu farklılıkların ortalamasını karşılık gelen parametredeki sapmanın bir tahmini olarak alıyoruz.
There are corresponding ways of relating bias and variance to the data itself, but they're a little more complicated. As you can see, bias and variance can be estimated for linear models, but you will require quite a bit of hold-out data. A more insidious problem is the fact that once you start working with a fixed dataset, your analyses will be polluted by your personal variance, in that you'll have already begun wandering through the garden of forking paths and there's no way of knowing how that would replicate out-of-sample (unless you just came up with a single model and ran this analysis and committed to leaving it alone after that).
Veri noktalarının kendileriyle ilgili olarak, en doğru (ve önemsiz) cevap, arasında herhangi bir fark varsa Y ve Y^, daha karmaşık bir modele ihtiyacınız vardır (ilgili tüm öngörücüleri doğru bir şekilde tanımlayabileceğinizi varsayarak; yapamazsınız). "Hata" nın felsefi doğası üzerine sıkıcı bir inceleme yapmadan, sonuçta modelinizin işaretini kaçırmasına neden olan bir şey vardı. Sorun, karmaşıklık eklemenin varyansı arttırmasıdır, bu da diğer veri noktalarındaki işareti kaçırmasına neden olacaktır. Bu nedenle, tek tek veri noktası düzeyinde hata ilişkilendirmesi hakkında endişelenmenin verimli bir çaba olması muhtemel değildir. İstisna (ilk paragrafta bahsedilen), önyargı ve varyansın aslında öngörücülerin işlevleri olduğu gerçeğinden kaynaklanmaktadır, bu nedenle öngörme alanının bir kısmında büyük bir önyargıya ve bir diğerinde (sapma için aynı) daha küçük önyargıya sahip olabilirsiniz. Bunu hesaplayarak hesaplayabilirsinizY−Y^ birçok kez (nerede Y^=Xβ^ ve β^ was not estimated based on Y) ve sapma (ortalama) ve varyansının değerlerinin bir fonksiyonu olarak çizilmesi X. Ancak, bunun oldukça özel bir endişe olduğunu düşünüyorum.