Doğrusal bir model takıldıktan sonra, takılan artıkların yanlılık ve varyansa ayrıştırılması mümkün müdür?

9

Veri noktalarını ya daha karmaşık bir modele ya da daha karmaşık bir modele ihtiyaç duymadan sınıflandırmak istiyorum. Şu anki düşüncem, tüm verileri basit bir doğrusal modele uydurmak ve bu sınıflandırmayı yapmak için artıkların boyutunu gözlemlemektir. Daha sonra hataya olan önyargı ve sapma katkıları hakkında biraz okuma yaptım ve doğrudan önyargı hesaplayabilirsem, toplam hatayla (artık veya standart artık) çalışmanın daha iyi bir önlem olabileceğini fark ettim.

Yanlılığı doğrudan doğrusal bir modelle tahmin etmek mümkün müdür? Test verisi olsun veya olmasın? Çapraz doğrulama burada yardımcı olur mu?

Değilse, önyargıyı yaklaşık olarak belirlemek için ortalamalı bir bootstrapping topluluğu doğrusal modellerin (bence torbalama olarak adlandırılır) kullanabilir mi?

— kmace
kaynak

1

Belki bunlar eşdeğerdir (artık ve yanlılık) çünkü varyans sabittir?

— kmace

1

Yayınınızın ilk ifadesiyle ne demek istediğinizi açıklayabilir misiniz? Burada "veri noktalarını" (bireysel gözlemler?) "Daha karmaşık daha fazlasına ihtiyaç duyuyor ya da daha karmaşık bir modele ihtiyaç duymuyor" olarak sınıflandırmak istiyorsunuz. Bunun tam olarak ne anlama geldiğini (daha aykırı bir algılama veya başka bir uyum iyiliği tipi problemi gibi görünse de) ya da önyargı tahminiyle ilgili daha sonraki sorularla nasıl ilgili olduğu bana açık değil.

— Ryan Simmons

Demek istediğim, hedef fonksiyonu farklı olan örneklerimin bir alt kümesi var . Diyelim ki çoğu örnek için gerçek hedef fonksiyon aşağıdaki gibidir: ve örneklerin azınlığı için hedef fonksiyon: . Ben (benim hipotez seti bunları içermez) benim modelinde etkileşim terimleri izin vermez, o zaman hedef fonksiyonu olan tüm verileri sığdırmak ve muhtemelen büyük bir hata olduğunu örneklerini görmelisiniz

f (x)

$f(x)$

f_{1} (x) = 3 x_{1} + 2 x_{2}

$f_1(x) = 3x_1 + 2x_2$

f_{2} (x) = 3 x_{1} + 2 x_{2} + x_{1} x_{2}

$f_2(x) = 3x_1 + 2x_2 + x_1x_2$

f_{2}

$f_2$

— kmace

2

Ryan'ın belirttiği gibi, soru çok açık bir şekilde ifade edilmedi. Yorumunuz "uygunluk" yönüne işaret ediyor. Ama bunu tersine çevirmek imkansız. Aklınızda yanıltıcı olan bir ön kavram var gibi görünüyor. Bir modeli ve bazı verileri birleştirir ve model parametrelerini belirlerseniz, birçok şeyi hesaplayabilirsiniz. Ancak her zaman istatistiksel olarak sınırlı bir veri kümesiyle başladığınız göz önüne alındığında, daha fazla kazma veya daha fazla kürekle ortaya çıkarabileceğiniz hiçbir gerçek yoktur. Uyguladığınız hiçbir yöntem gerçeği vermez, ancak ne kadar yanlış olabileceğinizi gösterebilir.

— Cherub

12

Genelde hatayı (kalıntıları) sapma ve varyans bileşenlerine ayıramazsınız. Bunun basit nedeni, genellikle gerçek işlevi bilmemenizdir. Hatırlamak $bias(\hat f(x)) = E[\hat f(x) - f(x)],$ ve şu $f(x)$ tahmin etmek istediğiniz bilinmeyen şeydir.

Önyükleme ne olacak? Bir tahmin edicinin önyargısını önyükleme yaparak tahmin etmek mümkündür, ancak torbalama modelleri ile ilgili değildir ve önyargıyı değerlendirmek için önyüklemeyi kullanmanın bir yolu olduğuna inanmıyorum $\hat f(x),$ çünkü önyükleme hala Gerçeğin bir nosyonuna dayanır ve isminin kökenine rağmen hiçbir şeyden bir şey yaratamaz.

Açıklığa kavuşturmak için: tahmin edicideki önyargı önyüklemesi tahmini $\hat \theta$ dır-dir

{\hat{b i a s}}_{B} = {\hat{θ}}^{*} (\cdot) - \hat{θ},

$\widehat{bias}_B = \hat\theta^*(\cdot) - \hat \theta,$

ile $\hat\theta^*(\cdot)$ hesaplanan istatistiğin ortalaması olmak $B$ önyükleme örnekleri . Bu süreç, bazı popülasyonlardan örnekleme ve ilgi miktarınızı hesaplama sürecini taklit eder. Bu sadece aşağıdaki durumlarda çalışır $\hat\theta$ prensip olarak doğrudan nüfustan hesaplanabilir. Bootstrap önyargı tahmini, eklenti tahmininin (yani sadece popülasyon yerine bir örnek üzerinde aynı hesaplamanın yapılması) önyargılı olup olmadığını değerlendirir.

Kalıntılarınızı model uyumunu değerlendirmek için kullanmak istiyorsanız, bu tamamen mümkündür. Yorumlarda söylediğin gibi, iç içe modelleri karşılaştırmak istiyorsan $f_1(x) = 3x_1 + 2x_2$ ve $f_2(x) = 3x_1 + 2x_2 + x_1x_2$ , daha büyük modelin kare hata toplamını önemli ölçüde azaltıp azaltmadığını kontrol etmek için ANOVA yapabilirsiniz.

— einar
kaynak

8

Ayrışmanın bir tahminini alabileceğiniz durumlardan biri, çoğaltılmış noktalarınız varsa (yani, tahmin edicilerin çeşitli kombinasyonları için birden fazla yanıta sahip olmanız).

Bu, çoğunlukla bağımsız değişkenlerin (deneylerde olduğu gibi) kontrolüne sahip olduğunuz veya hepsinin ayrık olduğu (çok fazla x-kombinasyonu olmadığında ve x-değeri kombinasyonlarından yeterince büyük bir örnek alabileceğiniz durumlarla sınırlıdır. birden fazla puan alın).

Çoğaltılan noktalar, koşullu ortalamayı tahmin etmenin modelsiz bir yolunu sunar. Bu gibi durumlarda, kalan karelerin toplamının saf hataya ve uyum eksikliğine ayrılması olasılığı vardır , ancak aynı zamanda, birden fazla yanıta sahip olduğunuz her bir x-değer kombinasyonundaki önyargıların doğrudan (mutlaka gürültülü olmasına rağmen) tahminleriniz vardır.

— Glen_b-Monica'yı eski durumuna döndür
kaynak

Bunun işe yarayacağını sanmıyorum. Modelinizden önemli bir açıklayıcı değişkeni atladığınız durumu düşünün. Eğer bu açıklayıcı değişken diğer açıklayıcı değişkenlerin hepsiyle dikey ise, bunun etkisi (ya da eksikliği) bu ya da diğer cevaplarda önerilen başka herhangi bir metodoloji ile tespit edilemez.

— Çağdaş Özgenç

2

@Cagdas Her koşulda çalışmaz; yanlış tanımlanmış model formundaki önyargıyı tespit eder, mutlaka yordayıcıları

— kaçırmaz

1

Biraz daha karmaşık Kalman filtreleme alanında, bazen insanlar model değişikliklerini veya arıza koşullarını aramak için kalıntıları test eder (gözlemlenen ölçümler eksi tahmin edilen ölçümler). Teoride, eğer model mükemmelse ve gürültü Gaussian ise, artıklar da sıfır ortalama ile Gaussian olmalı ve aynı zamanda tahmin edilen bir kovaryans matrisi ile tutarlı olmalıdır. İnsanlar Sıralı Olasılık Oranı Testi (SPRT) gibi ardışık testlerle sıfır olmayan ortalamayı test edebilir. Durumunuz farklıdır, çünkü sürekli yeni veri akışı yerine sabit bir veri grubunuz vardır. Ancak, artıkların örnek dağılımına bakmanın temel fikri hala geçerli olabilir.

Modellemekte olduğunuz işlemin zaman zaman değişebileceğini belirtirsiniz. Ardından, sahip olduğunuz verilerle daha fazlasını yapmak için, muhtemelen bu değişikliğe neden olan diğer faktörleri tanımlamanız gerekir. 2 olasılığı göz önünde bulundurun: (1) belki de bir küresel model yerine yerel modellere ihtiyacınız vardır, örneğin, sadece bazı işletim bölgelerinde ciddi doğrusalsızlıklar vardır veya (2) belki süreç zaman içinde değişir.

Bu fiziksel bir sistemse ve örnekleriniz büyük zaman aralıklarıyla ayrılmazsa, bu işlem değişikliklerinin önemli zaman dilimleri boyunca devam etmesi mümkündür. Yani, gerçek model parametreleri zaman zaman değişebilir ve bir süre devam edebilir. Verileriniz zaman damgalı ise, zaman içinde kalanlara bakabilirsiniz. Örneğin, tüm verilerinizi kullanarak y ve Ax + b'ye sahip olduğunuzu varsayalım, A ve b'yi bulun. Sonra geri dönün ve r [k] = y [k] - Ax [k] - b artık dizisini test edin; burada k, sıralı olarak zamanlara karşılık gelen bir endekstir. Zaman içinde kalıpları arayın, örneğin || r [k] || bir süre normalden daha yüksek kalır. Sıralı testler, bireysel vektör endeksleri için SPRT veya hatta CUSUM gibi sürekli yanlılık hatalarının tespitine en duyarlı olacaktır.

— gms
kaynak

1

Cevap hayır önyargı ve varyans veri bunları tahmin etmek için kullanılan ziyade, model parametrelerinin nitelikleridir çünkü. Bu ifadede, öngörü alanı boyunca sapma ve sapma (ha!) İle ilgili kısmi bir istisna vardır; daha fazlası. Bunun, yordayıcılar ve yanıt değişkenleri ile ilgili bazı "doğru" işlevleri bilmekle hiçbir ilgisi olmadığını unutmayın.

Tahminini düşünün $β$ doğrusal bir regresyonda, $\hatβ=(X^TX)^{-1}X^TY$ , nerede $X$ bir $N×P$ tahmin matrisi, $\hatβ$ bir $P×1$ parametre tahminlerinin vektörü ve $Y$ bir $N×1$ vektör. Tartışmanın aşkına, çizmek için sonsuz bir veri popülasyonuna sahip olduğumuzu varsayalım (bu tamamen saçma değil, bu arada - eğer bazı fiziksel süreçlerden aktif olarak veri kaydediyorsak, öngörücü ve yanıt verilerini hızlı bir şekilde kaydedebilirdik böylece pratik olarak bu varsayımı karşılar). Yani çiziyoruz $N$ her biri tek bir yanıt değeri ve her biri için bir değer içeren gözlemler $P$ belirleyiciler. Sonra tahminimizi hesaplıyoruz $\hatβ$ ve değerleri kaydedin. O zaman tüm bu süreci alalım ve tekrar edelim $N_{iter}$ kere, her seferinde $N$ nüfustan bağımsız çekimler. Birikireceğiz $N_{iter}$ tahminleri $\hatβ$ üzerinde parametre vektöründeki her elemanın varyansını hesaplayabiliriz. Bu parametre tahminlerinin varyansının ters orantılı olduğunu unutmayın. $N$ ve orantılı $P$ , yordayıcıların dikliği varsayar.

Her parametrenin sapması benzer şekilde tahmin edilebilir. "Gerçek" işlevine erişimimiz olmayabilir, ancak diyelim ki hesaplamak için nüfustan keyfi olarak çok sayıda çekiliş yapabiliriz. $\hatβ_{best}$ "true" parametre değeri için bir proxy görevi görür. Bunun tarafsız bir tahmin (normal en küçük kareler) olduğunu ve kullanılan gözlem sayısının, bu tahminin varyansı ihmal edilebilir olacak şekilde yeterince büyük olduğunu varsayacağız. Her biri için $P$ parametreleri, hesaplıyoruz $\hatβ_{best_j}-\hatβ_j$ , nerede $j$ aralığından $1$ için $N_{iter}$ . Bu farklılıkların ortalamasını karşılık gelen parametredeki sapmanın bir tahmini olarak alıyoruz.

There are corresponding ways of relating bias and variance to the data itself, but they're a little more complicated. As you can see, bias and variance can be estimated for linear models, but you will require quite a bit of hold-out data. A more insidious problem is the fact that once you start working with a fixed dataset, your analyses will be polluted by your personal variance, in that you'll have already begun wandering through the garden of forking paths and there's no way of knowing how that would replicate out-of-sample (unless you just came up with a single model and ran this analysis and committed to leaving it alone after that).

Veri noktalarının kendileriyle ilgili olarak, en doğru (ve önemsiz) cevap, arasında herhangi bir fark varsa $Y$ ve $\hat{Y}$ , daha karmaşık bir modele ihtiyacınız vardır (ilgili tüm öngörücüleri doğru bir şekilde tanımlayabileceğinizi varsayarak; yapamazsınız). "Hata" nın felsefi doğası üzerine sıkıcı bir inceleme yapmadan, sonuçta modelinizin işaretini kaçırmasına neden olan bir şey vardı. Sorun, karmaşıklık eklemenin varyansı arttırmasıdır, bu da diğer veri noktalarındaki işareti kaçırmasına neden olacaktır. Bu nedenle, tek tek veri noktası düzeyinde hata ilişkilendirmesi hakkında endişelenmenin verimli bir çaba olması muhtemel değildir. İstisna (ilk paragrafta bahsedilen), önyargı ve varyansın aslında öngörücülerin işlevleri olduğu gerçeğinden kaynaklanmaktadır, bu nedenle öngörme alanının bir kısmında büyük bir önyargıya ve bir diğerinde (sapma için aynı) daha küçük önyargıya sahip olabilirsiniz. Bunu hesaplayarak hesaplayabilirsiniz $Y-\hat{Y}$ birçok kez (nerede $\hat{Y}=X\hatβ$ ve $\hatβ$ was not estimated based on $Y$ ) ve sapma (ortalama) ve varyansının değerlerinin bir fonksiyonu olarak çizilmesi $X$ . Ancak, bunun oldukça özel bir endişe olduğunu düşünüyorum.

— alay etmek
kaynak