Bir regresyon modelinde hata nasıl kavramsallaştırılır?


11

Bir veri analizi sınıfına katılıyorum ve köklü fikirlerimden bazıları titriyor. Yani, hatanın (epsilon) ve diğer herhangi bir varyansın bir gruba (örnek veya tüm popülasyon) sadece (bu yüzden düşündüm) için geçerli olduğu fikri. Şimdi, regresyon varsayımlarından birinin varyansın "tüm bireyler için aynı" olduğu öğretiliyor. Bu beni bir şekilde şok ediyor. Her zaman X'in sabit olduğu varsayılan tüm değerlerine karşı varyans olduğunu düşündüm.

Bir regresyon yaptığımızda, modelimizin doğru olduğunu varsaydığımızı söyleyen prof ile sohbet ettim. Bence bu zor kısım. Benim için, hata terimi (epsilon) her zaman "bilmediğimiz unsurlar ve sonuç değişkenimizi artırabilecek bazı ölçüm hataları" gibi bir şey anlamına geliyordu. Sınıfın öğretilme biçiminde "diğer şeyler" diye bir şey yoktur; modelimizin doğru ve eksiksiz olduğu varsayılmaktadır. Bu, tüm artık varyasyonların bir ölçüm hatası ürünü olarak düşünülmesi gerektiği anlamına gelir (bu nedenle, bir bireyin 20 kez ölçülmesinin, bir kez 20 kişiyi ölçmekle aynı varyansı üretmesi beklenir).

Bir yerde bir şeylerin yanlış olduğunu hissediyorum, bu konuda uzman görüş istiyorum ... Kavramsal olarak, hata teriminin ne olduğu hakkında yorum yapmak için biraz yer var mı?


3
Belki de kastettiği şey, model doğru olsa bile, cevaplarda hala rastgele bir varyasyon vardır - bu hata varyansı tarafından yakalanır - bu, örneğin, kusurlu bir ölçüm cihazına bağlanabilir. Diğerleri bazen hata varyansını eksik öngörücülerden dolayı (modelin şeklindeki hatalar olması gerekmez) kavramsallaştırır, bu da tüm olası öngörücülerin ölçülmesi halinde hata varyansının 0 olacağını ima eder. ölçümde bir "eksik öngörücü" olarak düşünülebilir.
Makro

Ben ilk başta her zaman kavramak zor bir şey olduğunu düşünüyorum "hata" bu durumda farklı şeyler anlamına gelebilir. "Hata", modelimizden elde ettiğimiz takılan değerler ile gözlenen değerler arasındaki farka işaret edebilir (tutarsızlık, örneğin oldukça cimri bir modele bağlı olabilir). "Hata" aynı zamanda gözlenen değerler ile gerçek değerler arasındaki fark anlamına da gelebilir (tutarsızlık, örneğin, değer yuvarlarını en yakın tamsayı / ondalık ondalık / vb. Olarak ölçmek için kullandığınız cihaza bağlı olabilir). [İlk tür, "artıklar / artık varyans" gibi terimleri duyacağınız yerdir.

@Macro Evet, bu bana doğal bir hata düşünme şekli gibi geliyor. Bununla birlikte, profesörün neden daha katı tanımında ısrar ettiğini anlamaya çalışıyorum (gerçekte bilsek bile, her birey için geçerli olduğunu düşünüyoruz, bu doğru değil).
Dominic Comtois

@MikeWierzbicki Doğru. Ve doğru anlarsam, bunların hepsi "katı" bakış açısıyla toplanır. Yani gözlemlenen ve tahmin edilen değerler arasındaki tüm fark, ölçüm hatasından kaynaklanmaktadır, çünkü modelimiz "doğru olmak zorundadır".
Dominic Comtois

Yanıtlar:


2

Bireylerin elde edilen y değerleri üzerinde etkisi olan yönleri varsa, ya o yönlere ulaşmanın bir yolu vardır (bu durumda, x yordayıcısının bir parçası olmalıdırlar) ya da buna ulaşmanın bir yolu yoktur. bilgi.

Bu bilgiye ulaşmanın bir yolu yoksa ve bireyler için y değerlerini tekrar tekrar ölçmenin bir yolu yoksa, o zaman gerçekten önemli değil. Y'yi tekrar tekrar ölçebilirseniz ve veri kümeniz aslında bazı kişiler için tekrarlanan ölçümler içeriyorsa, istatistik teorisi ölçüm hatalarının / artıklarının bağımsızlığını üstlendiğinden, ellerinizde potansiyel bir sorun vardır.

Örneğin, formun bir modelini yerleştirmeye çalıştığınızı varsayın

,y=β0+β1x

ve her birey için,

,yind=100+10x+z

burada z bireye bağlıdır ve normalde ortalama 0 ve standart sapma 10 ile dağıtılır. Bireyin tekrarlanan her ölçümü için,

, ymeas=100+10x+z+e

burada normal olarak ortalama 0 ve standart sapma 0.1 ile dağıtılır. e

Bunu şu şekilde modellemeye çalışabilirsiniz:

,y=β0+β1x+ϵ

burada normalde ortalama 0 ve standart sapma ile dağıtılırϵ

. σ=102+0.12=100.01

Her birey için yalnızca bir ölçümünüz olduğu sürece, bu iyi olur. Bununla birlikte, aynı kişi için birden fazla ölçümünüz varsa, artıklarınız artık bağımsız olmayacaktır!

β0=100β1=10χ2


Cevabımda korkutucu "çok düzeyli modelleme" terimini kullanmaktan kaçınmaya çalıştım, ancak bazı durumlarda bu tür bir durumla başa çıkmanın bir yolu olduğunu bilmelisiniz.
Brian Borchers

1

Bence "hata" en iyi "mevcut bilgilerimiz göz önüne alındığında gözlemlerin öngörülemeyen kısmı" olarak tanımlanır. Nüfus ve örneklem açısından düşünmeye çalışmak, hataların bazı dağıtımlardan çıkarılan "tamamen rastgele" olarak düşünülmesinin yanı sıra kavramsal problemlere de yol açıyor (yine de benim için de öyle). tahmin ve "öngörülebilirlik" açısından düşünmek benim için çok daha mantıklı.

p(e1,,en)E(1ni=1nei2)=σ2σ2σ

n


σ2

p(e1,,en)1

Ve yakın demek istediğim kl sapması en aza indirilmiş
olasılık

İkilem numune ve popülasyon arasında değildir. Hata, örneklem / nüfus karşısında bireyler için geçerli olarak düşünülmelidir.
Dominic Comtois


1

Profesörün bunun formülasyonuna katılmıyorum. Dediğiniz gibi, varyansın her birey için aynı olduğu fikri, hata teriminin sadece ölçüm hatasını temsil ettiğini ima eder. Bu genellikle temel çoklu regresyon modelinin nasıl oluşturulduğu değildir. Ayrıca, dediğin gibi, bir grup için varyans tanımlanır (ister tek tek özneler grubu ister ölçüm grubu olsun). Tekrarlanan önlemleriniz yoksa, bireysel düzeyde geçerli değildir.

Bir modelin tamamlanması gerekir, çünkü hata terimi tahmin edicilerle ilişkili değişkenlerden etkiler içermemelidir. Varsayım, hata teriminin tahmincilerden bağımsız olmasıdır. Bazı korelasyonlu değişken atlanırsa, önyargı katsayıları elde edersiniz (buna atlanan değişken sapma denir ).


Bu cevabı tam olarak anlamıyorum. uyum eksikliği ve rastgele hata nedeniyle hata arasındaki farkı fark ediyor gibi görünüyor, ancak son retorik soru kafa karıştırıcı görünüyor. Tamamen resmi bir perspektiften bakıldığında, esasen bir regresyon modeliyle ilgili olarak yapılan herhangi bir çıkarım, gürültü yapısı hakkında çok açık varsayımlara dayanır.
kardinal

1
Demek istediğim, birçok durumda, regresyon modellemenin amacı, belirli bir sonucun tüm nedenlerini bilmesek bile neler olduğunu anlamaktır. Ancak belirsiz göründüğü gibi, bu soruyu kaldıracağım.
Anne Z.

Teşekkürler. Yorumunuzdaki nokta iyi. Belirttiğiniz önceki soru, regresyon teorisinin dayandığı temelin tamamını sorgulamak olarak okunabilir. :)
kardinal

Anlaşmazlığınız konusunda sizinle aynı fikirdeyim (dolayısıyla sorum!) Ve atlanan değişken önyargı konuyla oldukça ilgilidir. Teşekkürler.
Dominic Comtois
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.