Y'nin normal olarak dağıtılması gerektiği yanılgısı nereden geliyor?


45

Görünüşte saygın kaynaklar, bağımlı değişkenin normal olarak dağıtılması gerektiğini iddia ediyor:

Model varsayımları: Y normal dağılmış, hatalar normal dağılmış, eiN(0,σ2) ve bağımsız ve X sabittir ve sabit varyans σ2 .

Penn State, STAT 504 Kesikli Verilerin Analizi

İkincisi, doğrusal regresyon analizi tüm değişkenlerin çok değişkenli normal olmasını gerektirir.

İstatistikler, Çözümler, Doğrusal Regresyon Varsayımları

Yanıt değişkeni normal dağılıma sahipse bu uygundur

Wikipedia, Genelleştirilmiş doğrusal model

Bu yanılgının nasıl ya da neden yayıldığına dair iyi bir açıklama var mı? Kökeni bilinen mi?

İlgili


17
Üzgün. Burada iyi bir iş
çıkardın

7
marjinal dağılımını gerektiren doğrusal regresyon kullanan herhangi bir durum bilmiyorum veya tüm değişkenlerin eklemi çok değişkenli normaldir. Bunlar bana yanlış anlar gibi geldi. Y
Matthew Drury

8
@MichaelChernick "Y normal olarak dağıtılır" açık bir şekilde yanlıştır. R'de kontrol edin: X <- runif(n=100)daha Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)sonra X ve Y'nin normal dağılım göstermediğine kendinizi ikna etmek için histogramlarla oynayın. Sonra summary(lm(Y ~ X)), ve kesişme noktasının 3'e ve X'in eğimi 0,5'e ne kadar yakın olduğuna çok dikkat edin. Varsayım, hataların normal olarak dağıldığı şeklindedir.
Alexis

9
@Alexis Michael'ın söylemeye çalıştığı şeyin çok değişkenli Normallik varsayımlarının yeterli, ancak gerekli olmadığına inanıyorum . Vikipedi teklifini okuması gereken açıkça budur. İkinci teklif açıkça bu varsayımların gerekli olduğunu iddia etmede yanlış. İlk teklif belirsizdir, ancak Michael tarafından açık bir şekilde cömertçe okunabilir.
whuber

6
Tek söylediğim, normallik varsayımının belirli özellikleri ima ettiği idi. Örneğin, basit doğrusal regresyonda, hata terimlerinin sıfır ortalama ve sabit varyans ile normal olduğunu varsayarsanız, regresyon parametrelerinin tahmin edilen en küçük kareleri maksimum olabilir. Normallik en küçük kareler dışındaki tüm varsayımların tutulması artık maksimum ihtimal değildir, ancak yine de asgari sapma tarafsızdır.
Michael Chernick

Yanıtlar:


13

'Y normal olarak dağıtılmalıdır'

zorunlu?


Bahsettiğiniz durumlarda özensiz bir dildir (kısaltması '' Y'deki hatayı normalde dağıtmak gerekir ' ), ancak gerçekten (kesinlikle) yanıtın normal olarak dağıtılması gerektiğini veya en azından görünmediğini söylemezler. bana sözlerinin bu şekilde tasarlandığını söyledi.

Penn State dersi materyali

YYi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

YYi

  • Bazı GLM değişkenlerinin (ikili lojistik regresyon) açıklanması,

    YBinomial(n,π)

  • bazı tanımlarda

    YYY

YiY

  • Yi

Statisticssolutions web sayfası

son derece kısa, basitleştirilmiş, stilize edilmiş bir açıklamadır. Bunu ciddiye alman gerektiğinden emin değilim. Örneğin, hakkında konuşuyor

..çok değişkenli normal olması için tüm değişkenleri gerektirir ...

bu sadece cevap değişkeni değil,

ve ayrıca 'çok değişkenli' tanımlayıcı belirsizdir. Nasıl yorumlanacağını bilmiyorum.

Wikipedia makalesi

parantez içinde açıklanan ilave bir içeriğe sahiptir:

Sıradan doğrusal regresyon, belli bir bilinmeyen miktarın beklenen değerini (yanıt değişkeni, rastgele bir değişken), bir gözlenen değer kümesinin (tahmin edicilerin) doğrusal bir kombinasyonu olarak tahmin eder . Bu, bir tahmincideki sabit bir değişimin tepki değişkeninde sabit bir değişikliğe yol açtığını (yani bir doğrusal tepki modelini) ima eder. Bu, cevap değişkeni normal bir dağılıma sahip olduğunda (sezgisel olarak, bir yanıt değişkeni sabit bir "sıfır değeri" olmayan herhangi bir yönde esasen süresiz olarak değişebiliyorsa veya daha genel olarak, örneğin, sadece nispeten küçük bir miktar, örneğin insan tarafından değişen herhangi bir miktar için, genellikle uygundur yükseklikler).

y+ϵϵN(0,σ)

Belirli bir satır 8 Mart 2012 tarihinde eklenmiştir , ancak Wikipedia makalesinin ilk satırının hala " normal dağılım dışında hata dağıtım modellerine sahip yanıt değişkenlerine izin veren normal doğrusal regresyonun esnek bir genellemesini" okuduğuna ve çok fazla (her yerde değil) yanlış.


Sonuç

Yani, (aslında hangi bu üç örneklere dayalı üretmek yanlış anlamaları ya da en azından yanlış olabilir) ben böyle demezdim "Bu yanlış kanı yayılmasını vardır" . Ya da en azından bana, bu üç örneğin niyetinin Y'nin normal olarak dağıtılması gerektiğini iddia etmesi gibi görünmüyor (bu konunun burada daha önce stackexchange'te ortaya çıktığını hatırlıyorum, ancak normalde dağıtılmış hatalar ile normal olarak dağıtılmış yanıt değişkeni arasındaki değişimin olduğunu hatırlıyorum). yapmak kolaydır).

Bu nedenle, 'Y normalde dağıtılması gerektiği' varsayımı bana yaygın bir inanç / yanlış anlama (kırmızı bir ringa balığı gibi yayılan bir şeyde olduğu gibi) değil, daha çok yaygın bir hataya benziyor ( her seferinde yayılmamakta ve bağımsız olarak yapılıyor) ).


Ek yorum

Bu web sitesindeki hatanın bir örneği şu soruda:

Kalanlar normal dağılmış fakat y değilse?

Bunu yeni başlayanlar için bir soru olarak düşünürdüm. Penn State dersi materyali, Wikipedia web sitesi gibi materyallerde mevcut değildir ve son zamanlarda 'R ile Doğrusal Regresyonun Genişletilmesi' kitabında yer almaktadır.

Bu eserlerin yazarları materyali doğru anlıyorlar. Aslında, 'Y normal olarak dağıtılmalıdır' gibi ifadeler kullanırlar, ancak bağlam ve kullanılan formüllere dayanarak hepsinin 'X'e bağlı, Y normalde dağıtılmalıdır' anlamına geldiğini ve 'marjinal Y'nin normalde dağıtılacak '. Fikri yanlış anlamazlar ve en azından fikir, istatistikçiler ile kitap ve diğer ders materyalleri yazan insanlar arasında yaygın değildir. Ancak belirsiz sözlerini yanlış okumak gerçekten de yanlış algılamaya neden olabilir.


3
+1 Şunu söyledi: Sanırım hepimiz buralarda Y'nin marjinal normallikini iddia eden birçok soru gördük ... bazı yanlış anlaşılmaların yayılması var. :)
Alexis

Evet, 'normal dağılışı y' varsayımının sıkça gerçekleştiğine katılıyorum (örnekleri kolay kolay bulamıyordum, ancak bunun nedeni insanların bunları basit anahtar kelimelerle değil satırlar arasında tanımlamaları olabilir). Bununla birlikte, bunun daha fazla “ yayılmış ” bir şey değil “ortak” bir şey olduğuna inanıyorum . Ve en azından, kesinlikle OP tarafından verilen üç örnek çok güçlü değil (dilin patolojik kullanımını ve hataların nasıl ortaya çıkabileceğini açıklasalar da, yanlış anlamanın yayıldığını gösterme anlamında güçlü değil).
Sextus Empiricus

@Martijn Weterings: "Bu yanılgının yayıldığını söylemeyeceğim" ifadesine katılıyorum. Julian Faraway, birçok lisansüstü istatistik programında gerekli okumaları olarak kullanılan, R ile Doğrusal Regresyonu Genişletme adlı kitabında, bu kitabın Önsözünde, “Standart doğrusal model normal olmayan tepkileri yerine getiremez, y, sayım veya orantı olarak ".
ColorStatistics,

n1(r1)(c1)

1
y=β0+β1x1+...βpxp+ϵϵYanıt, belirtilen belirli bir dağılıma sahip olmalıdır.
Sextus Empiricus

29

Bu yanılgının nasıl / neden yayıldığına dair iyi bir açıklama var mı? Kökeni bilinen mi?

Genellikle lisans öğrencilerine birçok disiplinde istatistiklerin "basitleştirilmiş" bir versiyonunu öğretiriz. Psikolojideyim ve lisansüstü öğrencilere p değerlerinin "boş veri hipotezi doğru olduğu göz önüne alındığında" verilerin olasılığı veya daha aşırı veriler olduğunu "söylemeye çalıştığımda, iş arkadaşları ihtiyacımdan daha fazla ayrıntıya aldığımı söylüyor örtmek için. Olması gerektiğinden daha zor hale getirdiğimi, vb. Sınıflardaki öğrenciler istatistiklerle ilgili çok geniş bir rahatlığa (ya da eksikliğine) sahip olduklarından, eğitmenler genellikle basit tutuyorlar: "Eğer güvenilir bir bulgu olduğunu düşünüyoruz p <.05, "örneğin, onlara bir p- değerinin gerçek tanımını vermek yerine .

Bence bu yanlış anlama neden yayıldığının açıklaması. Örneğin, modeli şöyle yazabilirsiniz:

Y=β0+β1X+ϵϵN(0,σϵ2)

Bu, şu şekilde yeniden yazılabilir:

Y|XN(β0+β1X,σϵ2)

Bu, "X'e bağlı Y, normalde öngörülen değerlerin bir ortalaması ve bir miktar sapma ile dağıtıldığı" anlamına gelir.

Bunu açıklamak zordur, bu nedenle kısa yoldan insanlar sadece “Y normalde dağıtılmalıdır” diyebilir. Veya ilk başta onlara açıklandığında, insanlar şartlı kısmı yanlış anladılar - çünkü dürüst olmak gerekirse, kafa karıştırıcı.

Bu yüzden işleri korkunç derecede karmaşıklaştırmamak için, öğretmenler çoğu öğrenciyi aşırı karıştırmamak için söylediklerini basitleştiriyorlar. Ve sonra insanlar bu yanlış anlama ile istatistiksel eğitimlerinde veya istatistiksel uygulamalarında devam ederler. Varsayımlarınızı şu şekilde yazmanızı gerektiren Stan'da Bayesian modelleme yapmaya başlayana kadar kavramı tam olarak anlamadım.

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

Ayrıca, bir GUI'ye sahip (size, SPSS'ye bakarak) birçok istatistiksel pakette, marjinal dağılımın normal dağılıp dağılmadığını (basit histogram), artıkların normal dağılıp dağılmadığını kontrol etmek kolaydır (regresyon, regresyon, artıkları kaydedin, kalanları üzerinde histogramı çalıştırın)

Bu nedenle, yanlış algılamanın temel olarak, öğrencileri doğru şekilde öğrenen insanlar arasında kafalarının karışmasını, orijinal ve anlaşılır bir şekilde kafa karışıklığına uğramasını engellemek için ayrıntıları kesmeye çalışan eğitmenlerden kaynaklandığını ve bunların her ikisinin de marjinal normalliği kontrol etme kolaylığı ile güçlendirildiğini düşünüyorum. Kullanıcı dostu istatistik paketlerinin çoğu.


2
Bence haklısın. Birçok insan şartlı kısmı anlamıyor. Sadece normal dağılışı düşünüyorlar.
SmallChess

3
Bunun, bu hatanın meydana geldiği / yayıldığı modlardan biri olabileceğini kabul ediyorum. Bununla birlikte, Penn State ders materyali bana bu 'kasıtlı' sadeleştirme nedeniyle değil ve özensiz gösterimden de kaynaklanmaktadır. Biraz (ders) notları gibi biraz. Veya stackexchange'e yapılan yorumlar, dilde sadeleştirmeler. Bazı yerlerde doğru kelimeleri kullanıyorlar. (kişisel olarak, şemalarım / diyagramlarım kelimelerimden / formüllerimden daha iyi, ama bu, yazdıklarımın yanlış olması şartıyla yanlış bir fikir olduğu anlamına gelmiyor)
Sextus Empiricus

1
@MartijnWeterings Kabul Edildi - belirli bir dili kullanmadan birinin kafasını karıştırmak çok kolaydır. İstatistiki varsayımlar kadar soyut bir şeyde kendi dilinize özgü olmak her zaman zordur ve birçok akıllı insan bunun gibi yaygın yanlış anlamalara yol açarak basit hatalar yapar.
Mark White

1
MarkWhite, nasıl öğrettiğimize gösterdiğiniz ilgiye gerçekten müteşekkirim ... Sanırım OP’nin “yanlış anlama yayılmasının yayılması” na olan ilgisinin önemli bir şekilde konuştuğunu düşünüyorum ).
Alexis,

16

Regresyon analizi yeni başlayanlar için zordur, çünkü farklı başlangıç ​​varsayımlarının ima ettiği farklı sonuçlar vardır. Zayıf başlangıç ​​varsayımları sonuçların bazılarını haklı çıkartabilir, ancak daha güçlü varsayımlar eklediğinizde daha güçlü sonuçlar elde edebilirsiniz. Sonuçların matematiksel olarak türetilmesine aşina olmayan insanlar, bir sonucu için gerekli varsayımları, ya da sonuçları istenen bir sonuç elde etmek için çok zayıf bir şekilde pozlayarak ya da bir sonuç için gerekli olduğu inancında bazı gereksiz varsayımları pozlayarak yanlış anlayabilirler. .

Ek sonuçlar elde etmek için daha güçlü varsayımlar eklemek mümkün olsa da, regresyon analizi , yanıt vektörünün koşullu dağılımı ile ilgilidir . Bir model bunun ötesine geçerse, çok değişkenli analiz alanına giriyor ve kesinlikle (sadece) bir regresyon modeli değil. Mesele, koşullu dağılımlar olduklarını (tasarım matrisindeki açıklayıcı değişkenler göz önüne alındığında) belirtmek için her zaman dikkatli olmadan regresyondaki dağılım sonuçlarına başvurmanın yaygın olması gerçeği ile daha da karmaşık hale gelir. Modellerin koşullu dağılımların ötesine geçtiği durumlarda (açıklayıcı vektörler için marjinal bir dağılım varsayarak) kullanıcı bu farkı belirtmek için dikkatli olmalıdır; Maalesef insanlar buna her zaman dikkat etmiyorlar.


Homoskedastic linear regresyon modeli: Genellikle kullanılan en erken başlangıç ​​noktası, herhangi bir normallik varsayımı olmadan model formunu ve ilk iki hata-anını varsaymaktır:

Y=xβ+εE(ε|x)=0V(ε|x)I.

Bu kurulum, katsayılar için OLS tahmincisini, hata varyansı için tarafsız tahmin ediciyi, artıkları ve tüm bu rasgele niceliklerin momentlerini (tasarım matrisindeki açıklayıcı değişkenlere bağlı olarak) elde etmenize izin vermek için yeterlidir. Bu miktarların tam koşullu dağılımını elde etmenize izin vermez, ancak büyükse ve sınırlayıcı davranışına bazı ek varsayımlar konulursa, asimptotik dağılımlara itiraz edilmesine izin verir . Daha ileri gitmek için, hata vektörü için belirli bir dağılım formu varsaymak yaygındır.xnx

Normal hatalar: Homoskedastik lineer regresyon modelinin çoğu tedavisi, hata vektörünün normal olarak dağıldığını varsaymaktadır, bu, moment varsayımları ile birlikte şunları verir:

ε|xN(0,σ2I).

Bu ek varsayım, katsayılar için OLS tahmin edicisinin model için MLE olmasını sağlamak için yeterlidir ve ayrıca katsayı tahmin edicisinin ve artıkların normalde dağıldığı ve hata varyansı için tahmin edicinin ölçeklendirilmiş ki-kare dağılımına sahip olduğu anlamına gelir (tümü tasarım matrisindeki açıklayıcı değişkenlere şartlı). Ayrıca, cevap vektörünün koşullu olarak normal şekilde dağılmasını sağlar. Bu analizde, güven aralıklarının ve hipotez testlerinin oluşturulmasına izin veren açıklayıcı değişkenlere bağlı dağılım sonuçları verir. Analist, cevabın marjinal dağılımına ilişkin bulgular yapmak isterse, daha ileri gitmeleri ve modeldeki açıklayıcı değişkenler için bir dağıtım yapmaları gerekir.

Ortak-normal açıklayıcı değişkenler: Homosidastik lineer regresyon modelinin bazı tedavileri standart tedavilerden daha ileri düzeydedir ve sabit açıklayıcı değişkenlerde şart koşmaz. (Muhtemelen bu, regresyon modelinden çıkıp çok değişkenli analize geçiştir.) Bu türden en yaygın model, açıklayıcı vektörlerin IID eklem-normal rastgele vektörler olduğunu varsayar. İzin vermek olmak inci açıklayıcı vektörü ( matrisinin inci satır) elde ederiz: i iX(i)ii

X(1),...,X(n)IID N(μX,ΣX).

Bu ek varsayım, cevap vektörünün marjinal olarak normal şekilde dağılmasını sağlamak için yeterlidir. Bu güçlü bir varsayımdır ve genellikle çoğu soruna dayatılmaz. Belirtildiği gibi, bu model, regresyon modelleme alanı dışına ve çok değişkenli analizlere götürür.


1
Tek tek daha güçlü varsayımları tek tek tanıtmanız ve sonuçları açıklamanız konusunda çok anlayışlı buldum.
ColorStatistics,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.