Dönüştürüldüğünde normal olmayan normal olmayan veriler üzerinde nasıl bir gerileme yapabilirim?


15

21 ankete Likert ölçeği cevabından elde edilen bazı verilerim (158 vaka) var. Anketteki hangi öğelerin genel bir maddeye (memnuniyet) yanıt verdiğini görmek için gerçekten bir regresyon analizi yapmak istiyorum / ihtiyacım var. Yanıtlar normal olarak dağıtılmaz (KS testlerine göre) ve düşünebildiğim her şekilde (ters, log, log10, sqrt, squared) dönüştürdüm ve inatla normal olarak dağılmayı reddediyor. Artık arsa her yere bakar, bu yüzden gerçekten doğrusal bir regresyon yapmak için meşru olmadığına inanır ve normal davranıyormuş gibi davranır (aynı zamanda bir Poisson dağılımı değildir). Bunun cevabı çok yakından kümelenmiş olduğunu düşünüyorum (ortalama 3.91,% 95 CI 3.88 ila 3.95).

Yani, ya verilerimi dönüştürmenin yeni bir yoluna ihtiyacım olduğunu ya da bir çeşit parametrik olmayan regresyona ihtiyacım olduğunu düşünüyorum ama SPSS'de yapabileceğim hiçbir şey bilmiyorum.


1
Bir Box-Cox dönüşümü düşünün ( en.wikipedia.org/wiki/… ). Sorunuza kalan arsa eklemek yardımcı olabilir.
M. Berk

3
Evet, lütfen bize arsa planınızı gösterin. belki de bir qq grafiği.
David Marx

5
Değerleriniz ayrıksa, özellikle de bir ucuna sıkıştırılmışlarsa, sonucu kabaca normal hale getirecek bir dönüşüm olmayabilir. Ancak normalliklerin resmi hipotez testleri doğru soruya cevap vermez ve normalliklerin artık nominal özelliklerine sahip olmaması için reddedilip getirilmemesine bağlı olarak yapılan diğer prosedürlerinize neden olur.
Glen_b

1
orantılı oranlar lojistik regresyon muhtemelen bu soruya mantıklı bir yaklaşım olacaktır, ancak bunun SPSS'de mevcut olup olmadığını bilmiyorum.
Ben Bolker

3
Regresyonun normal yaklaşımlar yüzünden değil, doğru bir yaklaşım olduğuna ikna olmadım. Anket cevaplarınız kardinal olmayabilir. Örneğin, bir erkeğe 'Mutlu musunuz?' Diye sorarsanız ve cevap 3'ü alırsanız, geçen ay 4 iken, bu onun% 25 daha az mutlu olduğu anlamına mı geliyor? Büyük olasılıkla değil. Yani, normalliği düşünmeye başlamadan önce, Sadece sıra sayılarıyla değil, kardinal sayılarla mı uğraştığınızı bile anlamanız gerekir.Anketler gibi düşünmelerle başa çıkmanın özel yolları vardır ve regresyon varsayılan seçim değildir.Önce uygun olduğunu göstermek zorundasınız
Aksakal

Yanıtlar:


32

Regresyon yapmak için Normal dağılımları varsaymanıza gerek yoktur. En küçük kareler regresyonu, dağılımlarına bakılmaksızın MAVİ tahmin edicidir (En İyi Doğrusal, Tarafsız Tahmincisi). Bkz. Gauss-Markov Teoremi (örn. Wikipedia) Normal bir dağılım sadece tahmin edicinin aynı zamanda maksimum olabilirlik tahmin edicisi olduğunu göstermek için kullanılır. OLS'nin bir şekilde normal olarak dağıtılmış veriler alması yaygın bir yanlış anlamadır. O değil. Çok daha genel.


2
Bu çok doğru. Birçok insan için bu GERÇEK'i görmezden gelir.
Repmat

@Repmat ile anlaşın. Bir normallik testini geçtiğimden emin değilim ... ama modellerim çalışıyor.
HEITZ

5

Artıkların normallik testine dayanmak yerine, normalliği rasyonel yargı ile değerlendirmeyi deneyin. Normallik testleri size verilerinizin normal olduğunu söylemez, sadece olmadığını gösterir. Ancak verilerin bir örnek olduğu göz önüne alındığında, test olmadan aslında normal olmadıklarından emin olabilirsiniz. Gereksinim yaklaşık normaldir. Test bunu söyleyemez. Testler ayrıca büyük N'lerde çok hassas veya daha ciddidir, N ile duyarlılık açısından farklılık gösterir. N'niz, duyarlılığın yükselmeye başladığı aralıktadır. Aşağıdaki simülasyonu R'de birkaç kez çalıştırır ve parsellere bakarsanız, normalite testinin çok sayıda normal dağılımda "normal değil" dediğini göreceksiniz.

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

Umarım, simülasyonlardan geçtikten sonra bir normalite testinin oldukça normal görünümlü verileri kolayca reddedebildiğini ve normal bir dağılımdan gelen verilerin normalden oldukça uzak görünebileceğini görebilirsiniz. Eğer aşırı bir değer görmek istiyorsanız deneyin n <- 1000. Dağılımların hepsi normal görünecek, ancak yine de testi daha düşük N değerleriyle aynı oranda başarısız edecektir. Tersine, testi geçen düşük N dağılımları ile normalden çok uzak görünebilir.

SPSS'deki standart kalıntı arsa, normalliği değerlendirmek için çok yararlı değildir. Aykırı değerleri, menzili, uyum iyiliğini ve hatta kaldıraç oranını görebilirsiniz. Ancak normallik ondan türetmek zordur. Histogramları, kantil-kantil normal grafikleri ve artık grafikleri karşılaştırırken aşağıdaki simülasyonu deneyin.

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

Son arsadan normalliği veya herhangi bir şeyi anlatmak olağanüstü derecede zordur ve bu nedenle normallik için korkunç bir teşhis koymaz.

Özet olarak, genellikle normallik testlerine değil, artıkların tanısal çizimlerine güvenilmesi önerilir. Bu araziler veya sorunuzdaki gerçek değerler olmadan, verilerinizin analiz veya dönüşüm açısından neye ihtiyacı olduğuna dair sağlam bir tavsiye vermek herkes için çok zordur. En iyi yardımı almak için ham verileri sağlayın.


Merhaba Öneriler için herkese teşekkürler. Kalanlarıma önerildiği gibi baktım ve yukarıdaki sözdizimini değişkenlerimle kullandım. Verilerim düşündüğüm kadar saçma bir şekilde normal değildi, bu yüzden parametrik doğrusal regresyonlarımı çok daha fazla güven ve açık bir vicdanla kullandım! Tekrar teşekkürler.
rachel S

4

İlk olarak, OLS regresyonu veriler hakkında herhangi bir varsayım yapmaz, artıklar tarafından tahmin edildiği gibi hatalar hakkında varsayımlar yapar.

İkincisi, verilerin bir modele uyacak şekilde dönüştürülmesi, benim görüşüme göre yanlış yaklaşımdır. Modelinizin probleminize uymasını istiyorsunuz, tam tersine değil. Eski günlerde, OLS regresyonu yavaş bilgisayarlar nedeniyle "şehirdeki tek oyun" idi, ama bu artık doğru değil.

Üçüncüsü, SPSS kullanmıyorum, bu yüzden orada yardım edemem, ancak bazı doğrusal olmayan regresyon formları sunmasaydı şaşırırdım. Bazı olasılıklar kantil regresyon, regresyon ağaçları ve sağlam regresyon.

Dördüncüsü, ifadeniz için biraz endişeliyim:

Anketteki hangi kalemlerin genel bir maddeye yanıtı öngördüğünü görmek için gerçekten bir regresyon analizi yapmak istiyorum / ihtiyacım var (memnuniyet)

Maddeler toplanırsa veya genel ölçeği yapmak için bir şekilde birleştirilirse, regresyon hiç de doğru bir yaklaşım değildir. Muhtemelen faktör analizi istiyorsunuz.


faktör analizi isteyebileceğini önerdiniz, ancak veriler normal olarak dağıtılmazsa faktör analizi de etkilenmez mi?
düzene

Sürekli olmayan veriler üzerinde faktör analizi yapabilirsiniz. Ama bu ayrı bir tartışma - ve burada tartışıldı.
Peter Flom - Monica'yı eski durumuna döndürün

1
Merhaba Peter, uzmanlığınızı takdir ediyorum ve tavsiyelerinize çok değer veriyorum. cevaplamak için zaman ayırdığınız için teşekkür ederiz. Sadece açıklığa kavuşturmak için, normal olarak dağıtılmamış ürünler (ayrıca kalıntıların normalliği hakkında tartışma) üzerinde FA yapabileceğini biliyorum . OP aynı ikileme girmezse (uzmanlığınız olan birinden) öğrenmek istiyordum. Ama zaten :) cevap varsayalım
düzene

1

Genel olarak, probleminize iki olası yaklaşım vardır: biri teorik açıdan iyi bir şekilde haklı, ancak pratikte uygulanması imkansızken, diğeri daha sezgiseldir.

Teorik olarak optimal yaklaşım (muhtemelen maalesef kullanamayacağınız maalesef), maksimum olabilirlik denilen yöntemin doğrudan uygulanmasına geri dönerek bir regresyonu hesaplamaktır. Maksimum olabilirlik tahmini (gerçekte öncü ve daha temel matematiksel kavramdır) ile normal en küçük kareler (OLS) regresyonu (olağan yaklaşım, gözlem değişkenlerinin bağımsız olarak rastgele ve normal olarak dağıtıldığı belirli ama son derece yaygın durum için geçerlidir) ) istatistiklerle ilgili birçok ders kitabında anlatılmıştır; özellikle sevdiğim bir tartışma Glen Cowan'ın "İstatistiksel Veri Analizi" bölüm 7.1. Gözlem değişkenlerinizin normal olarak dağıtılmadığı durumlarda,

Bu durumda, gözlem değişkenlerinizi yöneten temel dağılımı gerçekten bilmediğiniz için (yani, kesin olarak bilinen tek şey, kesinlikle Gauss değil, gerçekte ne olduğu değil). Senin için çalışmıyor. Genellikle, OLS başarısız olduğunda veya çılgın bir sonuç döndürdüğünde, bunun nedeni çok daha fazla outpoint noktasıdır. Normalde dağılmış gözlem değişkenlerinin varsayımını gerçekten bozan dışsal noktalar, uyuma çok fazla ağırlık katmaktadır, çünkü OLS'daki noktalar, regresyon eğrisinden sapmalarının kareleri ve aykırı olanlar için bu sapma ile ağırlıklandırılmıştır. büyük. Bu durumda olağan sezgisel yaklaşım, OLS'de, OLL yöntemine göre dışa dönük noktalardan gelen katkının vurgulanmamış veya ağırlıksız hale gelmesiyle sonuçlanan bazı ince ayarlar veya modifikasyonlar geliştirmektir. Toplu olarak, bunlar genelliklegüçlü regresyon . Denemek isteyebileceğiniz belirli sağlam tahmin tekniklerine ilişkin bazı örnekler içeren bir liste burada bulunabilir .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.