Yüzdelerde ANOVA mı kullanıyorsunuz?


13

Bağımsız değişken (faktör) olarak dört gruba (4 BMI grubu) sahip bir tablo var. Bağımlı bir değişkenim var: "Gebelikte anne içen yüzdesi".

Bunun için ANOVA kullanılmasına izin veriliyor mu yoksa ki-kare veya başka bir test kullanmam gerekiyor mu?

Yanıtlar:


21

Bağımlı değişkeniniz olarak ikili değişkene sahip olmak ve bağımlı değişkeniniz olarak bir orana sahip olmak arasında bir fark vardır.

  • İkili bağımlı değişken :

    • Bu, sahip olduklarınıza benziyor. (yani her anne sigara içmiş ya da sigara içmemiş)
    • Bu durumda ANOVA kullanmam. İkili değişkeni bağımlı değişken olarak kavramsallaştırıyorsanız (aksi takdirde ki-kare yapabilirsiniz), kategorik yordayıcı değişkeni için bir çeşit kodlama (belki de kukla kodlama) ile lojistik regresyon açık seçenektir.
  • Bağımlı değişken olarak oran :

    • Bu, sahip olduklarınıza benzemiyor. (örneğin, annenin sigara içen hamile kadınların bir örneğinde hamilelik sırasında sigara içtiği toplam uyanma süresinin oranı hakkında verileriniz yoktur).
    • Bu durumda, genel olarak ANOVA ve standart doğrusal model yaklaşımları sizin amaçlarınız için makul olabilir veya olmayabilir. Sorunların tartışılması için @Ben Bolker'ın cevabına bakınız.

İkili bağımlı değişken için, yalnızca ikili oranlar için özet verilerim olması durumunda (yani A, B ve C gruplarındaki # ve A, B ve C grubundaki başarıların sayısı) değil gerçek ham veriler, lojistik regresyonu nasıl kullanabiliriz? Ben sadece ham verilerle kullanmayı biliyorum.
Bryan

15

Farklı gruplardaki yanıtların% 0 veya% 100'e ne kadar yakın olduğuna bağlıdır. Çok fazla aşırı değer varsa (yani% 0 veya% 100'e yığılmış birçok değer) bu zor olacaktır. (Eğer "paydaları", yani yüzdelerin hesaplandığı konuların sayısını bilmiyorsanız, olasılık tablosu yaklaşımlarını yine de kullanamazsınız.) Grup içindeki değerler daha makulse, tepki değişkeni (örneğin klasik arsin-kare-kök veya belki logit dönüşümü). Dönüştürülen verilerinizin ANOVA'nın varsayımlarını yeterli derecede karşılayıp karşılamadığına karar vermek için çeşitli grafiksel (tercih edilen) ve sıfır hipotez testi (daha az tercih edilen) yaklaşımlar vardır (varyans ve normallik homojenliği, birincisi ikincisinden daha önemlidir). Grafiksel testler: kutu grafikleri (varyans homojenliği) ve QQ grafikleri (normallik) [sonuncusu gruplar içinde veya artıklarda yapılmalıdır]. Sıfır hipotez testleri: örn. Bartlett veya Fligner testi (varyans homojenliği), Shapiro-Wilk, Jarque-Bera, vb.


11

Yanıt verisinin 0/1 (duman değil, duman) olması için ham verilere sahip olmanız gerekir. Sonra ikili lojistik regresyon kullanabilirsiniz. BMI'yı aralıklarla gruplamak doğru değildir. Kesim noktaları doğru değil, muhtemelen mevcut değil ve BMI'nın sigara ile ilişkili olup olmadığını resmi olarak test etmiyorsunuz. Şu anda atılan bilgilerin çoğunun BMI'nın sigara içimi ile ilişkili olup olmadığını test ediyorsunuz. Özellikle dış BMI aralıklarının oldukça heterojen olduğunu göreceksiniz.


2
@Frank - neden BMI gruplandırmak için "doğru değil"? sonuçlar uygun şekilde yorumlandığı sürece bu oldukça makul görünmektedir. Örneğin, "zayıf kilolu" "sağlıklı kilo" "fazla kilolu" ve "obez" olmanın, sigara içilmesiyle ilişkili olup olmadığını, bu terimlerin BMI aralıkları ile tanımlanıp tanımlanmadığını test edebilirsiniz. Burada "yanlış" görmüyorum.
olasılık

OP'nin ortak bir eğitim veri seti ile çalıştığına ve ham BMI'ya sahip olmayabileceğine inanıyorum. Sürekli regresörlerin ayrıklaştırılması genellikle ideal olmasa da "yanlış" değildir. Ölçümlerin gürültülü olduğundan ve başka bir başvuru olmadığından şüphelendiğimizde buna başvurmak bile yardımcı olabilir. Gerçekten, test etmek istediğimiz gerçek hipotez, obezitenin sigara ile ilgili olup olmadığıdır; BMI, obeziteyi ölçmenin sadece bir yoludur (ve sorunlarını anladığım kadarıyla vardır).
JMS

4
Ölçümler gürültülü olsa bile, değişkenleri sürekli olarak analiz etmek daha üstündür. BMI kategorisi, farklı analiz seçeneklerinin çözebileceğinden daha fazla sorun yaratır. Aslında, kategorizasyon tahminleri artık bilimsel bir yoruma sahip değildir. Bilimsel bir nicelik mevcut deneyin dışında bir anlam ifade eder. Grup tahminlerinin (ör. X'in yüksek ve düşük aralıkları için Y = 1 olduğu günlük oranları), gözlemlenen BMI'lerin tümünün işlevleri olduğunu göreceksiniz. Örneğin, örneğe daha fazla yüksek veya çok düşük BMI ekleyecekseniz, "etkiler" güçlenir.
Frank Harrell

R ve RStudio'yu yükleyenler için , biostat.mc.vanderbilt.edu/BioMod adresinde etkileşimli bir tanıtım bulunabilir - yeşil YENİ işaretine bakın. Komut dosyasını RStudio'ya yüklemeniz ve ayrıca Hmisc paketini yüklemeniz gerekir.
Frank Harrell

"Ölçümler gürültülü olsa bile, değişkenleri sürekli olarak analiz etmek daha üstündür" Bu sadece yanlıştır (genelliği, yani - genellikle doğrudur). Örneğin, ölçümdeki hatanın büyüklüğü ile birlikte arttığı sürekli bir değişkeniniz olduğunu düşünün. Tabii ki yapılacak en iyi şey, hatayı modellemek veya daha iyi ölçümler almaktır. Ancak bunun yanlış olduğunu söylemek, yapmak için çok güçlü bir ifadedir.
JMS

3

Orantılı veriler üzerinde sıradan bir ANOVA yapmayı seçerseniz, homojen hata varyanslarının varsayımını doğrulamak çok önemlidir. Eğer (yüzde verilerinde olduğu gibi), hata varyansları sabit değilse, modeldeki bu hetero-esnekliği açıklayabilen beta regresyonunu denemek için daha gerçekçi bir alternatiftir. Aşağıda, bir yüzde veya oran olan bir yanıt değişkeni ile başa çıkmanın çeşitli alternatif yollarını tartışan bir makale bulunmaktadır: http://www.ime.usp.br/~sferrari/beta.pdf

R kullanırsanız, betareg paketi faydalı olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.