Lojistik regresyon mu yoksa T testi mi?


17

Bir grup insan bir soruyu cevaplar. Cevap "evet" veya "hayır" olabilir. Araştırmacı, yaşın cevap türü ile ilişkili olup olmadığını bilmek istiyor.

İlişki, yaşın açıklayıcı değişken olduğu ve cevap tipinin (evet, hayır) bağımlı değişken olduğu lojistik regresyon yapılarak değerlendirildi. Sırasıyla, "evet" ve "hayır" yanıtını veren grupların ortalama yaşlarını hesaplayarak ve ortalamaları karşılaştırmak için bir T testi yapılarak ayrı ayrı ele alınmıştır .

Her iki test de farklı kişilerin tavsiyesini takiben yapıldı ve ikisi de hangisinin doğru yoldan emin olmadığından emin değil. Araştırma sorusu göz önüne alındığında, hangisi daha iyi bir test olur?

Hipotez testi için p değerleri anlamlı (regresyon) ve anlamlı değildi (T testi). Örnek 20 vakanın altındadır.


2
Bunun gerçek sorunun olduğuna emin değilim. Sormak istediğiniz her iki analizi de zaten yaptınız. Gerçekten bilmek istediğiniz şeyin, bu testler arasındaki karşılaştırmalar veya ilişkiler arasındaki bir şey olduğunu tahmin ediyorum, örneğin daha iyi. Sorunu düzeltmek için lütfen sorunuzu düzenleyin.
John

Her iki test de farklı kişilerin tavsiyesiyle gerçekleştirildi ve hiçbiri bunun doğru yol olup olmadığından emin değil. Daha iyi test, yaş üzerine yanıt türünün lojistik regresyonu veya "evet" yanıtı verenlerin ortalama yaş ile karşılaştırılması ile ilgili bir T testi olan araştırma soruları (yaş cevap türü ile ilişkili midir?) "hayır" yanıtlayanların yaşı?
Gwen

Yanıtlar:


19

Her iki test de yaş-yanıt ilişkisini dolaylı olarak modelleyebilir, ancak bunu farklı şekillerde yaparlar. Hangisini seçeceğiniz, bu ilişkiyi nasıl modellemeyi seçtiğinize bağlıdır. Seçiminiz, varsa, altta yatan bir teoriye bağlı olmalıdır; sonuçlardan ne tür bilgiler elde etmek istediğinize; ve numunenin nasıl seçildiği. Bu cevap bu üç yönü sırasıyla tartışmaktadır.


T-testi ve lojistik regresyonu, iyi tanımlanmış bir insan popülasyonu üzerinde çalıştığınızı ve örneklemden bu popülasyona çıkarımlar yapmak istediğinizi varsayan dili kullanarak anlatacağım.

Her türlü istatistiksel çıkarımı desteklemek için numunenin rastgele olduğunu varsaymalıyız.

  • Bir t-testi , "hayır" yanıtını veren örneklemdeki kişilerin, popülasyondaki tüm yanıt vermeyenlerin basit rastgele bir örneği olduğunu ve "evet" yanıtını veren örneklemdeki kişilerin, nüfus.

    Bir t testi, yaşların popülasyondaki iki grubun her birine dağılımı hakkında ek teknik varsayımlar yapar. Muhtemel olasılıkları ele almak için t-testinin çeşitli versiyonları mevcuttur.

  • Lojistik regresyon , belirli bir yaştaki tüm insanların, nüfus içinde o yaştaki insanların basit bir rastgele örneği olduğunu varsayar. Ayrı yaş grupları farklı oranlarda "evet" yanıtı gösterebilir. Bu oranlar, log olasılıkları olarak ifade edildiğinde (düz oranlar yerine), yaşla (veya yaşın belirli bazı işlevleriyle) doğrusal olarak ilişkili olduğu varsayılır.

    Lojistik regresyon, yaş ve yanıt arasındaki doğrusal olmayan ilişkilere uyum sağlamak için kolayca genişletilebilir. Böyle bir uzatma, başlangıçtaki doğrusal varsayımın makul olup olmadığını değerlendirmek için kullanılabilir. Doğrusal olmayanları görüntülemek için yeterli ayrıntı veren büyük veri kümeleriyle uygulanabilir, ancak küçük veri kümeleriyle çok fazla kullanılması muhtemel değildir. Genel bir kural - regresyon modellerinin parametrelerden on kat daha fazla gözlemi olması gerektiğidir - doğrusal olmayanlığı (doğrusal bir fonksiyonun kesişmesine ve eğimine ek olarak üçüncü bir parametreye ihtiyaç duyan) tespit etmek için 20'den fazla gözlemin gerekli olduğunu gösterir. ).

Bir t testi, ortalama yaşların popülasyondaki hayır ve evet yanıtlayanlar arasında farklılık gösterip göstermediğini tespit eder. Lojistik bir regresyon, yanıt oranının yaşa göre nasıl değiştiğini tahmin eder. Bu nedenle, t-testinden daha esnek ve daha ayrıntılı bilgi sağlayabilmektedir. Öte yandan, grupların ortalama yaşları arasındaki farkı saptamak amacıyla t-testinden daha az güçlü olma eğilimindedir.

Test çiftinin, dört anlamlılık ve önemsizliğin dört kombinasyonunu da sergilemesi mümkündür. Bunlardan ikisi sorunlu:

  • T testi anlamlı değildir, ancak lojistik regresyon önemlidir. Her iki testin varsayımları mantıklı olduğunda, böyle bir sonuç pratik olarak imkansızdır, çünkü t-testi, lojistik regresyonun ortaya koyduğu gibi belirli bir ilişkiyi tespit etmeye çalışmamaktadır. Bununla birlikte, bu ilişki en yaşlı ve en genç öznelerin bir görüşü ve orta yaşlı özneleri başka bir şekilde paylaşmasına neden olacak kadar doğrusal olmadığında, lojistik regresyonun doğrusal olmayan ilişkilere genişletilmesi, hiçbir t-testinin tespit edemediği durumu tespit edebilir ve ölçebilir. .

  • T testi önemlidir ancak lojistik regresyon, sorudaki gibi değildir. Bu, özellikle bir grup genç katılımcı, bir grup yaşlı katılımcı ve aralarında çok az kişi olduğunda olur. Bu, hayır ve evet yanıtlayanların yanıt oranları arasında büyük bir ayrım yaratabilir. T-testi ile kolayca tespit edilir. Bununla birlikte, lojistik regresyon ya yanıt oranının gerçekte yaşla nasıl değiştiği hakkında nispeten az ayrıntılı bilgiye sahip olur ya da sonuçsuz bilgiye sahip olur: tüm yaşlı insanların bir yöne ve tüm gençlere başka bir şekilde yanıt verdiği "tam ayrılma" durumu - ancak bu durumda her iki test de genellikle çok düşük p değerlerine sahip olacaktır.

Deney tasarımının bazı test varsayımlarını geçersiz kılabileceğini unutmayın. Örneğin, tabakalı bir tasarımda insanları yaşlarına göre seçtiyseniz, t-testinin (her grubun yaşların basit rastgele örneklerini yansıttığı) varsayımı sorgulanabilir hale gelir. Bu tasarım lojistik regresyona dayanmayı önerecektir. Bunun yerine, yanıt vermeyenlerden biri ve evet yanıtlayanlardan biri olmak üzere iki havuzunuz varsa ve yaşlarını belirlemek için rastgele seçtiyseniz, t-testindekiler geçerli olacak şekilde lojistik regresyonun örnekleme varsayımları şüphelidir. Bu tasarım bir çeşit t-testi kullanılmasını önerecektir.

(İkinci tasarım burada aptalca görünebilir, ancak "yaş" ın yerini zor, maliyetli veya zaman alıcı olan bazı özelliklerle değiştirildiği durumlarda çekici olabilir.)


Doğrusallık ve ayrılık kaygılarının çoğu, yaş değişkeninde bir spline kullanılarak hafifletilmeyecek mi? Bu konuda özür dilerim ama "toplanmış" tasarımın neden lojistik gerilemenin sonuçlarını geçersiz kılacağını göremiyorum . Elbette, rastgele örnek varsayımı gitti, ancak bu tasarım seçimini yaptığımız dikkate alınır mı? Seçim yanlılığını mı düşünüyorsunuz? (
Açıkladığınız

@ usεr11852 Düşünceli yorumlarınız için teşekkür ederiz. Ortaya koyduğunuz noktaları netleştirmek için bazı bölümleri yeniden yazdım. Çağın splintlenmesi, lojistik regresyonda doğrusal olmama ile başa çıkabilse de, tamamen ayrılma olasılığını artırabilir. "Birleştirilmiş tasarım" ile ne demek istediğinizden emin değilim, ancak bir olasılık modelinin haklı gösterilemediği bir lojistik regresyonun p-değerlerini yorumlama çabalarından şüpheliyim (bu rastgele örneklemenin yapmamızı sağlar).
whuber

Bunlar için teşekkürler. Evet, tam bir ayrılık (Hauck-Donner etkileri) hakkında konuştuğunuz noktayı tamamen takdir ediyorum, onları dikkate almadım. Tamam, şimdi iki havuz hakkında ne demek istediğini anlıyorum. Bu durumda, üzerinde anlaşmaya varılmış bir gözlemsel çalışma konseptimiz olacaktı (iki havuzu gözlemliyoruz / tanımlıyoruz), bu yüzden kontrol etmek için yarasa bakmalıyız (eğilim puanları, vb.)
usεr11852, Reinstate Monic

5

tXY

X|Y=ben~N-(μben,σ2).
Y~bernoulli(p)YX=x
P(Y=1|X=x)=fX|Y=1(x)P(Y=1)i=01fX|Y=i(x)P(Y=i)=pe12σ2(xμ1)2pe12σ2(xμ1)2+(1p)e12σ2(xμ0)2=11+1ppe12σ2(xμ0)2+12σ2(xμ1)2=logit1(β0+β1x)
β0=lnp1p12σ2(μ12μ02)β1=1σ2(μ1μ0).

Dolayısıyla bu anlamda iki koşullu model uyumludur.


3

Daha iyi test, sorunuzu daha iyi ele alan testtir. İkisi de yüzünde daha iyi değil. Buradaki farklılıklar, x üzerinde y ve x'de y'ye gerilediğinde bulunanlara eşittir ve farklı sonuçların nedenleri benzerdir. Değerlendirilen varyans, hangi değişkenin modelde yanıt değişkeni olarak ele alındığına bağlıdır.

Araştırma sorunuz çok belirsiz. Belki nedensellik yönünü düşünürseniz, hangi analizi kullanmak istediğinize dair bir sonuca varabilirsiniz. Yaş insanların "evet" yanıtı vermesine neden oluyor mu, yoksa "evet" yanıtı insanların yaşlanmasına neden oluyor mu? Muhtemelen birincisi, bu durumda "evet" olasılığındaki varyans modellemek istediğiniz şeydir ve bu nedenle lojistik regresyon en iyi seçimdir.

Bununla birlikte, testlerin varsayımlarını incelemelisiniz. Bunları çevrimiçi olarak wikipedia'da veya ders kitaplarında bulabilirsiniz. Lojistik regresyonu gerçekleştirmemek için iyi nedenleriniz olabilir ve bu olduğunda farklı bir soru sormanız gerekebilir.


1
Şunu mu demek istediniz: "lojistik regresyonu gerçekleştirmemek"?
mark999
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.