Dichotomous ve sürekli değişken arasındaki korelasyon


10

İkili ve sürekli değişken arasındaki ilişkiyi bulmaya çalışıyorum.

Bu konudaki temel çalışmamdan bağımsız t-testi kullanmak zorunda olduğumu ve bunun için ön koşulun değişkenin dağılımının normal olması gerektiğine karar verdim.

Normalliği test etmek için Kolmogorov-Smirnov testi yaptım ve sürekli değişkenin normal olmadığını ve eğri olduğunu gördüm (yaklaşık 4.000 veri noktası için).

Tüm değişkenler için Kolmogorov-Smirnov testini yaptım. Onları gruplara ayırmalı ve testi yapmalı mıyım? Yani, eğer risk level( = Riskli 0değil, 1= Riskli) ve kolesterol seviyelerim varsa, o zaman yapmalıyım:

  • Onları iki gruba ayırın, örneğin

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • Onları bir araya getirip testi uygula? (Yalnızca tüm veri kümesinde gerçekleştirdim.)

Bundan sonra, hala normal değilse hangi testi yapmalıyım?

EDIT: Yukarıdaki senaryo sadece sorunum için sağlamaya çalıştım bir açıklama oldu. 1000'den fazla değişken ve yaklaşık 4000 örnek içeren bir veri setim var. Bunlar ya sürekli ya da kategorik yapıdadır. Benim görevim, bu değişkenlere dayalı bir ikilik değişkeni tahmin etmektir (belki bir lojistik regresyon modeli bulmak olabilir). Bu yüzden ilk araştırmanın ikilik ve sürekli değişken arasındaki ilişkiyi bulmayı içereceğini düşündüm.

Değişkenlerin dağılımının nasıl olduğunu görmeye çalıştım ve dolayısıyla t-testine geçmeye çalıştım. Burada normalliği bir sorun olarak buldum. Kolmogorov-Smirnov testi bu değişkenlerin çoğunda 0,00 anlamlılık değeri verdi.

Burada normalliği kabul etmeli miyim? Bu değişkenlerin çarpıklığı ve basıklığı, verilerin neredeyse tüm durumlarda çarpık olduğunu (> 0) göstermektedir.

Aşağıda verilen nota göre nokta-biseriyal korelasyonu daha fazla araştıracağım. Ama değişkenlerin dağılımı hakkında hala emin değilim.


1
Bir sürekli ve bir ikili (grup) değişken arasındaki korelasyon (herhangi bir tür), gruplar arasındaki ortalamaların (bir çeşit ortalama ...) karşılaştırılmasından çok daha fazla (ve belki de daha az ...) değildir, bu yüzden genellikle sadece bunu yapmak daha iyi olmalı!
kjetil b halvorsen

Yanıtlar:


14

Biraz kafam karıştı; başlığınız "korelasyon" diyor ancak yayınınız t testlerine atıfta bulunuyor. T-testi merkezi konum testidir - daha spesifik olarak, bir veri kümesinin ortalaması başka bir kümenin ortalamasından farklı mıdır? Korelasyon ise iki değişken arasındaki ilişkiyi göstermektedir. Çeşitli korelasyon önlemleri vardır, sizin durumunuzda nokta-biseriyal korelasyonun uygun olduğu görülmektedir.

Bir t-testinin normalliği kabul ettiği doğrudur; bununla birlikte, normallik testlerinin 4000 N'lik önemsiz normal olmayanlar için bile önemli sonuçlar vermesi muhtemeldir. T-testleri, iki veri kümesinin varyansı kabaca eşitse ve örnekse, normallikten mütevazı sapmalara karşı oldukça sağlamdır. boyutları kabaca eşittir. Ancak parametrik olmayan bir test, aykırı değerlere karşı daha sağlamdır ve bunların çoğu, dağılımlar normal olsa bile, neredeyse t-testi kadar yüksektir.

Ancak, örneğin, "kolesterol" riskli veya riskli değil olarak kullanırsınız. Bu neredeyse kesinlikle kötü bir fikir. Sürekli bir değişkeni ikiye ayırmak büyülü düşünmeyi gerektirir. Bir noktada kolesterolün "riskli değil" den "riskli" ye gittiğini söylüyor. Farz edelim ki 200'ü kesiminiz olarak kullandınız - o zaman 201 kolesterolü olan birinin 400'lü biri gibi olduğunu ve 199'lu birinin 100'lü biri gibi olduğunu söylüyorsunuz. Bu mantıklı değil.


2
Katılıyorum ve çoğumuzun ikiye ayrılmasının bilgiyi boşa harcadığını ve bunun kaba, kaba veya beceriksiz bir yöntem olabileceğini kabul ediyorum. Ben sadece "büyülü düşünme" iddiasının biraz fazla olduğunu düşünüyorum. Bir farkın üzerinde parlamayı seçmek, hiçbir fark olmadığına inanmakla aynı şey değildir. Analitik veya raporlama amaçlı olarak bazı sürekli değişkenlerden kategoriler oluşturmayı uygun bulabileceğim ve denemeye değer olacağım zamanlar olacağını umuyorum. Sadece 2 sentim.
rolando2

2
R2

6

Şeyleri basitleştirelim. Kolesterol seviyesi için N = 4.000 ile, sonuçların aykırı değerlere karşı önyargılı olması konusunda sorun yaşamamalısınız. Bu nedenle, ilk cümlenizin ima ettiği gibi korelasyonun kendisini kullanabilirsiniz. Pearson, Spearman veya Point-Biserial yöntemiyle korelasyonu değerlendirmeniz çok az fark yaratacaktır.

Bunun yerine, sonuçları Yüksek Riskli ve Düşük Riskli gruplar arasındaki tipik kolesterol farkı açısından gerçekten ifade etmeniz gerekiyorsa, Mann-Whitney U testinin kullanılması iyidir, ancak daha bilgilendirici t testini de kullanabilirsiniz . Bu N ile (ve yine, astronomik aykırılıklarla şüphesiz dışlayabileceğiniz bir şey), normallik eksikliğinin sonuçlarınızı tehlikeye atacağından endişelenmenize gerek yok.


Cevabın için teşekkürler. Ama aykırı değerlerin büyük bir çarpıtma yaptığını bilmem gerekirse, bunu tespit etmek için basıklık ve çarpıklık kullanmak doğru mu? Eğer bu doğruysa, hangi basıklık ve çarpıklık değerlerinin dağılımın normal olmadığını varsaymalıyım. Cevabınız için teşekkür ederiz
Sree Aurovindh

Sınırlı içerik bilgisine dayanarak, kolesterol ile, diğerlerinden daha fazla büyüklük derecesine sahip herhangi bir değeriniz olmayacağını varsayıyorum. Bu yüzden korelasyon veya t-testi gibi parametrik bir yöntem kullanabileceğinizi düşünüyorum. Bence dağılım normal değil. Normal olmasına gerek yok. Bu arada, Peter'ın cevabının ışığında: Kolesterol puanından bağımsız olan Yüksek / Düşük Risk durumunun bir kaynağına sahip olduğuna inanıyordum (ve umuyorum). Muhtemelen ikiye ayrılmanın yararlı olmadığını kabul ediyorum.
rolando2

2
Orijinal sorunuza "DÜZENLE: ...." olarak işaretlenmiş ve sizin için şimdiye kadar aldığınız yanıtlar ve yorumlar tarafından yanıtlanmayan soruları gösteren bir bölüm eklemenizi önerebilir miyim?
rolando2

Öneriniz için teşekkürler. Aynı şeyi güncelledim. İlk
etapta
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.