İkili ve sürekli değişken arasındaki ilişkiyi bulmaya çalışıyorum.
Bu konudaki temel çalışmamdan bağımsız t-testi kullanmak zorunda olduğumu ve bunun için ön koşulun değişkenin dağılımının normal olması gerektiğine karar verdim.
Normalliği test etmek için Kolmogorov-Smirnov testi yaptım ve sürekli değişkenin normal olmadığını ve eğri olduğunu gördüm (yaklaşık 4.000 veri noktası için).
Tüm değişkenler için Kolmogorov-Smirnov testini yaptım. Onları gruplara ayırmalı ve testi yapmalı mıyım? Yani, eğer risk level
( = Riskli 0
değil, 1
= Riskli) ve kolesterol seviyelerim varsa, o zaman yapmalıyım:
Onları iki gruba ayırın, örneğin
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Onları bir araya getirip testi uygula? (Yalnızca tüm veri kümesinde gerçekleştirdim.)
Bundan sonra, hala normal değilse hangi testi yapmalıyım?
EDIT: Yukarıdaki senaryo sadece sorunum için sağlamaya çalıştım bir açıklama oldu. 1000'den fazla değişken ve yaklaşık 4000 örnek içeren bir veri setim var. Bunlar ya sürekli ya da kategorik yapıdadır. Benim görevim, bu değişkenlere dayalı bir ikilik değişkeni tahmin etmektir (belki bir lojistik regresyon modeli bulmak olabilir). Bu yüzden ilk araştırmanın ikilik ve sürekli değişken arasındaki ilişkiyi bulmayı içereceğini düşündüm.
Değişkenlerin dağılımının nasıl olduğunu görmeye çalıştım ve dolayısıyla t-testine geçmeye çalıştım. Burada normalliği bir sorun olarak buldum. Kolmogorov-Smirnov testi bu değişkenlerin çoğunda 0,00 anlamlılık değeri verdi.
Burada normalliği kabul etmeli miyim? Bu değişkenlerin çarpıklığı ve basıklığı, verilerin neredeyse tüm durumlarda çarpık olduğunu (> 0) göstermektedir.
Aşağıda verilen nota göre nokta-biseriyal korelasyonu daha fazla araştıracağım. Ama değişkenlerin dağılımı hakkında hala emin değilim.