- Değişkenleri ikiye ayırırken, süreçte hangi bilgiler kaybolur?
- Bir ikilik analizlerde nasıl yardımcı olur?
Yanıtlar:
Hangi bilgiler kaybolur: Değişkene bağlıdır. Genellikle ikiye ayırmakla, bir değişken ile diğeri arasında düz bir etki çizgisi olduğunu iddia edersiniz. Örneğin, kanser üzerine yapılan bir çalışmada sürekli olarak bir kirleticiye maruz kalma ölçüsü düşünün. "Yüksek" ve "Düşük" olarak ikiye ayırırsanız, bunların yalnızca önemli olan iki değer olduğunu iddia edersiniz. Yüksek kanser riski vardır ve düşük kanser riski vardır. Peki ya risk bir süre sabit bir şekilde yükselir, sonra düzleşir, daha sonra yüksek değerlerde yükselmeden önce tekrar yükselirse? Bütün bunlar kayboldu.
Ne kazanıyorsunuz: Daha kolay. İkili değişkenlerin istatistiksel olarak ele alınması genellikle daha kolaydır. Bunu yapmak için nedenler var - eğer sürekli bir değişken yine de iki açık gruba düşerse , ancak ilk etapta değişkenin doğal bir formu olmadığı sürece ikiye ayrılmayı önlerim. Alanınızın bir değişkenin ikiye ayrıştırılmış bir formuna sahip olması için her iki şekilde bir şeyleri ikiye ayırması da genellikle yararlıdır . Örneğin, çoğu, 400'den küçük CD4 hücre sayısının HIV için kritik bir eşik olduğunu düşünmektedir. Bu nedenle, sürekli olarak CD4 sayma değişkenini de koruyacak olsam da, genellikle 400'ün üzerinde / altında bir 0/1 değişkenim olurdu. Bu, çalışmanızı başkalarıyla uyumlu hale getirmeye yardımcı olur.
Peter'a biraz katılmıyorum. Sürekli bir değişkeni kategorilere ayırmak çoğu zaman kaba bir ikilikten çok daha mantıklı olsa da, kantil kategorizasyona karşıyım. Bu tür kategorizasyonlara anlamlı yorumlar vermek çok zordur. Bence ilk adımınız, biyolojik veya klinik olarak iyi desteklenen bir kategorizasyon olup olmadığını görmek olmalı ve sadece bu seçenekler tükendiğinde miktarları kullanmalısınız.
Diktansızlaştırma veri analizine büyülü düşünme ekler. Bu nadiren iyi bir fikirdir.
İşte Royston, Altman ve Sauerbrei'nin kötü bir fikir olmasının bazı nedenleri üzerine bir makale .
Kendi düşüncelerim: Eğer bağımlı bir değişkeni ikiye ayırırsanız, diyelim ki, 2.5 kiloda doğum ağırlığı (bu her zaman yapılır), o zaman 2.49 kg'da doğan bebeklere tıpkı 1.5 kg'da doğan bebeklere ve 2.51'de doğan bebeklere davranıyorsunuz kg 3.5 kg olanlar gibi. Bu mantıklı değil.
Daha iyi bir alternatif genellikle kantil regresyondur. Bu konuyu yakın zamanda NESUG için yazdım. Bu kağıt burada
Yukarıdakilerin bir istisnası, kategorilerin büyük ölçüde motive edildiği; örneğin, sürüş davranışıyla çalışıyorsanız, sürüş için yasal yaşa göre kategorilere ayırmak mantıklı olacaktır.
@ Epigrad'ın ve @ Peter'ın cevaplarını beğendim ve destekledim. Ben sadece, binning aralığını ikili değişkene (potansiyel olarak) metrik değişkeni sıralı bir hale getiren eklemek istedim. İkili değişken ile ortalama veya varyansı hesaplamak yanlıştır (bazı insanların yapmasına rağmen) ve belirttiğim gibi başka bir yerde gibi , bazı çok değişkenli analizler teorik veya mantıksal olarak uygulanamaz hale gelir. Örneğin, centroid / Ward hiyerarşik kümeleme veya ikili değişkenlerle faktör analizi kullanmanın doğru olmadığını düşünüyorum.
Soruşturma müşterileri genellikle değişkenleri ikiye ayırmaya zorlar, çünkü bir sürekli özellik yerine birkaç sınıf açısından düşünmek daha basittir, bilgi daha az sisli ve (yanlış) daha hantal görünür.
Bununla birlikte, ikiye ayrılmanın garanti edilebileceği durumlar vardır. Örneğin, güçlü bimodalitenin olduğu veya analiz (örneğin MAMBAC veya diğer) 2 gizli sınıfın varlığını gösterdiğinde.