İkileme değişkenlerinin etkisi nedir?

Değişkenleri ikiye ayırırken, süreçte hangi bilgiler kaybolur?
Bir ikilik analizlerde nasıl yardımcı olur?

regression data-transformation binary-data

— Mimi
kaynak

Gelman ve Park'ın, iki değişkenin aksine, sürekli değişkenlerden üç kategori oluşturma uygulamasını karşılaştıran bir makalesi var . Genellikle, aşağıda başkaları tarafından açıklanan nedenlerden dolayı değişkeni sürekli bırakmak en iyisidir.

— Michael Bishop

Yanıtlar:

Hangi bilgiler kaybolur: Değişkene bağlıdır. Genellikle ikiye ayırmakla, bir değişken ile diğeri arasında düz bir etki çizgisi olduğunu iddia edersiniz. Örneğin, kanser üzerine yapılan bir çalışmada sürekli olarak bir kirleticiye maruz kalma ölçüsü düşünün. "Yüksek" ve "Düşük" olarak ikiye ayırırsanız, bunların yalnızca önemli olan iki değer olduğunu iddia edersiniz. Yüksek kanser riski vardır ve düşük kanser riski vardır. Peki ya risk bir süre sabit bir şekilde yükselir, sonra düzleşir, daha sonra yüksek değerlerde yükselmeden önce tekrar yükselirse? Bütün bunlar kayboldu.

Ne kazanıyorsunuz: Daha kolay. İkili değişkenlerin istatistiksel olarak ele alınması genellikle daha kolaydır. Bunu yapmak için nedenler var - eğer sürekli bir değişken yine de iki açık gruba düşerse , ancak ilk etapta değişkenin doğal bir formu olmadığı sürece ikiye ayrılmayı önlerim. Alanınızın bir değişkenin ikiye ayrıştırılmış bir formuna sahip olması için her iki şekilde bir şeyleri ikiye ayırması da genellikle yararlıdır . Örneğin, çoğu, 400'den küçük CD4 hücre sayısının HIV için kritik bir eşik olduğunu düşünmektedir. Bu nedenle, sürekli olarak CD4 sayma değişkenini de koruyacak olsam da, genellikle 400'ün üzerinde / altında bir 0/1 değişkenim olurdu. Bu, çalışmanızı başkalarıyla uyumlu hale getirmeye yardımcı olur.

Peter'a biraz katılmıyorum. Sürekli bir değişkeni kategorilere ayırmak çoğu zaman kaba bir ikilikten çok daha mantıklı olsa da, kantil kategorizasyona karşıyım. Bu tür kategorizasyonlara anlamlı yorumlar vermek çok zordur. Bence ilk adımınız, biyolojik veya klinik olarak iyi desteklenen bir kategorizasyon olup olmadığını görmek olmalı ve sadece bu seçenekler tükendiğinde miktarları kullanmalısınız.

— fomite
kaynak

Merhaba @epigrad. Bence kantil regresyonun oldukça kolay bir yorumu var; "ortalama" yerine "XXX persentil" yerine, normal OLS regresyonuna çok benzer.

— Peter Flom - Monica'yı eski durumuna döndürün

@PeterFlom Üzgünüm, daha açık olmalıydım. Klinik / biyolojik kanıtlardan oluşturulan kategorilerle karşılaştırıldığında, klinik / biyolojik olarak anlamlı bir yorum olarak oluşturmayı zor buluyorum. Kuşkusuz bu benim tarafımdan alana özgü bir yanlılık.

— Fomite

Oh, tamam, @epigrad, bu mantıklı. Ve bu davayı eklemek için cevabımı düzenleyeceğim.

— Peter Flom - Monica'yı eski durumuna döndürün

Görünüşe göre EpiGrad ve @PeterFlom "kantil regresyonu" farklı yorumluyor. EpiGrad, X değişkenini kantillerle tanımlanan gruplara bölmekten bahsederken, Peter Flom, modellemeden, örneğin ortalamanın yerine 90'ıncı kantilinden bahsediyor.

— Aniko

@Aniko Bu da mümkün olabilir. Peter'ın verileri kantillere ayırmak ve bunu bir regresyon modelinde kullanmak anlamına geldiğini (muhtemelen yanlış olduğunu) varsaymıştım. Alanımda yaygın (ve rahatsız edici) bir eğilim. Durum böyle olmayabilir.

— Fomite

Diktansızlaştırma veri analizine büyülü düşünme ekler. Bu nadiren iyi bir fikirdir.

İşte Royston, Altman ve Sauerbrei'nin kötü bir fikir olmasının bazı nedenleri üzerine bir makale .

Kendi düşüncelerim: Eğer bağımlı bir değişkeni ikiye ayırırsanız, diyelim ki, 2.5 kiloda doğum ağırlığı (bu her zaman yapılır), o zaman 2.49 kg'da doğan bebeklere tıpkı 1.5 kg'da doğan bebeklere ve 2.51'de doğan bebeklere davranıyorsunuz kg 3.5 kg olanlar gibi. Bu mantıklı değil.

Daha iyi bir alternatif genellikle kantil regresyondur. Bu konuyu yakın zamanda NESUG için yazdım. Bu kağıt burada

Yukarıdakilerin bir istisnası, kategorilerin büyük ölçüde motive edildiği; örneğin, sürüş davranışıyla çalışıyorsanız, sürüş için yasal yaşa göre kategorilere ayırmak mantıklı olacaktır.

— Peter Flom - Monica'yı eski durumuna döndürün
kaynak

Güzel Peter dedi. Analizde ikiye ayrılmanın iyi bir fikir olduğunu düşünemiyorum.

— Frank Harrell

@ Epigrad'ın ve @ Peter'ın cevaplarını beğendim ve destekledim. Ben sadece, binning aralığını ikili değişkene (potansiyel olarak) metrik değişkeni sıralı bir hale getiren eklemek istedim. İkili değişken ile ortalama veya varyansı hesaplamak yanlıştır (bazı insanların yapmasına rağmen) ve belirttiğim gibi başka bir yerde gibi , bazı çok değişkenli analizler teorik veya mantıksal olarak uygulanamaz hale gelir. Örneğin, centroid / Ward hiyerarşik kümeleme veya ikili değişkenlerle faktör analizi kullanmanın doğru olmadığını düşünüyorum.

Soruşturma müşterileri genellikle değişkenleri ikiye ayırmaya zorlar, çünkü bir sürekli özellik yerine birkaç sınıf açısından düşünmek daha basittir, bilgi daha az sisli ve (yanlış) daha hantal görünür.

Bununla birlikte, ikiye ayrılmanın garanti edilebileceği durumlar vardır. Örneğin, güçlü bimodalitenin olduğu veya analiz (örneğin MAMBAC veya diğer) 2 gizli sınıfın varlığını gösterdiğinde.

— ttnphns
kaynak

Argümanınızı anlamakta zorlanıyorum. Eğer bir müşteri kötü istatistiksel uygulama yapmamızı isterse, iki kez düşünmeliyiz. Not: trikotomi bir kelime değildir. Dichotomization = dicho (iki) + çok büyük (kesilmiş), bu yüzden kullanıldığında tritomize / tritomize olur.

— Frank Harrell

Müşteriye geçiş bir tartışma değildi, ağıttı. Yunanlılara gelince, haklısınız; Kelimeyi kaldırdım.

— ttnphns

Teşekkürler. Müşteri ile yoğun bir eğitim süreci olsa da, insani olabildiğince istatistiksel ağıtları düzeltici eyleme dönüştürmeye çalışıyorum.

— Frank Harrell