Sürekli verilerden kategorilere geçiş her zaman yanlış mıdır?


14

Verilerinizi nasıl ayarlayacağımı okuduğumda, sık sık karşılaştığım bir şey, bazı sürekli verileri kategorik verilere dönüştürmenin iyi bir fikir olmadığıdır, çünkü eşikler kötü bir şekilde belirlenirse çok iyi bir sonuç çıkarabilirsiniz.

Bununla birlikte, şu anda bazı verilerim var (prostat kanseri hastaları için PSA değerleri), burada ortak fikir birliği 4'ün altındaysanız muhtemelen sahip değilseniz, eğer yukarıdaysanız risk altındasınız ve sonra böyle bir şey olduğunu düşünüyorum. 10 ve 20'nin üstünde, muhtemelen var. Bunun gibi bir şey. Bu durumda, sürekli PSA değerlerimi 0-4, 4-10 ve> 10 diyelim gruplara ayırmak yine de yanlış olur mu? Yoksa eşik değerleri "iyi belirlenmiş" olduğu için aslında iyi mi?


5
Bağlıdır (her zamanki gibi). Örneğin, doktorların nasıl karar vereceğini ve bu kategorilere göre kararlar vermeyi düşünüyorsanız, aynı kategorileri kullanmanız size yardımcı olur. Bunun yerine, yüksek PSA ile ilişkili biyolojik sonuçları inceliyorsanız, büyük olasılıkla PSA'yı kategorize etmek istemezsiniz. Bu nedenle, "sorun değil mi?" Sorusuna kesin bir cevap yoktur.
whuber

Verilerle ne yapmaya çalışıyorsunuz? Bunun gibi sınırlar genellikle anlamak istediğiniz şeyle ilgili değildir, bu yüzden onları elle koymak soruya yalvarır mı?
RemcoGerlich

Verileri bir lojistik regresyon modeli için ayarlıyorum. Yani asıl soru aslında sürekli verilerin kullanılması mı yoksa bunun yerine ayrık verilere mi sahip olduğudur.
Denver Dang

1
Bana 'sürekli' verinin ne olduğu belli değil. Gerçekte var olan bir şey değil. Sonsuz hassasiyetle ölçüm / istatistik diye bir şey yoktur.
JimmyJames

1
@BillHorvath Evet, ben doktor değilim, bu yüzden bunun nasıl belirlendiğinden tam olarak emin değilim. Wiki sayfasına bir göz atarsanız, bunun tek bir yeri vardır: "4 ila 10 ng / mL (mililitre başına nanogram) arasındaki PSA seviyeleri şüpheli olarak kabul edilir ve anormal PSA'nın tekrar testiyle onaylanmasına dikkat edilmelidir. " ve sonra başka bir yer: "Düşük riskli: PSA <10, Gleason skoru ≤ 6, VE klinik evre ≤ T2a Orta risk: PSA 10-20, Gleason skoru 7, VEYA klinik evre T2b / c Yüksek riskli: PSA> 20 , Gleason skoru ≥ 8, VEYA klinik evre ≥ T3 "
Denver Dang

Yanıtlar:


23

Eşiklerinizde keskin bir süreksizlik var mı?

Örneğin, 3.9 ve 4.1 değerleri olan iki A ve B hastası ve 6.7 ve 6.9 değerleri olan başka bir C ve D hastası olduğunu varsayalım. Mi fark C ve D arasındaki karşılık gelen fark daha büyük A ve B arasındaki kanseri riskini de?

Evet ise, o zaman ayrıklaştırma mantıklıdır.

Değilse, eşikleriniz verilerinizi anlamada mantıklı olabilir , ancak istatistiksel olarak anlamlı bir şekilde "iyi belirlenmemiştir". Takdir etmeyin. Bunun yerine, test puanlarınızı "olduğu gibi" kullanın ve bir tür doğrusal şüphesi varsa, kullanın .

Bu çok tavsiye edilir.


2
Alttaki bağlantı harika noktalarla dolu. Bu cevabın gelecekteki okuyucuları kontrol etmelidir.
eric_kernfeld

Bence ayrıklaştırmanın, önerilen aradaki sonuçta büyük bir sıçrama olmadıkça VE sonuç bu gruplar içinde nispeten homojen değilse mantıklı değildir. Aksi takdirde, @Stephan Kolassa
LSC

1

Bence standart cevap her zaman kötüdür çünkü süreçte bilgi kaybedersiniz. Doğal aralık verileri alıp kategorik hale getirmekten herhangi bir şey kazanacağınıza inanmak zor.


Uygun durum, belirli bir x'in DV ile ilişkisinde gerçek bir süreksizliğin olduğu ve "kategoriler" içinde sonucun nispeten homojen olduğu durumdur.
LSC
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.