Hasar verilerindeki geçmiş durumlardan sonraki tıbbi durumu tahmin etme


12

Şu anda bazı laboratuvar ve eczane taleplerini içeren çok çeşitli sağlık sigortası talep verileriyle çalışıyorum. Bununla birlikte, veri setindeki en tutarlı bilgi, tanı (ICD-9CM) ve prosedür kodlarından (CPT, HCSPCS, ICD-9CM) oluşur.

Hedeflerim:

  1. Kronik böbrek hastalığı gibi tıbbi bir durum için en etkili öncü koşulları (komorbiditeler) belirleyin;
  2. Bir hastanın geçmişte sahip olduğu koşullara göre tıbbi bir durum geliştirme olasılığını (veya olasılığını) belirleyin;
  3. 1 ve 2 ile aynı şeyi yapın, ancak prosedürler ve / veya teşhislerle.
  4. Tercihen sonuçlar bir doktor tarafından yorumlanabilir

Miras Sağlık Ödülü Milestone kağıtları gibi şeylere baktım ve onlardan çok şey öğrendim, ancak hastaneye yatışları tahmin etmeye odaklanıyorlar.

İşte sorularım: Sizce böyle problemler için hangi yöntemlerin işe yaradığını düşünüyorsunuz? Ayrıca, veri bilimi uygulamaları ve sağlık ve klinik tıpla ilgili yöntemler hakkında bilgi edinmek için hangi kaynaklar en yararlı olacaktır?

Düz metin tablosu eklemek için # 2 DÜZENLE:

KBH hedef durumdur, "kronik böbrek hastalığı", ". Herhangi bir" bu durumu herhangi bir zamanda edindiklerini belirtir. Diğer kısaltmalar, ICD-9CM kod gruplamaları tarafından tanımlanan diğer koşullara karşılık gelir. Bu gruplama, alma işlemi sırasında SQL'de gerçekleşir. Patient_age hariç her değişken ikilidir.


1
Bazı örnek veriler sağlayabilir misiniz (düz İngilizce, kod yok)?
14'te arkadaş

Orijinal gönderime bazı örnek veriler ekledim. Bu versiyonda, her koşul üç harfli bir kodla gösterilir.
Jamie

1
R serindir, ancak insan tarafından okunabilir değildir. Verilerinizin örneğini tablo olarak yeniden biçimlendirebilir misiniz (örn. CSV veya TSV biçimini kullanarak; 5-6 sütun uygundur)? Ayrıca, değişkenlerin bazı açıklamaları ("anx.any", "flu.isbefore.ckd", vb. Aslında ne anlama gelir ve ne tahmin edilir) çok yardımcı olacaktır.
arkadaş

1
Herhangi bir korelasyon olup olmadığını anlayabilmemiz için veri kümesinde kullanılan parametreler hakkında daha fazla bilgi verebilir misiniz? Bahsettiğiniz bazı kısaltmalar bana açık değil. Çevrimdışı işbirliği yapabilmemiz için e-posta kimliğinizi paylaşabilmeniz harika olurdu. Teşekkürler!
JohnGalt

1
Bu sadece biraz ilişkilidir, ancak en son veri bilimi sorunumuz diğer iddialardan gelen iddiaları tahmin etmektir. cloudera.com/content/cloudera/en/training/certification/ccp-ds/… Çözüm piyasaya sürüldüğünde birkaç ilginç fikir içerebilir.
Sean Owen

Yanıtlar:


7

Tıbbi verilerle hiç çalışmadım, ancak genel akıl yürütmeden, sağlık hizmetindeki değişkenler arasındaki ilişkilerin oldukça karmaşık olduğunu söyleyebilirim. Rastgele ormanlar, regresyon vb. Gibi farklı modeller ilişkilerin sadece bir kısmını yakalayabilir ve diğerlerini göz ardı edebilir. Bu gibi durumlarda genel istatistiksel keşif ve modelleme kullanmak mantıklıdır .

Örneğin, ilk yapacağım şey olası öncü durumlar ve teşhisler arasındaki korelasyonları bulmak . Örneğin, vakaların yüzde kaçında kronik böbrek hastalığı uzun grip geçirdi? Yüksek ise, ortalama nedensellik her zaman yapar , ama düşünce için oldukça iyi gıda verir ve daha iyi farklı koşullar arasındaki ilişkileri anlamak için yardımcı olur.

Bir diğer önemli adım veri görselleştirmedir. KBH erkeklerde kadınlardan daha sık mı görülür? İkamet ettikleri yer ne olacak? KBH olgularının yaşa göre dağılımı nedir? Büyük veri kümesini bir sayı kümesi olarak kavramak zordur, bunları çizmek çok daha kolay hale getirir.

Neler olduğu hakkında bir fikriniz olduğunda , varsayımınızı kontrol etmek için hipotez testi yapın. Eğer sıfır hipotezini (temel varsayım) alternatif olan lehine reddederseniz, tebrikler, "gerçek bir şey" yaptınız.

Son olarak, verilerinizi iyi anladığınızda, eksiksiz bir model oluşturmaya çalışın . PGM (örn. Elle hazırlanmış Bayes ağı) gibi genel bir şey veya doğrusal regresyon veya SVM gibi daha spesifik bir şey veya herhangi bir şey olabilir. Ancak herhangi bir şekilde, bu modelin verilerinize nasıl karşılık geldiğini ve verimliliğini nasıl ölçebileceğinizi zaten bileceksiniz.


İstatistiksel yaklaşımı öğrenmek için iyi bir başlangıç ​​kaynağı olarak Sebastian Thrun tarafından İstatistiklere Giriş dersini öneririm . Oldukça basit olsa da ve ileri konuları içermese de, en önemli kavramları açıklar ve olasılık teorisi ve istatistiklerinin sistematik olarak anlaşılmasını sağlar.


Bunun için teşekkürler! Daha önce attığım bazı adımları doğrular (keşif analizi, hipotez testi, vb.).
Jamie

7

Veri bilimcisi olmasam da, klinik bir ortamda çalışan bir epidemiyologum. Araştırma sorunuzda bir süre belirtilmedi (örn. 1 yıl, 10 yıl, yaşam boyu KBH gelişme oranları?).

Genel olarak, modellemeyi düşünmeden önce birkaç adım atarım (tek değişkenli analiz, iki değişkenli analiz, doğrusallık kontrolleri, vb.). Ancak, bir ikili olayı (sürekli VEYA ikili değişkenleri kullanarak) tahmin etmeye çalışmak için en yaygın olarak kullanılan yöntem lojistik regresyondur. CKD'ye laboratuvar değeri (idrar albümini, eGFR) olarak bakmak isterseniz, doğrusal regresyon (sürekli sonuç) kullanırsınız.

Kullanılan yöntemler verileriniz ve sorularınız tarafından bilgilendirilmekle birlikte, klinisyenler NEJM ve JAMA gibi tıp dergilerinde en sık bildirilen ilişkilendirme ölçütleri olarak olasılık oranlarını ve risk oranlarını görmek için kullanılır.

Bu sorunu insan sağlığı perspektifinden (İş Zekasının aksine) üzerinde çalışıyorsanız, bu Steyerberg'in Klinik Tahmin Modelleri mükemmel bir kaynaktır.


1
Yararlı öneriler için teşekkürler. Kesinlikle bu kitaba bakacağım! Laboratuar değerlerine erişimim olmasına rağmen, veriler güvenilmez ve düzensizdir, bu yüzden iddialardan alabileceğim verilere sadık kalmaya çalışıyorum. Değişken kısaltmalar aslında AHRQ Klinik Sınıflandırma Yazılımı tanı kodlarının gruplandırılmasıdır.
Jamie

3

"Kronik böbrek hastalığı gibi tıbbi bir durum için en etkili öncü koşulları (komorbiditeler) belirleyin"

Ben emin kimliği mümkün olduğunu değilim en etkili koşullar; Hangi modeli kullandığınıza bağlı olacağını düşünüyorum. Daha dün rastgele bir ormana ve artırılmış bir regresyon ağacına aynı verilere uyuyorum ve her modelin değişkenler için verdiği düzen ve göreceli önem oldukça farklıydı.


Teşekkürler Andy. Biraz ayrıntı verebilir misiniz? Değişkenler yeterince ayrıntı yakalamadığı için mi?
Jamie

Hiç bir fikrim yok. Farklı modellerin nasıl çalıştığına bağlı.
JenSCDC

Denediğiniz veya düşündüğünüz çözümlerden bazılarını önerebilir misiniz?
Jamie

Şimdiye kadar ben de yapmadım, yardım yok. Üzgünüm.
JenSCDC

Şimdi önümüzdeki birkaç hafta tatildeyim, ama geri döndüğümde buna bakacağım çünkü gerçekten ilgimi çekti.
JenSCDC
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.