Arka fon
Tıpta klinik araştırma yapıyorum ve birkaç istatistik dersi aldım. Doğrusal / lojistik regresyon kullanarak bir makale yayınlamamıştım ve değişken seçimini doğru yapmak istiyorum. Yorumlanabilirlik önemlidir, bu nedenle fantezi makine öğrenme teknikleri yoktur. Değişken seçim anlayışımı özetledim - birileri herhangi bir yanılgıya ışık tutabilir mi? Buna iki (1) benzer (2) özgeçmiş ilanı buldum ancak endişelerime tam olarak cevap vermediler. Herhangi bir düşünce çok takdir edilecektir! Sonunda 3 tane temel sorum var.
Problem ve Tartışma
Tipik regresyon / sınıflandırma problemimde, 200-300 gözlem,% 15 advers olay oranı (sınıflandırma ise) ve literatürde "istatistiksel olarak anlamlı" bir etkiye sahip olduğu iddia edilen veya makul hale getirdiği iddia edilen 40 değişkenden 25'i hakkında bilgi var. alan bilgisine göre algı.
Ben alıntılara “istatistiksel olarak anlamlı” koydum, çünkü herkes ve anneleri adım adım regresyon kullanıyor gibi gözüküyor, ancak Harrell (3) ve Flom (4) pek çok iyi nedenden dolayı hoş görünmüyor. Bu, Gelman blog yazısı tartışmasıyla da desteklenmektedir (5). Kademeli olarak kabul edilebilecek tek gerçek zaman, bunun gerçekten keşif analizi olması ya da birinin tahminle ilgilenip ilgilenmediği ve bununla ilgili bir onaylama şeması içeriyor olması gibi görünüyor. Özellikle pek çok tıbbi komorbidite birliktelikten muzdariptir ve araştırmalar küçük örneklem büyüklüğünden muzdariptir, benim anladığım kadarıyla literatürde birçok yanlış pozitif olacağı; Bu aynı zamanda potansiyel değişkenleri içermesi için literatüre güvenme ihtimalimi azaltıyor.
Bir başka popüler yaklaşım, yordayıcılar ve bağımsız değişken arasında başlangıç noktası olarak bir dizi tek regresyon / ilişki kullanmaktır. belirli bir eşiğin altında (örneğin, p <0.2). Bu StackExchange yazısında (6) belirtilen nedenlerden dolayı yanlış veya en azından yanıltıcı görünüyor .
Son olarak, makine öğrenmesinde popüler görünen otomatik bir yaklaşım L1 (Lasso), L2 (Ridge) veya L1 + L2 combo (Elastic Net) gibi cezaları kullanmaktır. Benim anlayışım, bunların OLS veya lojistik regresyon ile aynı kolay yorumlara sahip olmadığıdır.
Gelman + Hill aşağıdakileri önermektedir:
İstatistikler dersimde, tam / iç içe modelleri karşılaştırmalı değişken / model seçimi değişkenini yapmak için F testleri veya Sapma Analizi kullanarak hatırladım. Bu mantıklı görünüyor, ancak df başına sapmada en büyük düşüşe neden olan değişkenleri bulmak için sistematik olarak sıralı iç içe modeller, kolayca otomatikleştirilebilir gibi görünüyor (bu yüzden biraz endişeliyim) ve aynı zamanda siparişin sıkıntısı çekiyor gibi görünüyor. değişken dahil etme testi yaparsınız. Anladığım kadarıyla, bunun aynı zamanda çok kutupluluk ve artık parselleri (artık veya tahmin edilen) araştırmak suretiyle desteklenmesi gerektiğidir.
Sorular:
Gelman'ın özeti gidilecek yol mu? Önerilen stratejisinde ne ekler veya değiştirirsiniz?
Potansiyel etkileşimler ve dönüşümler (sadece önyargı / hata / ihmal eğilimli görünüyor) hakkında düşünmenin yanı sıra, potansiyel olanları keşfetmenin başka bir yolu var mı? Bana çok değişkenli adaptif regresyon spline (MARS) önerildi, ancak doğrusal olmayanların / dönüşümlerin standart bir regresyon modelinde aynı değişkenlere dönmediği konusunda bilgilendirildim.
Amacımın çok basit olduğunu varsayalım: "X1'in Y ile sadece X2 için olan ilişkisini tahmin etmek istiyorum" deyin. Y ~ X1 + X2'ye basitçe gerilemek, sonucu gerçek aktüel öngörme kabiliyetine referans göstermeden (çapraz doğrulama RMSE veya doğruluk önlemleriyle ölçülebildiği gibi) rapor etmek yeterli midir? Bu, olay oranına veya örneklem büyüklüğüne bağlı olarak mı yoksa R ^ 2 süper düşükse mi değişiyor (R ^ 2'nin iyi olmadığına inanıyorum, çünkü üzerine koyarak her zaman artırabilirsiniz)? Tahmini gücü optimize etmektense genel olarak çıkarım / yorumlanabilirlikle ilgileniyorum.
Örnek sonuçlar:
- "X2 için kontrol, X1, X1'in referans seviyesine göre Y ile istatistiksel olarak anlamlı bir şekilde ilişkili değildi." (lojistik regresyon katsayısı)
- "X1, Y'nin istatistiksel olarak anlamlı bir yordayıcısı değildi, çünkü modeldeki sapmadaki düşüş df'deki değişime göre yeterli değildi." (Sapma Analizi)
Çapraz doğrulama her zaman gerekli midir? Bu durumda kişi SMOTE, örnekleme vb. İle bazı sınıf dengelemeleri yapmak isteyebilir.