Değişken seçimin daha kesin bir tartışması


55

Arka fon

Tıpta klinik araştırma yapıyorum ve birkaç istatistik dersi aldım. Doğrusal / lojistik regresyon kullanarak bir makale yayınlamamıştım ve değişken seçimini doğru yapmak istiyorum. Yorumlanabilirlik önemlidir, bu nedenle fantezi makine öğrenme teknikleri yoktur. Değişken seçim anlayışımı özetledim - birileri herhangi bir yanılgıya ışık tutabilir mi? Buna iki (1) benzer (2) özgeçmiş ilanı buldum ancak endişelerime tam olarak cevap vermediler. Herhangi bir düşünce çok takdir edilecektir! Sonunda 3 tane temel sorum var.

Problem ve Tartışma

Tipik regresyon / sınıflandırma problemimde, 200-300 gözlem,% 15 advers olay oranı (sınıflandırma ise) ve literatürde "istatistiksel olarak anlamlı" bir etkiye sahip olduğu iddia edilen veya makul hale getirdiği iddia edilen 40 değişkenden 25'i hakkında bilgi var. alan bilgisine göre algı.

Ben alıntılara “istatistiksel olarak anlamlı” koydum, çünkü herkes ve anneleri adım adım regresyon kullanıyor gibi gözüküyor, ancak Harrell (3) ve Flom (4) pek çok iyi nedenden dolayı hoş görünmüyor. Bu, Gelman blog yazısı tartışmasıyla da desteklenmektedir (5). Kademeli olarak kabul edilebilecek tek gerçek zaman, bunun gerçekten keşif analizi olması ya da birinin tahminle ilgilenip ilgilenmediği ve bununla ilgili bir onaylama şeması içeriyor olması gibi görünüyor. Özellikle pek çok tıbbi komorbidite birliktelikten muzdariptir ve araştırmalar küçük örneklem büyüklüğünden muzdariptir, benim anladığım kadarıyla literatürde birçok yanlış pozitif olacağı; Bu aynı zamanda potansiyel değişkenleri içermesi için literatüre güvenme ihtimalimi azaltıyor.

Bir başka popüler yaklaşım, yordayıcılar ve bağımsız değişken arasında başlangıç ​​noktası olarak bir dizi tek regresyon / ilişki kullanmaktır. belirli bir eşiğin altında (örneğin, p <0.2). Bu StackExchange yazısında (6) belirtilen nedenlerden dolayı yanlış veya en azından yanıltıcı görünüyor .

Son olarak, makine öğrenmesinde popüler görünen otomatik bir yaklaşım L1 (Lasso), L2 (Ridge) veya L1 + L2 combo (Elastic Net) gibi cezaları kullanmaktır. Benim anlayışım, bunların OLS veya lojistik regresyon ile aynı kolay yorumlara sahip olmadığıdır.

Gelman + Hill aşağıdakileri önermektedir:

gelman

İstatistikler dersimde, tam / iç içe modelleri karşılaştırmalı değişken / model seçimi değişkenini yapmak için F testleri veya Sapma Analizi kullanarak hatırladım. Bu mantıklı görünüyor, ancak df başına sapmada en büyük düşüşe neden olan değişkenleri bulmak için sistematik olarak sıralı iç içe modeller, kolayca otomatikleştirilebilir gibi görünüyor (bu yüzden biraz endişeliyim) ve aynı zamanda siparişin sıkıntısı çekiyor gibi görünüyor. değişken dahil etme testi yaparsınız. Anladığım kadarıyla, bunun aynı zamanda çok kutupluluk ve artık parselleri (artık veya tahmin edilen) araştırmak suretiyle desteklenmesi gerektiğidir.

Sorular:

  1. Gelman'ın özeti gidilecek yol mu? Önerilen stratejisinde ne ekler veya değiştirirsiniz?

  2. Potansiyel etkileşimler ve dönüşümler (sadece önyargı / hata / ihmal eğilimli görünüyor) hakkında düşünmenin yanı sıra, potansiyel olanları keşfetmenin başka bir yolu var mı? Bana çok değişkenli adaptif regresyon spline (MARS) önerildi, ancak doğrusal olmayanların / dönüşümlerin standart bir regresyon modelinde aynı değişkenlere dönmediği konusunda bilgilendirildim.

  3. Amacımın çok basit olduğunu varsayalım: "X1'in Y ile sadece X2 için olan ilişkisini tahmin etmek istiyorum" deyin. Y ~ X1 + X2'ye basitçe gerilemek, sonucu gerçek aktüel öngörme kabiliyetine referans göstermeden (çapraz doğrulama RMSE veya doğruluk önlemleriyle ölçülebildiği gibi) rapor etmek yeterli midir? Bu, olay oranına veya örneklem büyüklüğüne bağlı olarak mı yoksa R ^ 2 süper düşükse mi değişiyor (R ^ 2'nin iyi olmadığına inanıyorum, çünkü üzerine koyarak her zaman artırabilirsiniz)? Tahmini gücü optimize etmektense genel olarak çıkarım / yorumlanabilirlikle ilgileniyorum.

Örnek sonuçlar:

  1. "X2 için kontrol, X1, X1'in referans seviyesine göre Y ile istatistiksel olarak anlamlı bir şekilde ilişkili değildi." (lojistik regresyon katsayısı)
  2. "X1, Y'nin istatistiksel olarak anlamlı bir yordayıcısı değildi, çünkü modeldeki sapmadaki düşüş df'deki değişime göre yeterli değildi." (Sapma Analizi)

Çapraz doğrulama her zaman gerekli midir? Bu durumda kişi SMOTE, örnekleme vb. İle bazı sınıf dengelemeleri yapmak isteyebilir.



6
Bir şeyin otomatikleştirilip otomatikleştirilemeyeceği (şu anda - güçlü AI'nın ortaya çıkmasından önce) kırmızı bir ringa balığı olarak beni vurur.
gung - Reinstate Monica

7
Çok düşünceli bir soru için +1. İncelemenizin gösterdiği şeylerden biri, değişken seçimi için standart bir tarif veya yemek kitabı bulunmamasıdır. Herkesin farklı bir yaklaşımı ve "en iyi" uygulamaları var. Öyleyse, teorik veya nüfus modeliyle ampirik olarak yönlendirilen bir model arasında çok önemli bir fark var - bu farklı çerçeveler nadiren aynı hizadadır ve bunları birleştirmek kolaydır. Bir şeyi “kaçırmayla” ilgili endişeniz temelsiz değil, ancak gerçek şu ki kesin ve kesin bir cevap yok. Gözden geçirdiğiniz yaklaşımlar kapsamlı bir şekilde belgelenmiştir, birini seçin
Mike Hunter

4
Harrell, Flom ve Kolassa; o zaman yerleşti.
gung - Reinstate Monica

4
Re Gelman & Hill'in 4 (b): Harrell, RMS 1. baskı, p60: "Değişken seçim ile ilgili son bir problem, bu yaklaşımı [adım adım] birçok ekonomistin regresyon modellerini geliştirdiği mantıklı yolla karşılaştırarak gösterildi. Ekonomistler sıklıkla stratejiyi kullanıyorlar. sadece önemsiz olan ve regresyon katsayılarının mantıksız bir yöne sahip olan değişkenlerini silmekten ". Ve Steyerberg'in üzerine bir yazı yazacağını hatırlıyor gibiyim. [Ref bulmaya çalışacağım. şansım olduğunda.]
Scortchi - Reinstate Monica

Yanıtlar:


46

Andrew Gelman kesinlikle istatistiksel dünyada saygın bir isim. Prensipleri, alandaki diğer “büyük isimler” tarafından yapılan bazı nedensel modelleme araştırmalarıyla yakından uyumludur. Ancak klinik araştırmaya olan ilginiz düşünüldüğünde, başka kaynaklara danışmanız gerektiğini düşünüyorum.

Ben "nedensel" kelimesini gevşek olarak kullanıyorum (diğerleri gibi) çünkü gözlemsel verilerden "nedensel çıkarım" yapmak ile değişkenler arasındaki nedensel ilişkilerin ortaya konması arasında çizmemiz gereken ince bir çizgi var. Hepimiz RCT'lerin nedensellik değerlendirmesinin ana yolu olduğu konusunda hemfikiriz. Bazı istisnalar dışında, rastgele varsayım başına bu tür denemelerde herhangi bir şey için nadiren ayar yaparız ( Senn, 2004 ). Gözlemsel çalışmaların önemi ve faydaları vardır ( Weiss, 1989 ) ve gözlemsel verilerden çıkarım yapma karşıtlığına dayalı yaklaşım, bunu yapmak için felsefi olarak sağlam bir yaklaşım olarak kabul edilir ( Höfler, 2005 ). Genellikle , RKÇ'lerde ölçülen kullanım etkinliğini çok yaklaştırır ( Anglemyer, 2014 ).

Bu nedenle, gözlemsel verilerden yapılan çalışmalara odaklanacağım. Gelman’ın tavsiyelerine olan itirazım şudur: bir modeldeki tüm öngörücüler ve bunların tek bir faiz maruziyeti ile tek bir faiz sonucu arasındaki muhtemel nedensel ilişkileri apriori olarak belirtilmelidir . Bir dizi ana bulgu arasındaki ilişkiye dayanarak ortak değişkenlerin atılması ve hariç tutulması aslında özel bir 'Munchausen istatistik şebekesi' vakasına neden olmaktadır ( Martin, 1984 ). Bazı dergiler (ve eğilimin üzerinde durduğu ), nihai bir modeli tanımlamak için adım adım regresyon kullanan makaleleri ( Reddi Babil, 2004 ) özetleyecektir ve sorunun burada benzer şekillerde görüldüğünü düşünüyorum.

Bir modelde ortak değişkenlerin dahil edilmesi ve hariç tutulmasının gerekçesi şöyle tartışılmıştır: Judea Pearl'ün Nedensellik ( Pearl, 2002 ). İstatistiksel çıkarım, regresyon ve çok değişkenli ayarlama ilkelerini anlamak için belki de en iyi metinlerden biridir. Ayrıca Sanders ve Grönland ile pratik bir şey, özellikle de kendi tartışma aydınlatıcı Etki karışımı üzülerek (tavsiyelerin bu listeden atlanırsa Grönland ve ark. 1999). Nedensel bir model ile grafiksel bir ilişkiye dayanan belirli değişkenler etiketler atanabilir. Prognostik, karmakarışık veya hassas değişkenler gibi tanımlar, istatistiksel modellerde değişkenler olarak dahil edilmeyi gerektirir. Nedensel yolun ötesindeki arabulucular, çarpıştırıcılar veya değişkenler ihmal edilmelidir. Bu terimlerin tanımları Nedensellikte birçok örnekle titizlikle yapılmıştır.

Bu küçük arka plan göz önüne alındığında noktaları tek tek ele alacağım.

  1. Bu genellikle bir MAJOR ihtarı ile sağlam bir yaklaşımdır: bu değişkenler sonucun aracıları olmamalıdır. Örneğin, sigara içme ile fiziksel zindelik arasındaki ilişkiyi inceliyorsanız ve akciğer işlevini ayarlarsanız, sigara içiminin etkisini zayıflatır, çünkü zindeliğe doğrudan etkisi akciğer işlevini azaltmaktır. Bunun günümüze DEĞİLüçüncü değişkenin, ilgi göstergesine ve ilginin sonucuna neden olduğu için kafa karıştırmakla karıştırmayın. Kafa karıştırıcılar modellere dahil edilmelidir. Ek olarak, işlemlerin ayarlanması analizlerde birden fazla önyargı formuna neden olabilir. Arabulucular ve karmakarışıklıklar, analizlerde bulunanlardan dolayı değil, konu uzmanı (KOBİ) olarak SİZİN İNDİRİLDİĞİNDEN DEĞİLDİR. Değişken veya daha az başına 20 gözlem varsa veya olay veya lojistik analizlerinde olay başına 20 gözlem varsa, bunun yerine koşullu yöntemleri göz önünde bulundurmalısınız.

  2. Bu, eğilim puanının ayarlanması veya SEM veya faktör analizi kadar karmaşık olmayan mükemmel bir güç tasarrufu yaklaşımıdır. Bu mümkün olduğunda kesinlikle yapmayı tavsiye ederim.

  3. Gönülden katılmıyorum. Analizlerde diğer değişkenler için ayarlama noktası, karşılaştırma yapmanın mümkün olduğu katmanları oluşturmaktır. Karışıklık ilişkilerini yanlış tanımlamak, genellikle aşırı hesaplı analizlere yol açmaz; bu nedenle, ihmal edilen etkileşim terimlerinden geriye kalan karışıklık benim deneyimime göre, büyük bir sorun değildir. Bununla birlikte, ilgi alanı öngörücüsü ile diğer değişkenler arasındaki etkileşimi terimleri post-hoc analiz olarak düşünebilirsiniz. Bu, muhtemel bulguları (veya bunların eksikliğini) a olarak düzeltmek anlamına gelen bir hipotez oluşturma prosedürüdür. potansiyel olarak bir alt gruba ait veya b. İki çevresel ve / veya genetik faktör arasındaki mekanik bir etkileşimi içeren.

  4. Ben de buna gönülden katılmıyorum. Regresyona yönelik doğrulayıcı analize dayalı yaklaşımla çakışmaz. Sen KOBİ'sin. Analizler DATA tarafından değil SORU ile bildirilmelidir. Nedensel modelin (DAG ve Pearl ve ark.nın ilgili ilkelerini kullanarak) resimli bir tasvirine dayanarak ne olduğuna inandığınızı güvenle belirtin, sonra ilgi modelinize, uygunluğa ve tartışmaya yönelik öngörüleri seçin. Sadece ikincil bir analiz olarak bu yaklaşımı göz önünde bulundurmalısınız.

Tüm bunlarda makine öğreniminin rolü tartışmalıdır. Genel olarak, makine öğrenmesi, veri analizine ayrı yaklaşımlar olan çıkarımlara değil öngörmeye odaklanır . Cezalı regresyondan etkilerin yorumlanmasının,% 95 CI'lerin ve katsayı tahminlerinin bir ilişki ölçüsü sağladığı bir OLS tahminlerinden farklı olarak istatistiksel olmayan bir topluluk için kolayca yorumlanmaması konusunda haklısın.

Bir OLS modelinden Y ~ X'in katsayısının yorumu basittir: bir eğimdir, Y'de X biriminde 1 birim farklılık gösteren Y karşılaştırma gruplarında beklenen bir farktır. Çok değişkenli ayarlanmış bir Y ~ X1 + X2 modelinde bunu koşullu eğim: X1'de aynı değerde olan ve X1'de 1 birim farklı olan Y karşılaştırma gruplarında beklenen bir farktır. Geometrik olarak, X2 için ayarlama, X1'i Y ile karşılaştırdığımız üç boşluğun farklı katmanlarına veya "kesitlerine" yol açar, sonra bu katmanların her biri üzerinde bulguları ortalaması alırız. R'de coplotişlev, bu tür ilişkileri görselleştirmek için çok kullanışlıdır.


Ayrıntılı yorumunuzu gerçekten takdir edin - Sorularımı daha önce hiç bu kadar ayrıntılı olarak yanıtlamadım. Şimdi bağlantılarından geçiyorum!
sharper_image

1
(+1) Nokta 1'de: G&H, bunların " tahmin için regresyon modellerinin oluşturulması için genel ilkeler" olduğunu söylüyor [italiklerim], böylelikle ihtarınızın uygulanmasına gerek yok. (Belki de iyi akciğer fonksiyonlarına sahip nadir sigara içenler gerçekten de uygun olma eğilimindedirler.) Nedensel modelleri tartışmaya başladıklarında aynı noktayı ortaya koyarlar (Bölüm 9.7).
Scortchi

2
(+1) Olağanüstü tepki, AdamO! Zaten çok fazla iş yaptığını takdir ederek, bahsettiğin dergi politikasının bugünkü kabul durumu hakkında bildiğin başka bir şey söyleyip söylemediğini merak ediyorum. En azından JAMA dergilerinde 'kademeli' kelimesini görünce hâlâ öfke uyuyor. Bu politika hakkında bir editoryal alıntı yapabilir misiniz?
David C. Norris,

2
@ DavidC.Norris "Eğitimsel ve Psikolojik Ölçümleme", söz konusu dergi ve ne yazık ki, Babyak makalesinde sadece otomatik adım adım regresyondan bahsediyor . Bazı makalelerde, “aşamalı” olarak modellerin dahil edilmesine ve yeniden yerleştirilmesine yaklaşma yaklaşımlarını tartışan yazarların (otomatik olmasa da) gördüm. Onların kullandıkları prosedürü doğru bir şekilde tanımladıklarını, ancak hala bu yaklaşımla ciddi çekincelerim olduğunu savunuyorum.
AdamO,

1/2 +1 Güzel cevap. Bir kıkırdama: "Confounders modellere dahil edilmelidir." Katılan spesifik nedensel ilişkileri bağlı öylesine may yapıyor önyargı nedensel tahminden dernekler uzakta. Örneğin, tarif edilen DAG , , , ve , , bir karıştırıcı olan hem arka kapı kriter anlamında, hem de & ile ilişkili klasik (i) , (ii) veya bir nedeni ve (iii) & önceU 1L U 1A U 2Y U 2L L A Y A Y A Y E [ Y | A , L ] A - U 1 - L - U 2 - YLAU1LU1AU2YU2LLAYAYAYduygusu. Bununla birlikte, önyargılıdır ( ). E[Y|A,L]AU1LU2Y
Alexis,

9

Bu görkemli soru ve @ AdamO'nun kapsamlı cevabı, CV'nin insanlığa olan inancımı düzenli olarak nasıl yenilediğinin bir örneğidir. Burada esas olarak, bu cevabı (ve OP'nin sorusunu) daha geniş bir bağlamda değerlendirmenin bazı yollarını sunmayı amaçlayacağım.

Öncelikle, istatistiksel uygulama ile ilgili tüm güvenilir bir tavsiye iddia etmek girişim uyarıcı doğada - pro scriptive ziyade ön scriptive. Gelman & Tepesi noktası 3. Örneğin, süre gerçekten iyi olarak anlaşılmaktadır, ( "dikkate") aktif olarak bir şeyler yapmak için yüzeysel tavsiye olarak okur karşı uyarıda başarısız düşünün güçlü etkileri olan etkileşimleri. Sezgisel olarak (çok değişkenli) bir Taylor serisi genişlemesinde en önemli terimleri seçmekle ilgili sezgiye yapılan bir itiraz olarak anlaşıldı, bu benim için sakıncalı görünmüyor.

İkincisi, OP, doktora yapan biyoistatistlerin çoğundan daha iyi bir eğitim almakla meşgulken (AdamO'nun alıntılarını takip ederek), OP aynı zamanda David A. Friedman'ın İstatistiksel Modellerini ve Nedensel Çıkarımı [1] alabilir; Klinik araştırmalarda regresyonun birincil aracımız olması gerektiği varsayımına varıldı. Özellikle burada daha önce yayınlanmış [2] formunda da mevcut olan Bölüm 3, "İstatistiksel Modeller ve Ayakkabı Derisi" ni öneririm . (Derginin isminin sizi kapatmasına izin vermeyin; çizilen ana dersler John Snow'un kolera konusundaki araştırmalarındandır. Ayrıca , bu derslerin ayrıntılı olarak verildiği bu cevaba bakınız .)

Son olarak - ve belki de bu gerçekten Freedman için bir sonuçtur - OP'nin sunduğu örnek “sonuçların” gerçekten de makalenin Sonuçlar bölümüne ait olacağı belirtilmelidir. Dokümanın gerçek Sonuç ve Tartışma bölümlerinin nasıl okunacağını, doktorlara, medyaya ve hatta artan sayıda hastaya ve meslekten olmayan kahramanlarına ulaşabilecek şekilde mümkün olduğunca erken düşünmek en sağlıklı olacaktır. tıp literatürünü okumak için emek. Bu son noktaya odaklanmanın sürdürülmesi, istatistiksel analizin teknik çalışmasını faydalı bir şekilde şekillendirecek ve tanımlamayı amaçladığı dünyanın gerçekliğine ve hizmet etmeyi amaçladığı gereksinimlere dayandırmaya devam edecektir.


  1. Freedman, David, David Collier, Jasjeet Singh Sekhon ve Philip B. Stark. İstatistiksel Modeller ve Nedensel Çıkarım: Sosyal Bilimler ile Diyalog. Cambridge; New York: Cambridge Üniversitesi Yayınları, 2010.

  2. Freedman, David A. “İstatistiksel Modeller ve Ayakkabı Deri.” Sosyolojik Metodoloji 21 (1991): 291–313. doi: 10,2307 / 270.939.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.