Kademeli regresyona modern, kolay kullanılan alternatifler nelerdir?


76

Yaklaşık 30 bağımsız değişken içeren bir veri kümesine sahibim ve bunlar ile bağımlı değişken arasındaki ilişkiyi araştırmak için genelleştirilmiş bir doğrusal model (GLM) oluşturmak istiyorum.

Bu durum için öğretildiğim yöntemin, adım adım gerilemenin artık istatistiksel bir günah olarak kabul edildiğinin farkındayım .

Bu durumda hangi modern model seçim yöntemleri kullanılmalıdır?


4
Diğer insanlar yardımcı olabilecek istatistiksel prosedürlerden bahseder, ancak önce değişkenler arasındaki ilişkinin gücü ve şekli hakkında bir teoriniz olup olmadığını soracağım. Senin örnek ne kadar büyük? Karmaşık modellerden kaçınmak için nedenleriniz var mı?
Michael Bishop

2
Test öncesi önyargı problemi ve spesifikasyon belirsizliği problemleriyle mücadelede alternatif olarak ortalamaları düşünen var mı? Kabaca konuşursak, tüm değişkenler potansiyel tahmin edicilerdir ve onların faydalı olma ihtimalini tahmin edebilirsiniz. Dolayısıyla, birleşik tahmin edici yalnızca öngörme performansını iyileştirmekle kalmaz, aynı zamanda "kapsam" altındaki değişkenlerin parametreleri için iyi özellik tahminleri üretir.
Dmitrij Celov

1
Daralma. Artık hiç kimse adım adım kullanmıyor, umarım
Aksakal

Yanıtlar:


56

Stepwise Regresyon için birkaç alternatif var . En çok kullandığım:

  • Modele hangi değişkenlerin dahil edileceğine karar vermek için uzman görüşü .
  • Kısmi En Küçük Kareler Regresyonu . Esasen gizli değişkenleri elde edersiniz ve onlarla bir regresyon yaparsınız. PCA'yı kendiniz de yapabilir ve ardından temel değişkenleri kullanabilirsiniz.
  • En Küçük Mutlak Çekme ve Seçim Operatörü (LASSO).

Hem PLS Regression hem de LASSO , aşağıdaki gibi R paketlerinde uygulanır.

PLS : http://cran.r-project.org/web/packages/pls/ ve

LARS : http://cran.r-project.org/web/packages/lars/index.html

Yalnızca bağımlı değişkeninizle bağımsız değişkenler arasındaki ilişkiyi araştırmak istiyorsanız (örneğin istatistiksel anlamlılık testlerine ihtiyacınız yoktur), ayrıca Rastgele Ormanlar veya Sınıflandırma / Regresyon Ağaçları gibi Makine Öğrenmesi yöntemlerini de öneririm . Rastgele Ormanlar ayrıca bağımlı ve bağımsız değişkenleriniz arasındaki doğrusal doğrusal olmayan ilişkilere de yaklaşabilir (bunlar Doğrusal Regresyon gibi ).

Makine Öğrenimi için iyi bir başlangıç ​​noktası , CRAN'da Makine Öğrenimi görev görünümü olabilir:

Makine Öğrenimi Görev Görünümü : http://cran.r-project.org/web/views/MachineLearning.html


10
Glmnet paketi, kementin de çok hızlı bir şekilde uygulanmasıdır
David J. Harris

2
Gizli değişken topluluğu içinde, PLSer'lerin kendilerinin çok yalıtılmış bir klibi oluşturduğunu ve ciddi bir literatüre giremediklerini (örneğin, Michael'ın çalışmalarında en küçük kareler tahmin edicilerinin asimptotik teorisini kastettiğim konusunda uyarırdım). Browne, Peter Bentler, Albert Satorra ve Alex Shapiro ve Ken Bollen'in enstrümantal değişken modellemesi, en önemlilerinden bazılarıdır). Garip olsa da, PLS, gizli değişken modelleme topluluğundan çok daha yüksek standartlarda bir titizlik sağlayan istatistik çevrelerinde kabul edilebilir bir yöntem gibi görünüyor.
11:11

6
İstatistiksel Öğrenme elemanları tiplerimiz değişken seçimi ve büzülme yöntemlerinin bir karşılaştırma: (OLS) en alt kümesi, sırt, kement PLS PCR.
cbeleites,


16

Model ortalama gitmek için bir yoldur (bilgi-teorik bir yaklaşım). R paketi glmultisi, yordayıcı değişkenlerinin her kombinasyonu için doğrusal modeller gerçekleştirebilir ve bu sonuçlar için ortalama ortalaması alabilir.

Http://sites.google.com/site/mcgillbgsa/workshops/glmulti adresini ziyaret edin.

Bununla birlikte, ilk önce yordayıcı değişkenleri arasındaki eşlikliliği araştırmayı unutmayın. Varyans Enflasyon Faktörleri ("araba" R paketinde bulunur) burada faydalıdır.


Teşekkürler. Gerçekten tüm olası modellere uyuyor mu? Etkileşim olmasa bile, bu durumda milyarlarca model var.
Peter Ellis

AFAIK yapabilir, ancak tüm modelleri değerlendirmek için harcanan zamanı önemli ölçüde azaltan bir genetik algoritma seçeneği vardır. Bkz. Www.jstatsoft.org/v34/i12/paper
OliP

3
Ayrıca MuMIn, AICcmodavgpaketler, glmultibüyük model setlerinde zekice olsa da.
Ben Bolker

8

@johannes mükemmel bir cevap verdi. SAS kullanıcısıysanız, LASSO PROC GLMSELECT ve kısmi en küçük kareler PROC PLS aracılığıyla kullanılabilir.

David Cassell ve ben birkaç SAS kullanıcı grubunda LASSO (ve Least Angle Regression) hakkında bir sunum yaptık. Kullanılabilir burada


7

İlginç tartışma İstatistiksel günah olarak kademeli olarak gerilemeyi etiketlemek biraz dindar bir ifadedir - ne yaptıklarını ve alıştırmanın amaçlarının açık olduğunu bildiği sürece, kesinlikle kendi varsayımları ile iyi bir yaklaşımdır ve kesinlikle önyargılıdır ve iyimserliği garanti etmez. Yine de aynı şey yaptığımız birçok şey için söylenebilir. Değişken uzayda korelasyon yapısının daha temel bir sorununu ele alan, iyimserliği garanti eden, bir süredir etrafta olan ve biraz öğrenme eğrisi olan CCA'nın bahsettiğini görmedim. R dahil çeşitli platformlarda uygulanır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.