Randomize Lojistik Regresyon ile Düz Vanilyalı Lojistik Regresyon Arasındaki Farklar


12

Ben arasındaki farkı bilmek istiyorum Rastgele Lojistik Regresyon (RLR) ve düz Lojistik Regresyon bir kağıt okuyorum, bu nedenle, (LR) "İstikrar Seçimi" ile diğerleri, Meinshausen. ; ancak RLR'nin ne olduğunu ve RLR ile LR arasındaki farkların ne olduğunu anlamıyorum.

Birisi RLR'yi anlamak için ne okumam gerektiğini gösterebilir mi? Yoksa başlangıç ​​için basit bir örnek var mı?


1
RLR standart bir terim değildir. Lütfen yöntemi tanımlayın.
Frank Harrell

Teşekkürler @FrankHarrell ... Yöntem scikit öğrenim kütüphanesinden geliyor .
Hendra Bunyamin

Makine öğrenimi / Büyük Veri için yeni bir yığın değişim sitesi olduğuna göre, belki de bu soru orada.
Placidia

4
@Placidia Bu iyi bir öneri. Bununla birlikte, kendi cevabınız bu sorunun neden buraya ait olduğunu gösterir: Sorunun hem istatistiksel hem de ML yönlerini doğru bir şekilde karakterize eden ve karşılaştıran dengeli bir bakış açısı sunabiliyoruz. "Veri bilimi" sitesindeki birisinin böyle bir cevaba katkıda bulunabilmesi mümkün olsa da , benim deneyimim bunun olası olmayacağıdır.
whuber

3
Yeni sitenin istatistiklerle ilgili yarısından fazlası olan veri bilimini çağırdığı, bu sitenin neyle ilgili olduğu konusunda şaşırdım.
Frank Harrell

Yanıtlar:


17

Bu referansa göz atmak isteyebilirsiniz . Sci-kit öğrenme rasgele lojistik regresyon uygular ve yöntem burada açıklanır.

Ancak sorunuzu cevaplamak için, iki yöntem hedeflerinde büyük ölçüde farklılık gösterir. Lojistik regresyon, bir modele uymakla ve RLR, modele giren değişkenleri bulmakla ilgilidir.

Vanilya lojistik regresyonu genelleştirilmiş doğrusal bir modeldir. İkili bir yanıt için, cevap olasılığının log oranlarının bir dizi öngörücünün doğrusal bir fonksiyonu olduğunu düşünüyoruz. Tahminlerin katsayıları maksimum olasılık kullanılarak tahmin edilir ve parametreler hakkındaki çıkarım modelin büyük örnek özelliklerine dayanır. En iyi sonuçlar için, tipik olarak modelin oldukça basit ve iyi anlaşıldığını varsayıyoruz. Hangi bağımsız değişkenlerin yanıtı etkilediğini biliyoruz. Modelin parametrelerini tahmin etmek istiyoruz.

Tabii ki, pratikte, hangi değişkenlerin modele dahil edilmesi gerektiğini her zaman bilmiyoruz. Bu özellikle potansiyel açıklayıcı değişkenlerin sayısının çok ve değerlerinin seyrek olduğu makine öğrenimi durumlarında geçerlidir.

Yıllar boyunca, birçok kişi değişken (okuma "özelliği") seçiminde istatistiksel model uydurma tekniklerini kullanmaya çalışmıştır. Artan güvenilirlik düzeyinde:

  1. Büyük bir model takın ve anlamlı olmayan Wald istatistikleri ile değişkenleri bırakın. Her zaman en iyi modeli üretmez.
  2. Olası tüm modellere bakın ve "en iyi" yi seçin. Hesaplama açısından yoğun ve sağlam değil.
  3. Büyük modeli bir L1 ceza dönemi (kement tarzı) ile takın. Yararsız değişkenler uyum içinde düşer. Daha iyi, ancak seyrek matrislerle kararsız.
  4. Rasgeleleştirme yöntemi 3. Rasgele altkümeler alın, her birine cezalandırılmış bir model takın ve sonuçları sıralayın. Sık gelen değişkenler seçilir. Yanıt ikili olduğunda, bu randomize lojistik regresyonudur. Benzer bir teknik, sürekli veriler ve genel doğrusal model ile çekilebilir.

2
+1 Genel bir metodolojinin bu kadar iyi ifade edilmiş, okunabilir, bilgilendirici bir araştırmasını görmek bir zevktir.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.