Lojistik regresyon ve rasgele orman sonuçları nasıl birleştirilir?


12

Makine öğreniminde yeniyim. Aynı veri kümesine lojistik regresyon ve rastgele orman uyguladım. Bu yüzden değişken önem kazanıyorum (lojistik regresyon için mutlak katsayı ve rastgele orman için değişken önem). Son bir değişken önemi elde etmek için ikisini birleştirmeyi düşünüyorum. Deneyimini herkes paylaşabilir mi? Torbalamayı, güçlendirmeyi, topluluk modellemesini kontrol ettim, ama ihtiyacım olan şey bunlar değil. Çoğunlukla aynı model için bilgileri çoğaltmalar arasında birleştirmektir. Aradığım şey, birden fazla modelin sonucunu birleştirmek.


5
Topluluk modellemesi de modelleri birleştirebilir. Örneğin, çoğunluk oylamasını inceleyin. Ayrıca bkz. İstifleme.
pat

4
Aslında, lojistik regresyonda "değişken önemi" belirlemek için katsayıların büyüklüğünü kullanmak iyi bir yol değildir. Standart katsayılara baksanız bile, bu iyi bir yöntem değildir. Neden? Katsayıların sadece tahmin olduğunu ve bunlarla ilişkili bir hata olduğunu unutmayın. Katsayıları boyuta göre seçmek, katsayı boyutunu fazla tahmin ettiğiniz ve katsayı boyutunu az tahmin ettiğiniz değerleri düşüreceğiniz anlamına gelir.
user765195

Yanıtlar:


12

Muhtemelen değişken ithalatları ne kullanmak istediğinize bağlıdır. Üçüncü bir sınıflandırma modeli için özellik seçimi için bir kriter olarak kullanılacak mı? Bu durumda, çeşitli değerler ve ortalama ağırlık için değişken ortalamaları (belki de her bir bağımsız değişken önem vektörünü ünite uzunluğuna normalleştirdikten sonra) ağırlıklı bir hesaplamaya ve ardından final için en iyi çapraz onaylanmış puanı veren değeri toplamaya çalışabilirsiniz. modeli.

Lojistik regresyon modelinin ve rastgele orman modelinin (değişken ithalatları dikkate almadan) sonucunu birleştirmek için, aşağıdaki blog yazısı çok bilgilendiricidir ve çıktının tek bir ortalamasının regresyon modelleri için basit ama çok etkili bir topluluk yöntemi olduğunu göstermektedir.


1
Cevabın için teşekkürler. Bahsettiğiniz blog gerçekten ilginç bir çalışma. Sanırım bu fikri anladım. Tek endişe onun çapraz entropi formülüdür. Çevrimiçi bulduğumdan farklı görünüyor. Onun kullanımı: cross.entropy <- fonksiyon (hedef, tahmin) {tahmin = pmax (1e-10, pmin (1-1e-10, tahmin)) - toplam (hedef * günlük (tahmin)) + (1 - hedef) * log (1 - tahmini))}
user1946504

2
ve aynı fikri kendi veri setime uyguladığımda, ölçüt olarak yanlış sınıflandırma hatası kullandım, grafik benzer değil. Rastgele orman lojistik regresyondan çok daha iyi ortaya çıkıyor. RF'nin yanlış sınıflandırma hatası 0.2'dir, çünkü LR 0.4'tür. Aynı zamanda, RF için AUC 0.8, LR için 0.73'tür.
user1946504

5

(Yukarıdaki yanıt ve geri bildirimler hakkında yorum yapma)

İnternet günlüğünü okuduğunuz için teşekkürler!

Çapraz entropi hata fonksiyonu, günlük fonksiyonlarındaki hataları önlemek için ucuz ve kolay bir yol olarak tahmini değerleri [1e-10, 1-1e-10] olarak keserek biraz hile yapar. Aksi takdirde, bu standart formüldür.

Veri kümesi için, rasgele bir ormanın kütükten çok daha üstün olduğu veri kümelerine sahip olmak çok mümkündür. reg. ve günlük. reg. topluluğa hiçbir şey katmıyor. Elbette, tutma verilerini kullandığınızdan emin olun - rastgele bir orman, çok daha etkili parametrelere sahip olması nedeniyle eğitim verilerinde neredeyse her zaman üstün sonuçlar elde edecektir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.