Degrade yükseltme,% 1 gibi düşük etkinlik oranlarına sahip veriler için uygun mu?


14

Enterprise miner kullanarak olay oranı yaklaşık% 1 ile bir veri kümesinde degrade artırmayı deniyorum, ancak herhangi bir çıktı üretmek için başarısız. Sorum şu ki, karar ağacı temelli bir yaklaşım olduğu için, bu kadar düşük bir olayla gradyan artırmayı kullanmak doğru mu?


3
Dengesiz veri seti ile ilgileniyorsunuz. Artırmak gerçekten onunla başa çıkmak için iyi bir yoldur. Ayrıntılar için bkz. Stats.stackexchange.com/questions/157940/…
DaL

Fakat benim için lojistik regresyon, rastgele orman veya gradyan artırımından daha iyi sonuçlar veriyor. Yükseltilmiş ağaçları deneyerek modelimin performansını artırmak istedim.
user2542275

Yükseltme zayıf sınıflandırıcılara dayanır. Teorik olarak, rastgele olandan biraz daha iyi olan herhangi bir zayıf sınıflandırıcı yapacaktır. Uygulamada, farklı algoritmalar bazı veri kümeleri için daha uygundur, bu nedenle seçtiğiniz zayıf sınıflandırıcı önemlidir. Kullandığınız algoritmalar, sonuçları ve veri kümesi hakkında daha fazla bilgi verebilir misiniz?
DaL

Tamam. Veri kümesi hakkında: Örnek boyutu> 4m, etkinlik oranı =% 1,2. Anlamlı p değeri <0,05 olan prediktör sayısı 150'dir. En anlamlı değişkenli lojistik regresyon% 20 popülasyonda 3'lük artış sağlamıştır. Sinir ağı yaklaşık 2.8'lik bir artış verdi. Gradyan yükseltme, ters önceki ağırlıklarla tabakalı örnekleme kullanılana kadar herhangi bir çıktı üretmedi. Ancak performans düşük.
user2542275

Veri kümeniz oldukça büyük olduğundan, azınlık sınıfınızdan yeterli sayıda örneğiniz olmalıdır, bu nedenle sorun göreceli dengesizlikten kaynaklanmaktadır. Çok az özelliğiniz var, ancak çok fazla değil, ama aslında karar ağacı bu veri kümeleri için daha az uygundur. Dengeli bir veri kümesi oluşturmanızı ve algoritmalarınızın bu konuda ne kadar iyi performans gösterdiğini görmenizi öneririm. Daha sonra algoritmayı orijinal veri kümesine ilk yorumda açıkladığım şekilde uygulayabileceksiniz.
DaL

Yanıtlar:


7

(Buna kısa cevap vermek için :)

Dengesiz bir veri kümesiyle uğraşırken degrade artırıcı bir makine algoritması kullanmak iyidir. Güçlü dengesiz bir veri kümesiyle uğraşırken, kullanılan metriğin uygunluğunu sorgulamak çok daha önemlidir. Doğruluk veya Geri Çağırma gibi keyfi eşiklere dayanan metriklerden potansiyel olarak kaçınmalı ve daha doğru bir resim veren AUCPR veya Brier puanlaması gibi metrikleri tercih etmeliyiz - mükemmel CV'ye bakın . sınıflandırma modellerini değerlendirmek için en iyi önlem? daha fazlası için). Benzer şekilde, potansiyel olarak farklı yanlış sınıflandırma maliyetleri atayarak maliyet duyarlı bir yaklaşım uygulayabiliriz (ör. Masnadi-Shirazi ve Vasconcelos (2011) Maliyete Duyarlı Arttırmagenel bir görünüm ve bilinen arttırıcı algoritmalarda önerilen değişiklikler veya daha basit bir yaklaşımla belirli bir ilginç uygulama için XGBoost algoritması için Higgs Boson meydan raporunu kontrol edin; Chen & He (2015) Artırılmış Ağaçlar ile Higgs Boson Keşfi daha fazla ayrıntı sağlar).

Olasılıksal bir sınıflandırıcı (GBM'ler gibi) kullanırsak, döndürülen olasılıkları kalibre etmeye aktif olarak bakabileceğimizi / incelememiz gerektiğini de belirtmek gerekir (örneğin, bkz. Zadrozny ve Elkan (2002) Sınıflandırıcı puanları doğru çok sınıflı olasılık tahminlerine veya Kull ve ark. 2017) Beta kalibrasyonu: ikili sınıflandırıcılar için lojistik kalibrasyonda iyi kurulmuş ve kolayca uygulanan bir iyileştirmedir ) öğrenci performansımızı potansiyel olarak arttırmak için. Özellikle dengesiz verilerle çalışırken, eğilim değişikliklerini yeterince yakalamak, sadece verileri etiketlemekten daha bilgilendirici olabilir. Bu ölçüde, bazıları maliyete duyarlı yaklaşımların sonunda bu kadar yararlı olmadığını iddia edebilirler (örneğin bkz. Nikolaou ve diğerleri (2016).Maliyete duyarlı artırma algoritmaları: Onlara gerçekten ihtiyacımız var mı? ). Orijinal noktayı tekrarlamak için, algoritmaları dengesiz veriler için doğal olarak kötü değildir ve bazı durumlarda çok rekabetçi bir seçenek sunabilirler.


Brier puanlamasının Doğruluk ölçüsüne eşdeğer olduğuna inanıyorum, bu nedenle nadir olay modellerini değerlendirirken Doğruluk ile aynı sınırlamalara sahip olacaktır.
RobertF

Brier skoru Doğruluk ile eşdeğer değildir. Doğruluk hesaplaması için öngörülen olasılıkların sert eşiklendirmesine dayalı etiketler kullandığımız için, Doğruluk puanının hesaplanması için öngörülen olasılığı kullandığımızı lütfen unutmayın.
usεr11852

Açıklığa kavuşturduğunuz için teşekkürler - tahmin edilen sınıf için 0/1 yerine tahmini olasılığı kullanmak daha mantıklıdır.
RobertF

Güzel. Biz bunu dizildi sevindim! :)
usεr11852
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.