Neden birkaç model neredeyse aynı sonuçları verebilir?

10

Ben ~ 400k kayıtları ve 9 değişkenli bir veri seti analiz ediyorum Bağımlı değişken ikili. Bir lojistik regresyon, bir regresyon ağacı, rastgele bir orman ve gradyan artırılmış bir ağaç taktım. Hepsi, başka bir veri kümesinde doğruladığımda sanal olarak aynı uyum iyiliği değerini verir.

Neden böyle? Değişken oranlara ilişkin gözlemlerimin çok yüksek olması nedeniyle tahmin ediyorum. Bu doğruysa, hangi modeller hangi gözlem / değişken oranlarında farklı modeller farklı sonuçlar vermeye başlayacaktır?

data-mining classification binary

— JenSCDC
kaynak

7

Bu sonuçlar, hangi yöntemi kullanırsanız kullanın, optimal karar kuralına ( Bayes kuralı olarak ) makul bir şekilde yaklaşabileceğiniz anlamına gelir . Bunun temel nedenleri Hastie, Tibshirani ve Friedman'ın "İstatistiksel Öğrenmenin Unsurları" nda açıklanmıştır . İncirleri karşılaştırarak farklı yöntemlerin nasıl performans gösterdiğini gösterdiler. 2.1, 2.2, 2.3, 5.11 (ilk baskımda - çok boyutlu kamalar bölümünde), 12.2, 12.3 (destek vektör makineleri) ve muhtemelen bazıları. Bu kitabı okumadıysanız, ŞİMDİ her şeyi bırakmanız gerekiyor ve okumalısınız. (Demek istediğim, işini kaybetmeye değmez, ancak öğrenciysen bir veya iki ödevini kaçırmaya değer.)

Değişkenlere göre gözlemlerin açıklama olduğunu düşünmüyorum. Yukarıda sunulan mantığım ışığında, denediğiniz tüm yöntemlerin tanımlayabildiği sınıflarınızı çok boyutlu alanda ayıran nispeten basit sınır biçimidir.

— StasK
kaynak

Şirketime bunun için ödeme yapıp yapamayacağımı patronuma soracağım.

— JenSCDC

1

ESL, ana sayfalarından bir pdf olarak 'ücretsiz' ... aynı zamanda indirmeye değer ISL (aynı yazarların çoğu tarafından) - daha pratik www-bcf.usc.edu/~gareth/ISL

— seanv507

4

eğitim hatalarına da bakmaya değer.

temelde sizin analizinize katılmıyorum. eğer lojistik regresyon vb. aynı sonuçları veriyorsa, 'en iyi modelin' çok basit bir model olduğunu (tüm modellerin eşit derecede iyi oturabileceğini - örn. temelde doğrusal) önerir.

Öyleyse soru en iyi modelin neden basit bir model olduğu olabilir ?: Değişkenlerinizin çok öngörücü olmadığını gösterebilir. Elbette verileri bilmeden analiz etmek zordur.

— seanv507
kaynak

1

@ Seanv507'nin önerdiği gibi, benzer performans basitçe verilerin en iyi doğrusal modelle ayrılmasından kaynaklanıyor olabilir. Ancak genel olarak, "değişken-değişken oranlı gözlemler çok yüksek" ifadesinin yanlış olduğu yönündedir. Örnek boyutunun değişken sayısına oranınız sonsuza gitse bile, hepsi aynı tahmin yanlılığını sağlamadığı sürece farklı modellerin neredeyse aynı şekilde çalışmasını beklememelisiniz.

— bogatron
kaynak

Ben sadece bağımlı değişken ikili olduğunu eklemek için sorum düzenlenmiş. Bu nedenle, doğrusal bir model uygun değildir.

— JenSCDC

"hepsi aynı tahmin yanlılığını sağlamadıkça farklı modellerin neredeyse aynı performansı göstermesini beklememelisiniz." MAE kullandım ve validasyon önlemleri olarak gerçek sonuçların tahmini sonuçlara oranı ve oranları çok yakındı.

— JenSCDC

1

Andy, lojistik regresyonu (ve doğrusal SVM'yi) 'doğrusal' model olarak eklerdim. Hepsi verileri yalnızca girdilerin ağırlıklı toplamıyla ayırıyor.

— seanv507

1

@ seanv507 Kesinlikle - karar sınırı hala doğrusal. İkili sınıflandırmanın yapılıyor olması bunu değiştirmez.

— bogatron

Ağaçlar ne olacak? Benim için gerçekten doğrusal görünmüyorlar.

— JenSCDC

0

Değişken oranlara ilişkin gözlemlerimin çok yüksek olması nedeniyle tahmin ediyorum.

Bence bu açıklama çok mantıklı.

Bu doğruysa, hangi modeller hangi gözlem / değişken oranlarında farklı modeller farklı sonuçlar vermeye başlayacaktır?

Bu, büyük olasılıkla özel verilerinize (örneğin, dokuz değişkeninizin sürekli, faktörler, sıradan veya ikili olsa bile) ve modelinize uyurken yaptığınız ayarlama kararlarına bağlı olacaktır.

Ancak, değişken sayısını artırarak değil, gözlem sayısını azaltarak gözlem-değişken oranı ile oynayabilirsiniz. Rastgele 100 gözlem çizin, modellere uyun ve farklı modellerin farklı sonuçlar sağlayıp sağlamadığını görün. (Sanırım yapacaklar.) Bunu, toplam gözlem sayınızdan farklı örneklerle birden çok kez yapın. Sonra 1000 gözlemin alt örneklerine bakın ... 10.000 gözlem ... vb.

— Stephan Kolassa
kaynak

1

Hm neden? daha fazla gözlem, karar sınırının daha karmaşık olma şansını artırıyor gibi görünüyor - yani kesinlikle doğrusal değil. Ve bu modeller karmaşık durumlarda farklı şeyler yapar ve basit olanlarda aynı şeyi yapma eğilimindedir.

— Sean Owen

@SeanOwen: Bence yorumunu anlamıyorum. Cevabımın hangi kısmı "bu neden" anlamına geliyor? OP, doğrusal karar sınırlarını kullanma hakkında hiçbir şey söylemedi - sonuçta, tahmincileri bir şekilde dönüştürerek olabilir.

— Stephan Kolassa

Neden daha fazla gözlem farklı sınıflandırıcıların daha benzer kararlar vermesini sağlar? sezgim tam tersi. Evet, sadece doğrusal karar sınırlarını düşünmüyorum. Optimal sınır ne kadar karmaşık olursa, hepsinin de bu sınıra benzer bir şeye uyması daha az olasıdır. Ve sınır, daha fazla gözlemle daha karmaşık olma eğilimindedir.

— Sean Owen