Ağaç tahmin edicileri HER ZAMAN yanlı mıdır?


9

Karar Ağaçları hakkında bir ödev yapıyorum ve cevaplamam gereken sorulardan biri "Ağaçlardan yapılan tahmin ediciler neden önyargılı ve torbalama varyanslarını azaltmaya nasıl yardımcı oluyor?"

Şimdi, aşırı takılmış modellerin gerçekten düşük önyargıya sahip olduklarını biliyorum, çünkü tüm veri noktalarına uymaya çalışıyorlar. Ve, Python'da bazı veri kümesine bir ağaç yerleştiren bir senaryom vardı (tek bir özellikle. Bazı sinüsoid, bazı kapalı noktaları olan aşağıdaki resim). Bu yüzden merak ettim ki, "verilere reeeeal bir şekilde fazla uyursam, önyargıları sıfıra getirebilir miyim?" Ve, 10000 derinlikte bile, eğrinin geçmediği bazı noktalar olduğu ortaya çıktı.

resim açıklamasını buraya girin

Nedenini aramaya çalıştım, ama gerçekten bir açıklama bulamadım. Tahmin ediyorum ki tüm noktalardan mükemmel bir şekilde geçecek bazı ağaçlar olabilir ve aldığım ağaçların sadece "kötü şans" olduğunu düşünüyorum. Ya da belki farklı bir veri kümesi bana tarafsız bir sonuç verebilirdi (belki de mükemmel bir sinüsoid?). Ya da buna rağmen, belki başlangıçta yapılan kesimler, daha fazla kesimin tüm noktaları tamamen ayırmasını imkansız hale getirdi.

Yani, bu veri kümesini göz önünde bulundurarak (diğerleri için farklı olabileceğinden) sorum şu: bir ağacı, önyargıların sıfıra gittiği noktaya göre tersine çevirmek mümkün mü yoksa gerçekten de önyargı olacak mı? küçük? Ve her zaman en azından biraz önyargı varsa, neden oluyor?

O alakalı olabilir eğer PS bilmiyorum ama kullanılan DecisionTreeRegressorgelen sklearnverilere modelini sığdırmak için.


3
Sitemize hoşgeldiniz! Sorunuza "şimdiden teşekkürler" eklemeye gerek olmadığını unutmayın, teşekkürlerinizi ifade etmenin en iyisi, bazı cevaplar alana kadar beklemek ve hangisinin size en çok yardımcı olduğunu (yeşil onay işareti) kabul etmektir! Henüz yapmadıysanız, neden bu sitenin nasıl çalıştığını görmek için turumuza bir göz atmıyorsunuz?
Gümüş Balık

3
Y = 0 fonksiyonunu düşünün ve x = rasgele değerleri alan y = f (x) sığdırmaya çalışıyorsunuz. Bu kuşkusuz köşe davasında bir karar ağacı tahmincisi taraflı mı?
jbowman

Yanıtlar:


10

Bir karar ağacı modeli artık yok hep başka bir öğrenme modelinin daha önyargı.

Açıklamak için iki örneğe bakalım. , rastgele tekdüze bir değişken olsun . İşte olası istatistiksel süreçlerX[0,1]

Gerçek 1: belirli bir bir gösterge X işlevi, ayrıca gürültü olduğu:YX

Y|X~ben<.5(X)+N-(0,1)

Gerçek 2: belirli bir doğrusal bir fonksiyonudur gürültü artı:YXX

Y|X~X+N-(0,1)

Her iki durumda da bir karar ağacına uyursak, model ilk durumda önyargısızdır , ancak ikinci durumda önyargılıdır. Bir tek bölünmüş ikili ağaç Bunun nedeni olabilir ilk durumda gerçek temel veri modelini kurtarmak. İkincisi, bir ağacın yapabileceği en iyi şey, daha ince aralıklarla karıştırarak doğrusal işleve yaklaşmaktır - sonlu derinlikte bir ağaç sadece bu kadar yakınlaşabilir.

Biz iki durumda da doğrusal bir regresyon uyuyorsanız, modeli olan birinci durumda önyargılı, ancak un-önyargılı saniyede içindedir.

Bu nedenle, bir modelin önyargılı olup olmadığını bilmek için, temeldeki veri mekanizmasının ne olduğunu bilmeniz gerekir. Gerçek yaşam koşullarında, bunu asla bilemezsiniz, böylece gerçek hayatta bir modelin taraflı olup olmadığını asla söyleyemezsiniz. Bazen, uzun bir süre için tamamen haklı olduğumuzu düşünüyoruz, ancak daha sonra önyargı daha derin bir anlayışla ortaya çıkıyor (Einstein Gravity'ye Newton Yerçekimi en azından apokripal bir örnektir).

Bir anlamda, çoğu gerçek dünya sürecinin (bazı istisnalar hariç) o kadar bilinemez olmasını bekliyoruz, gerçeğin yeterince makul bir yaklaşımı, tüm modellerimizin önyargılı olmasıdır. Sorunun, karmaşık istatistiksel süreci modellemenin temel boşluğu hakkında derin bir felsefi tartışma istediğinden şüpheliyim, ancak düşünmek eğlencelidir.


0

Verilerinizdeki bazı noktaların hala öngörülmemesi gerçeği, indirgenemez hata adı verilen bir şeyden kaynaklanıyor olabilir. Teori, makine öğreniminde indirgenebilir ve indirgenemez bir hatanın olduğudur. İndirgenemez hata fikri, modeliniz ne kadar iyi olursa olsun, mükemmel olmayacağıdır. Bu birkaç nedenden kaynaklanmaktadır. Birincisi, egzersiz özellikleriniz ne kadar sağlam olursa olsun, egzersiz verilerinizin içermediği çıktıyı etkileyen her zaman gizli bir özellik olacaktır. Başka bir neden, neredeyse tüm verilerde bazı aykırı değerlerin olması gerektiğidir. Modellerinizi her zaman mümkün olduğunca aykırı değerlere karşı sağlam hale getirmeye çalışabilirsiniz, ancak ne kadar denerseniz deneyin, aykırı değerler her zaman var olacaktır. (Bu, modellerinizi oluştururken aykırı değerleri düşünmemeniz gerektiği anlamına gelmez). Ve son bir ayrıntı,

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.