En yüksek doğruluğu elde etmek için rastgele bir orman regresyonuna bir tohum koymak 'adil' midir?


11

Skl kullanılarak oluşturulmuş rastgele bir orman regresyonum var ve rastgele tohumun farklı değerlere ayarlanmasına bağlı olarak farklı sonuçlar verdiğimi not ediyorum.

Hangi tohumun en iyi çalıştığını belirlemek için LOOCV kullanırsam, bu geçerli bir yöntem midir?


1
İnsanlar bunu yarışmalarda yapıyor. Gerçi akademisyen için bu haklı çıkmak zor olurdu.
Firebug

2
Aşırı bir senaryo düşünün: Bir oyun oynuyoruz: iki zar atıyoruz ve daha yüksek meblağa sahip olanları kazanıyoruz. Ama aslında zarları iki kez yuvarlama iznim var. Bu adil misin? Rastgele tohumları yerleştirmenin tekrarlanabilir araştırmanın ayrılmaz bir parçası olduğunu ve her zaman yapılması gerektiğini belirtmeme izin verin. Bu bir "uygun tohum" bulana kadar birçok farklı tohum denememiz gerektiği anlamına gelmez.
usεr11852

@ usεr11852 Şu anda kabul edilen cevap hakkındaki yorumum hakkında ne düşünüyorsun? Bunun kmeans gibi rastgele yeniden başlatmalardan farklı olup olmadığından emin değilim. Hiç kimse, yaptığımız ilk koşuyu kabul etmemiz gerektiğini düşünmüyor, rastgele yeniden başlatmaların R'deki standart işlevde yerleşik olduğu noktaya kadar, belki modelin model yerine 100 kez kmeans çalıştırdığını düşünmedikçe sadece tek en iyi kümelenme olmak
jld

Hayır - gerçek rastgelelik üzerine aşırı uymanın tanımı gibi görünüyor.
Mark White

@Chaconne: Doğru doğrulama gereksinimi hakkındaki görüşünüzü tamamen destekliyorum. İki kullanım durumunda temel bir fark olduğunu düşünüyorum: k-araçlarında (veya genel olarak stokastik optimizasyonda) "optimal bir parametre seti" artarken CV için "temsilci seti" ". İlk durumda "ne kadar iyi olabileceğimizi", daha sonraki durumda "ne kadar iyi olacağımızı" göstermeye çalışıyoruz.
usεr11852

Yanıtlar:


11

Cevap hayır .

Modeliniz kullandığınız her tohum için farklı bir sonuç verir. Bu, modelin deterministik olmayan doğasının bir sonucudur. Doğrulama setindeki performansı en üst düzeye çıkaran belirli bir tohum seçerek, bu sete en uygun "düzenlemeyi" seçtiğiniz anlamına gelir. Bununla birlikte, bu, bu tohumlu modelin ayrı bir test setinde daha iyi performans göstereceğini garanti etmez . Bu, basitçe , doğrulama kümesinde modelden daha fazla kullandığınız anlamına gelir .

Bu etki, herkese açık test setinde yarışmalarda (örn. Kaggle) üst sıralarda yer alan birçok kişinin, gizli test setinde düştüğünü görmenizin nedenidir. Bu yaklaşım olduğu değil herhangi bir yöntemle doğru bir yaklaşım tarafından dikkate.


4
Evet, bu yüzden çapraz geçerlilik bu kadar güçlü bir tekniktir ve ayrıca insanların neden bir geçerlilik denetimi hem de bir test seti kullandıkları (biri model seçimini temel almak ve diğeri tarafsız bir değerlendirme yapmak için) kullanmaktadır.
Cib2011

1
İkna olmadım. Dışbükey olmayan optimizasyon ile rastgele yeniden başlatma yapmak rutintir, çünkü farklı tohumlar çok farklı model parametre tahminlerine yol açabilir ve sadece kötü şansla kötü yakınsama elde edebilirsiniz. Örneğin kmeans ile bu iyi bilinmektedir. Rastgele ormanla tesadüfen belki modeliniz çok fazla subpar bölünmesi yapar. Farklı çalışmaların farklı model parametre tahminlerine yol açtığını ve bazılarının aslında diğerlerinden daha iyi genelleşebileceğini fark etmenin gürültü olduğunu düşünmüyorum. Bu, elbette, örnek performansın uygun şekilde değerlendirilmesi üzerine koşullandırılır.
jld

5
@ user2723494 Genelleştirme maliyeti olmadan performansı artırma umudundaki hiper parametreler için geçerlidir. Bununla birlikte, doğrulama setinde parametrelerin tekrar tekrar ince ayarlanması, tarif ettiğim aynı etkiyi (doğrulama setine aşırı sığdırma) üretecektir. Rasgele tohumlama doğası stokastik tarafından Çünkü o kadar daha olası nedeniyle aslında daha iyi bir modeli ürettiler nedeniyle daha aşırı uyuma performansını artırmak için.
Cib2011

4
@Chaconne Bunun imkansız olduğunu söylemedim. Bununla birlikte, bu prosedürle, aslında daha iyi bir model üreten bir tohumdan daha fazla takılan bir tohum seçmek çok daha olasıdır ...
Cib2011

4
Dürüst olmak gerekirse, ML algoritmalarını tohumlamayı (ve onları stokastik doğalarından mahrum bırakmayı) hiç iyi bir uygulama olarak görmedim. OP sadece bunu soran yeni bir soru yarattı . Cevabınızı okumak isterim!
Cib2011
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.