İstatistikler ve Büyük Veri out-of-sample

8

Test verilerinin eğitim verisine sızmadığından nasıl emin olabilirim?

Tahmin edici bir model inşa eden birisine sahip olduğumuzu varsayalım, ancak birinin uygun istatistiksel ya da makine öğrenmesi ilkeleri konusunda tam olarak bilgili olmadığını varsayalım. Belki o kişiye öğrenirken yardımcı oluyoruz veya belki de bu kişi kullanımı en az bilgiyi gerektiren bir çeşit yazılım paketi kullanıyor. Şimdi bu kişi, gerçek …

60 machine-learning classification predictive-models cross-validation out-of-sample

4

Science dergisi, Forking Pathes Analizleri Bahçesini onayladı mı?

Uyarlanabilir veri analizi fikri, daha fazla bilgi edindikçe verileri analiz etme planınızı değiştirdiğinizdir. Açıklayıcı veri analizi (EDA) söz konusu olduğunda, bu genellikle iyi bir fikirdir (genellikle verilerde öngörülemeyen kalıplar ararsınız), ancak doğrulayıcı bir çalışma için bu, çok hatalı bir analiz yöntemi olarak kabul edilir (hepsi hariç) adımlar açıkça tanımlanmış ve …

29 hypothesis-testing overfitting eda out-of-sample differential-privacy

5

Veri madenciliğinde yeni devrimci yol?

Aşağıdaki alıntı, sürekli olarak başarılı bir riskten korunma fonu yöneticisi Jaffray Woodriff ile yapılan röportajdan Schwager'in Hedge Fonu Market Wizzards'dan (Mayıs 2012) alınmıştır: "Veri madenciliğinde insanların en büyük hatalarından bazıları neler?" Pek çok insan, eğitim için örnek veriyi ve test için örnek veriyi kullandıkları için iyi olduklarını düşünüyor. Daha sonra …

21 data-mining curve-fitting out-of-sample

3

K katlama çapraz doğrulaması kullanırken bir test setine ihtiyacımız var mı?

K-kat doğrulaması hakkında okuyordum ve nasıl çalıştığını anladığımdan emin olmak istiyorum. Muhafaza yöntemi için, verilerin üç sete ayrıldığını ve test setinin yalnızca modelin performansını değerlendirmek için kullanıldığını, doğrulama setinin hiperparametreleri ayarlamak için kullanıldığını biliyorum. K-katlama yönteminde, yine de son için bir test seti tutuyor muyuz ve kalan verileri yalnızca eğitim …

21 cross-validation validation out-of-sample

1

Kaggle'ın özel skor tablosu kazanan modelin örnek dışı performansının iyi bir öngörücüsü mü?

Özel test setinin sonuçları modeli daha da hassaslaştırmak için kullanılamazken, özel test seti sonuçlarına dayanarak çok sayıda modelden model seçimi yapılmıyor mu? Tek başına bu süreç boyunca özel test setine fazla uyuşmaz mıydınız? Göre : "Sözde Matematik ve Mali Şarlatanlık Out-of-the Numune Performansına Backtest overfitting Etkileri" Bailey ve arkadaşları tarafından …

16 model-selection overfitting out-of-sample

4

Öngörülü modeller: İstatistikler muhtemelen makine öğrenimini yenemez mi? [kapalı]

Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 2 yıl önce kapalı . Şu anda istatistik / ekonometri üzerine yoğunlaşan bir yüksek lisans programını takip ediyorum. Ustamda, …

13 machine-learning forecasting predictive-models prediction out-of-sample

3

Muhafaza yöntemi (verileri eğitim ve teste bölme) neden klasik istatistiklerde kullanılmıyor?

Sınıfta veri madenciliğine maruz kalmamda, tutma yöntemi model performansını değerlendirmenin bir yolu olarak tanıtıldı. Ancak, birinci sınıfımı doğrusal modeller üzerine aldığımda, bu model onaylama veya değerlendirme aracı olarak tanıtılmadı. Çevrimiçi araştırmam da herhangi bir kavşak göstermiyor. Muhafaza yöntemi klasik istatistiklerde neden kullanılmıyor?

12 regression validation model-evaluation out-of-sample

1

"Örnek içi" ve "örnek dışı örnek" tahminleri arasındaki fark

Örnek içi tahminler ile sözde örnek dışı tahminler arasında açık bir fark var mı ? Her ikisi de tahmin modellerini değerlendirme ve karşılaştırma bağlamında ifade edilmektedir.

12 forecasting model-comparison out-of-sample in-sample

4

Bekletme kümesi oluşturmanın daha uygun yolu nedir: bazı konuları kaldırmak veya her konudan bazı gözlemleri kaldırmak?

26 özellikli ve 31000 satırlı bir veri setim var. 38 deneğin veri kümesidir. Biyometrik bir sistem içindir. Bu yüzden konuları tanımlayabilmek istiyorum. Bir test setine sahip olmak için, bazı değerleri kaldırmam gerektiğini biliyorum. Peki ne yapmak daha iyi ve neden? (a) 30 kişiyi eğitim seti olarak saklayın ve 8 kişiyi …

11 machine-learning cross-validation out-of-sample

1

Rastgele Ormanlarla modelleme çapraz doğrulama gerektirir mi?

Gördüğüm kadarıyla, bu konuda görüşler farklı. En iyi uygulama, çapraz doğrulamayı kullanmayı dikte eder (özellikle RF'leri aynı veri kümesindeki diğer algoritmalarla karşılaştırırsanız). Öte yandan, orijinal kaynak, model eğitimi sırasında OOB hatasının hesaplandığının test seti performansının bir göstergesinin yeterli olduğunu belirtir. Trevor Hastie bile, nispeten yakın tarihli bir görüşmede "Rastgele Ormanlar …

10 cross-validation random-forest overfitting out-of-sample

2

Örnek dışı tahminleri iyileştirmeyen '' önemli değişken '' - nasıl yorumlanır?

Birçok kullanıcı için oldukça basit olacağını düşündüğüm bir sorum var. (İ) çeşitli açıklayıcı değişkenlerle yanıt değişkenimin ilişkisini araştırmak için doğrusal regresyon modelleri kullanıyorum ve (ii) açıklayıcı değişkenleri kullanarak yanıt değişkenimi tahmin ediyorum. Belirli bir açıklayıcı değişken X'in yanıt değişkenimi önemli ölçüde etkilediği görülmektedir. Bu açıklayıcı değişken X'in katma değerini yanıt …

10 statistical-significance predictive-models p-value prediction out-of-sample

1

R kare örnekinden nasıl hesaplanır?

Bunun muhtemelen başka bir yerde tartışıldığını biliyorum, ama açık bir cevap bulamadım. Formülü kullanmaya çalışıyorumR2=1−SSR/SSTR2=1−SSR/SSTR^2 = 1 - SSR/SST örnek dışı hesaplamak R2R2R^2 doğrusal bir regresyon modelinin SSRSSRSSR kare artıkların toplamıdır ve SSTSSTSSTtoplam kareler toplamıdır. Eğitim seti için, SST=Σ(y−y¯train)2SST=Σ(y−y¯train)2 SST = \Sigma (y - \bar{y}_{train})^2 Test seti ne olacak? Kullanmaya …

10 regression machine-learning r-squared out-of-sample

«out-of-sample» etiketlenmiş sorular