Sadece eğitim veri kümesinde keşifsel veri analizi yapmak daha mı iyi?


15

Veri kümesinde keşifsel veri analizi (EDA) yapıyorum. Sonra bağımlı bir değişkeni tahmin etmek için bazı özellikleri seçeceğim.

Soru şu:
EDA'yı sadece eğitim veri setimde yapmalı mıyım? Ya da eğitim ve test veri setlerine birlikte katılmalı mıyım, sonra da ikisi üzerinde EDA mı yapmalı ve bu analize dayalı özellikleri mi seçmeliyim?

Yanıtlar:


6

Ben "7.10.2 Do Çapraz doğrulama için yanlış ve Doğru" in bir göz olması tavsiye ediyorum http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .

Yazarlar, birisinin aşağıdakileri yaptığı bir örnek verir:

  1. Öngörücüleri tarayın: Sınıf etiketleriyle oldukça güçlü (tek değişkenli) korelasyon gösteren “iyi” öngörücülerin bir alt kümesini bulun
  2. Yalnızca bu öngörücülerin alt kümesini kullanarak, çok değişkenli bir sınıflandırıcı oluşturun.
  3. Bilinmeyen ayar parametrelerini tahmin etmek ve son modelin tahmin hatasını tahmin etmek için çapraz doğrulamayı kullanın

Bu, verilerinizde EDA (yani eğitim artı testi) yapmaya ve "iyi" öngörücüler seçmek için EDA'yı kullanmaya çok benzer.

Yazarlar bunun neden sorunlu olduğunu açıklıyor: çapraz doğrulanmış hata oranı yapay olarak düşük olacak ve bu da sizi iyi bir model bulduğunuzu düşünmenize yol açabilir.


1

Bağımlı değişkeninizi etkileyen bağımsız değişkenleri tanımlamak mı istiyorsunuz?

O halde, her iki yaklaşımınız da gerçekten tavsiye edilmez.

Araştırma sorunuzu tanımladıktan sonra teorinizi geliştirmelisiniz. Yani, literatürü kullanarak, etkisi olması gereken değişkenleri tanımlamanız gerekir (sebebini açıklayabilmeniz gerekir).


6
Her ne kadar bu görüş klasik istatistiksel testler konseptiyle aynı fikirde olsa da (ve bu yüzden beni katılmamaya acı veriyor), bunun mümkün olmadığı birçok modern sorun var. Örneğin, 20.000 protein kodlayan genin herhangi birinin yeni bir kalıtsal hastalık ile ilişkili olup olmadığını görmek istediğinizi varsayalım. Orada hiçbir hazırlamak istiyorum arka plan, hiçbir şekilde ve bir EDA tek yolu Başlamak için olan "bir teori ile gelip" için. Ve bir EDA ve doğrulayıcı analiz için yeterli veriye sahipseniz, aslında bir yere gidebilirsiniz.
Cliff AB

3
“teorinizi geliştirmelisiniz” - bu iyi bir fikir, ama özellikle sektörde her zaman mümkün değil. Bazen, teori geliştirmeden tahmin yapmaya devam edersiniz
Aksakal

1

Test verisine EDA uygulamak yanlış.

Eğitim, en iyi modeli oluşturmak için doğru cevapları araştırma sürecidir. Bu işlem sadece eğitim verileri üzerinde kod çalıştırmakla sınırlı değildir. Hangi modelin kullanılacağına karar vermek, parametreleri değiştirmek vb. İçin EDA'dan gelen bilgileri kullanmak eğitim sürecinin bir parçasıdır ve bu nedenle test verilerine erişmesine izin verilmemelidir. Kendinize karşı dürüst olmak için test verilerini yalnızca modelinizin performansını kontrol etmek için kullanın.

Ayrıca, modelin test sırasında iyi performans göstermediğini fark ederseniz ve sonra modelinizi ayarlamaya geri dönerseniz, bu da iyi değildir. Bunun yerine, egzersiz verilerinizi ikiye bölün. Birini eğitim için, diğerini modelinizi test etmek ve değiştirmek için kullanın. Bkz. Test seti ile doğrulama seti arasındaki fark nedir?


0

Bu cevabın paragrafından sonra . Hastie ayrıca s.245 :

"Bu örnekte çapraz doğrulamayı gerçekleştirmenin doğru yolu:

  1. Örnekleri rasgele K çapraz doğrulama katlarına (gruplar) bölün.
  2. Her kat için k = 1, 2,. . . , K
    (a) k katındaki olanlar dışındaki tüm örnekleri kullanarak sınıf etiketleriyle oldukça güçlü (tek değişkenli) korelasyon gösteren “iyi” öngörücülerin bir alt kümesini bulun.
    (b) Sadece bu öngörücülerin alt kümesini kullanarak, k katındaki olanlar dışındaki tüm örnekleri kullanarak çok değişkenli bir sınıflandırıcı oluşturun.
    (c) k katındaki örnekler için sınıf etiketlerini tahmin etmek üzere sınıflandırıcıyı kullanın. "

-3

Tüm veri setinde EDA yaparsınız. Örneğin, bir kerelik izinsiz çapraz doğrulama kullanıyorsanız, EDA'yı yalnızca bir eğitim veri kümesinde nasıl yaparsınız ? Bu durumda her gözlem en az bir kez antrenman ve bekletmedir.

Yani, hayır, tüm örnek üzerindeki verileri anladığınızı gösterirsiniz. Endüstriyel kurulumdaysanız, daha da belirgindir. Trendleri ve verilerin genel açıklamasını firmadaki paydaşlara göstermeniz beklenir ve bunu tüm örneklemde yaparsınız.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.