Çapraz doğrulamadan önce denetimsiz özellik seçimi yapmak gerçekten iyi mi?


9

In İstatistiksel Öğrenme Elements , ben aşağıdaki ifadeyi buldum:

Bir nitelik vardır: ilk denetimsiz tarama adımları numuneler dışarıda bırakılmadan önce yapılabilir. Örneğin, çapraz validasyona başlamadan önce 50 numunenin hepsinde en yüksek varyansa sahip 1000 öngörücüyü seçebiliriz. Bu filtreleme sınıf etiketlerini içermediğinden, öngörücülere haksız bir avantaj sağlamaz.

Bu gerçekten geçerli mi? Yani, nitelikleri önceden filtreleyerek, eğitim verilerini / yeni veri ortamını taklit etmiyoruz - bu nedenle gerçekleştirdiğimiz filtrelemenin denetlenmemesi önemli mi? Tüm önişleme adımlarını çapraz doğrulama sürecinde yapmak daha iyi değil mi? Durum böyle değilse, o zaman özellik normalizasyonu / PCA vb. Dahil olmak üzere tüm denetimsiz önişlemlerin önceden gerçekleştirilebileceği anlamına gelir, ancak bunları tüm eğitim setinde yaparak aslında eğitim setine bazı veriler sızdırıyoruz. Nispeten kararlı veri kümesi ile bu farklılıkların büyük olasılıkla çok küçük olması gerektiği konusunda hemfikir olabilirim - ama bu onların var olmadığı anlamına gelmez, değil mi? Bunu düşünmenin doğru yolu nedir?

Yanıtlar:


2

Çapraz doğrulamadan önce yapılan bir aşama olarak, denetimsiz özellik seçimi, özellik normalleştirmesine biraz benzer:

  1. Çapraz validasyonda belirli bir katlamanın bakış açısından, tren verileri test verilerine göz attı (sadece bağımsız değişkenlerde de olsa).

  2. Bu gözetleme nispeten hafiftir.

Çapraz doğrulamadan önce özellik normalizasyonu bu soruda tartışılmıştır . Cevabı orada Dikran Marsupial'dan alıntı

Çapraz doğrulama en iyi şekilde, istatistiksel bir modelden ziyade bir istatistiksel prosedürün performansını tahmin etmek için bir yöntem olarak görülür. Bu nedenle, tarafsız bir performans tahmini elde etmek için, bu prosedürün her öğesini, normalleştirmeyi içeren çapraz doğrulamanın her katında ayrı ayrı tekrarlamanız gerekir.

Dolayısıyla, kaynakları yedekleyebiliyorsanız, en iyi şey, her çapraz doğrulama katlamasının sıfırdan veriye bağlı herhangi bir işlem yapmasıdır.

Bununla birlikte, bu sorunun cevaplarının söylediği gibi, pratikte, düzeni tersine çevirmek muhtemelen işleri çok fazla değiştirmeyecektir. Kesinlikle önemli haksız avantaj olduğunu yoktur bağımlı özellik seçimi sergiler. IMHO, İstatistiksel Öğrenmenin Unsurları'ndan alıntı yorumu .y


Bu temelde düşüncelerimle örtüşüyor ve buradaki son cümle aslında sorumun kısa cevabı. Teşekkürler, bunu kabul edilmiş bir cevap yapacağım.
Matek

1
Etkisi küçük olabilir, ama bu olmayabilir o küçük. Söylediğiniz gibi, gerçek dünyada olmayacak olan "şimdiki" nin (eğitim verileri) ölçeklenmesine yardımcı olmak için "geleceği" (test verileri) kullanacak olan CV'den önce bağımsız değişkenlerinizi önceden ölçeklendirmek gibidir. Rastgele kıvrımlarınız varsa (zaman serisi, tabakalaşma vb. Kullanmıyorsanız) bu daha az etki yaratır, ancak neden Tren / Test bariyerini ve hepsini kırın?
Wayne

@Wayne Kesinlikle katılıyorum, mümkün olduğunda, tren / test bariyerini kırmamak en iyisidir. Şahsen, bunun bir fark yarattığı gerçek dünya vakalarıyla hiç karşılaşmadım (wrt denetimsiz FS ve / veya normalleştirme), ancak özellik seçimini "doğru yol" yapmanın kesinlikle mümkün olmadığı vakalarla karşılaştım (yani, her birinde kat). Bununla birlikte, iyi cevabınızdan (ki ben yükseltiyorum) karşı dava ile karşılaştığınızı görüyorum, görünüşe göre her iki senaryo da var.
Ami Tavory

Normalizasyonun da bir fark yarattığı CV sonuçlarıyla karşılaştığımdan emin değilim, bu da genellikle 10 kat CV yapmaya atfediyorum, bu da test katının sadece% 10 olduğu anlamına geliyor, bu da etkisini daha küçük hale getiriyor. 67/33 hatta 75/25 CV olmayan bölünme ile bir fark gördüm.
Wayne

9

Bu soruda @ AmiTavory'nin görüşü ve İstatistiksel Öğrenme Unsurları ile farklılaşmaya yalvarıyorum.

Çok düşük numune boyutlarına sahip uygulamalı bir alandan geldiğimde, denetimsiz ön işleme adımlarının ciddi önyargılara neden olabileceği deneyimim var.

Benim alanımda bir sınıflandırıcı eğitilmeden önce boyutsal azalma için en sık PCA olurdu. Burada verileri gösteremesem de, PCA + (çapraz doğrulanmış LDA) ve çapraz doğrulanmış (PCA + LDA) ile hata oranını yaklaşık bir büyüklük düzeyinde küçümsediğini gördüm . (Bu genellikle PCA'nın kararlı olmadığının bir göstergesidir.)

Elementlerin "haksız avantaj" argümanlarına gelince, taining + test vakalarının varyansı incelenirse, hem eğitim hem de test vakalarıyla iyi çalışan özellikler elde ederiz. Böylece, aşırı aktiflik yanlılığının nedeni olan, kendini gerçekleştiren bir kehanet yaratıyoruz. Oldukça rahat numune boyutlarınız varsa bu sapma düşüktür.

Bu yüzden Elementlerden biraz daha muhafazakar bir yaklaşım öneriyorum:

  • Birden fazla vakayı dikkate alan önişleme hesaplamaları validasyona dahil edilmelidir: yani bunlar sadece ilgili eğitim setinde hesaplanır (ve daha sonra test verilerine uygulanır)
  • her vakayı tek başına ele alan önişleme adımları (ben spektroskopik: örnekler taban çizgisi düzeltmesi ve sıralı bir normalizasyon olan yoğunluk normalizasyonu olacaktır) ilk adımdan önce olduğu sürece çapraz doğrulamanın dışına çıkarılabilir birden çok durum için hesaplar.

Bununla birlikte, çapraz validasyon, uygun bir validasyon çalışması yapmak için sadece bir kısayoldur. Böylece, pratiklikle tartışabilirsiniz:

  • Söz konusu ön işlemenin kararlı sonuçlar verip vermediğini kontrol edebilirsiniz (bunu örneğin çapraz doğrulamayla yapabilirsiniz). Zaten daha düşük numune boyutları ile mükemmel bir şekilde stabil olduğunu fark ederseniz, IMHO, çapraz doğrulamanın dışına çekilerek çok fazla önyargı ortaya çıkmayacağını iddia edebilirsiniz.

  • Ancak, önceki bir amirden alıntı yapmak için: Hesaplama süresi bilimsel bir argüman değildir.
    Sık sık tüm kodun (sonuçların özeti / grafikleri dahil) emin olmak için birkaç katlama ve birkaç doğrulama ve birkaç yinelemeden oluşan bir "gizli önizleme" ye giderim ve daha sonra gece boyunca veya hafta sonu boyunca sunucuda daha ince taneli çapraz doğrulama.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.