Çapraz doğrulama öncesi normalleştirme


17

Tekrarlanan bir k-kat çapraz validasyonu gerçekleştirmeden önce verilerin normalleştirilmesi (sıfır ortalama ve birlik standart sapmasına sahip olmak için) aşırı sığdırma gibi herhangi bir olumsuz kontrole sahip mi?

Not: Bu #cases> toplam #features bir durum içindir

Bazı verilerimi bir günlük dönüşümü kullanarak dönüştürüyorum, sonra yukarıdaki gibi tüm verileri normalleştiriyorum. Daha sonra özellik seçimi yapıyorum. Sonra genelleştirilmiş sınıflandırıcı performansını denemek ve tahmin etmek için seçilen özellikleri ve normalize edilmiş verileri tekrarlanan 10 kat çapraz doğrulamaya uyguluyorum ve normalleştirmek için tüm verilerin kullanılmasının uygun olmayabileceğinden endişe ediyorum. Her kat için test verilerini, o kat için egzersiz verilerinden elde edilen normalleştirici verileri kullanarak normalleştirmeli miyim?

Herhangi bir görüş minnetle alındı! Bu soru açık görünüyorsa özür dileriz.

Düzenleme: Bu test (aşağıdaki önerileri doğrultusunda) CV önce normalizasyon CV içinde normalizasyon ile karşılaştırıldığında performans açısından çok fark yapmadığını buldum.

Yanıtlar:


14

Ana sorunuza cevap vermek için, CV içinde ölçeklendirmek en uygun ve daha uygun olacaktır. Ancak, sınıflandırıcınız en çok verileri (en azından R'de) yeniden ölçeklendirirse, muhtemelen çok önemli olmayacaktır ve pratikte hiç de önemli olmayabilir.

Bununla birlikte, çapraz doğrulamadan önce özellik seçmek BÜYÜK HAYIR'dır ve tüm veri kümesinde nasıl performans gösterdiklerine göre seçeceğiniz için aşırı sığmaya yol açacaktır. Günlük dönüşümü dışarıda gerçekleştirilebilir, çünkü dönüşüm gerçek verilere (daha fazla veri türü) bağlı değildir ve% 100 yerine verilerin yalnızca% 90'ına sahip olsaydınız yapmayacağınız bir şey değildir ve verilere göre değiştirilmez.

Yorumunuzu da cevaplamak için, açıkçası aşırı sığdırmaya neden olup olmayacağı, özellik seçim şeklinize bağlı olacaktır. Onları tesadüfen seçerseniz (bunu neden yapasınız?) Veya a priori teorik değerlendirmelerden (diğer literatür) önemli değildir. Ancak veri kümenize bağlıysa, olacaktır. İstatistiksel Öğrenme Öğelerinin iyi bir açıklaması vardır. Özgür ve yasal olarak buradan bir .pdf indirebilirsiniz http://www-stat.stanford.edu/~tibs/ElemStatLearn/

Sizi ilgilendiren husus beşinci baskının 7.10.2. Sayfaında yer almaktadır. "Çapraz Geçiş Yapmanın Yanlış ve Doğru Yolları" olarak adlandırılmıştır.


Teşekkürler - rapor edilen tek sonuçlar, her bir kattaki seçili model (özellikler) kullanılarak elde edilen tahmini performans için ise, bu fazla takmaya neden olamaz mı? Bundan sonra, yalnızca belirli bir özellik alt kümesinin genelleştirilmiş performansını rapor ediyorsunuz.
BGreene

Yorumunuzu adreslemek için cevabımı genişlettim. Bağlantıdaki açıklama şu anda pişirebileceğimden daha iyi olduğunu düşünüyorum.
Erik

Teşekkür ederim. Bu, standart filtre tabanlı özellik seçiminin hiçbir zaman kullanılmaması gerektiğini ve bunun yerine sarmalayıcı tabanlı özellik seçiminin veya eşdeğerinin kullanılmasını önerir. Bu, #Kasalar> #Özelliklerin bulunduğu durum için hala geçerli mi? (259 vakam var, toplam 56 özellik). Burada hata potansiyelinin daha az olduğunu varsayabilirim?
BGreene

5

Çapraz doğrulama en iyi şekilde, istatistiksel bir modelden ziyade bir istatistiksel prosedürün performansını tahmin etmek için bir yöntem olarak görülür. Bu nedenle, tarafsız bir performans tahmini elde etmek için , bu prosedürün her öğesini, normalleştirmeyi içeren çapraz doğrulamanın her katında ayrı olarak tekrarlamanız gerekir . Her katında normalleşmesini söyleyebilirim.

Bunun gerekli olmayacağı tek zaman, istatistiksel prosedürün verilerin ölçeklenmesi ve ortalama değerine tamamen duyarsız olmasıdır.


Bence bu iyi bir cevap, titiz olmasa da, bu noktaya değiniyor. Bence her katmanda normalleşirseniz, normalleşmenin performansa ağırlık vermemesi garanti edilir. Yazılma şekli, Dikran'ın son satırda başka yollar olduğunu işaret etmesine rağmen, önyargıdan kaçınmanın başka bir yolu olmadığı görülüyordu. CV içinde normalizasyon yaparsanız, dışarıda yapmanın aksine yanlılığı asla arttırmaz. Önyargı, diğer cevapta belirtildiği gibi, zaten çok fazla etkilenmeyebilir.
Tom Anderson

1

Normalizasyon sadece iki parametre içeriyorsa ve sorun olmayacak iyi bir boyut örneğiniz varsa düşünüyorum. Dönüşüm ve değişken seçim süreci hakkında daha fazla endişe duyarım. 10 kat çapraz geçerlilik günümüzde öfke gibi görünüyor. Sınıflandırıcı hata oranı tahmini için önce JASA'da Efron (1983) tarafından önerilen ve daha sonra 632+ ile Efron ve Tibshirani'nin makalesinde takip eden kimse bootstrap 632 veya 632+ kullanmıyor mu?


0

Şahsen .632 yöntemini seviyorum. Temelde yedek ile güçlendirici olan. Bunu yaparsanız ve yinelenenleri kaldırırsanız, 1000 giriş kümesinden 632 giriş alırsınız.


e0
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.