Veri analizi geçmişi olmayan birine çapraz onaylamayı nasıl tarif edersiniz ?
Veri analizi geçmişi olmayan birine çapraz onaylamayı nasıl tarif edersiniz ?
Yanıtlar:
Aşağıdaki durumu göz önünde bulundurun:
Ofisime gitmek için metroyu yakalamak istiyorum. Planım arabamı almak, metroya park etmek ve sonra da ofisime gitmek için trene binmek. Amacım her gün saat 8.15’de trene binmek, böylece ofisime zamanında ulaşabilmek. Aşağıdakilere karar vermem gerekiyor: (a) evimden ayrılmam gereken zaman ve (b) karakola gitmek için kullanacağım rota.
Yukarıdaki örnekte, iki parametrem var (yani, evden ve rotadan istasyona gitmek için ayrılma zamanım) ve bu parametreleri seçmem gerekiyor, öyle ki, istasyona sabah 8.15'e kadar ulaşacağım.
Yukarıdaki problemi çözmek için, hangi kombinasyonun 'en iyi' olduğunu görmek için Pazartesi, Çarşamba ve Cuma günleri farklı 'parametre' setlerini (örneğin, farklı kalkış ve rota kombinasyonları) deneyebilirim. Buradaki düşünce, bir kez en iyi kombinasyonu belirlediğimde, hedefime ulaşmak için her gün kullanabilirim.
Fazla Takma Problemi
Yukarıdaki yaklaşımla ilgili sorun, temelde tanımlayabileceğim en iyi kombinasyonun bir şekilde Pzt, Çar ve Cuma günleri için benzersiz olabileceği ve kombinasyonun Tue ve Per için işe yaramayabileceği anlamına gelebileceği anlamına gelebilir. Zaman ve rotaların en iyi birleşimini arayışımda, Pzt / Çar / Cuma günlerinde, Tue ve Per.
Kıyafet Yenileme İçin Bir Çözüm: Çapraz Doğrulama
Çapraz doğrulama, fazla uydurma için bir çözümdür. Fikir, en iyi parametre kombinasyonumuzu belirlediğimizde (bizim vaktimiz ve rotamızda), bu parametre setinin performansını farklı bir bağlamda test etmemizdir. Bu nedenle, seçimlerimizin o günlerde de çalışmasını sağlamak için Tue ve Thu'da test yapmak isteyebiliriz.
Analojiyi istatistiklere genişletme
İstatistiklerde benzer bir sorunumuz var. Bilmediğimiz bilinmeyen parametreleri tahmin etmek için genellikle sınırlı miktarda veri kullanırız. Eğer fazla kullanıyorsak, parametre tahminlerimiz mevcut veriler için çok iyi çalışacaktır, ancak bunları başka bir bağlamda kullandığımız zamanlar için de iyi sonuç vermeyecektir. Bu nedenle, çapraz doğrulama, parametre tahminlerinin, onları tahmin etmek için kullandığımız verilere özgü olmadığına dair bazı güvencelerimizi kanıtlayarak, yukarıdaki fazlalık sorunundan kaçınmaya yardımcı olur.
Tabii ki, çapraz doğrulama mükemmel değildir. Metro örneğimize geri dönersek, çapraz onaylamadan sonra bile, en iyi parametre seçimimiz, çeşitli sorunlar nedeniyle (örneğin inşaat, trafik hacmi değişimleri vb.) Bir ay boyunca çalışmayabilir.
Bunun en iyi şekilde aşağıdaki resim ile açıklandığını düşünüyorum (bu durumda k-kat çapraz onaylamayı gösteriyor):
Çapraz doğrulama, özellikle veri miktarının sınırlı olabileceği durumlarda, öngörücü bir modelde aşırı yüklenmeye karşı koruma sağlamak için kullanılan bir tekniktir. Çapraz doğrulama işleminde, verilerin sabit bir şekilde katlanmasını (veya bölümlemesini) yaparsınız, analizleri her bir katlamada çalıştırır ve ardından genel hata tahminini ortalarsınız.
"Eğitimli modelin bağımsız verilerde iyi performans gösterdiğinden emin olarak egzersiz verilerinizi yürekten öğrenmekten kaçının."
Diyelim ki bazı süreçleri araştırıyorsunuz; açıklayan bazı veriler topladınız ve bir model oluşturdunuz (istatistiksel ya da ML önemli değil). Ama şimdi, tamam mı? Muhtemelen dayandığı verilere şüpheyle uyuyor, bu yüzden hiç kimse modelinizin düşündüğünüz kadar muhteşem olduğuna inanmayacak.
İlk fikir, verilerinizin bir alt kümesini ayırmak ve onu modelin geri kalan verileri üzerinde oluşturduğu yöntemi test etmek için kullanmaktır. Şimdi sonuç kesinlikle fazla yorulmadan-ücretsiz, yine de (özellikle küçük kümeler için), şansın yaver gitmesi ya da çekmesi (daha az) daha basit vakalar olabilirdi, tahmin etmesini (zorlaştırması) daha kolay ... Hata / iyilik tahmini, model karşılaştırması / optimizasyonu için işe yaramaz çünkü muhtemelen dağılımı hakkında hiçbir şey bilmiyorsunuz.
Şüphe duyduğunuzda kaba kuvvet kullanın, bu yüzden yukarıdaki işlemi tekrarlayın, doğruluk / hata / iyilikle ilgili birkaç tahmin toplayın ve bunları ortalayın - ve böylece çapraz doğrulama elde edersiniz. Daha iyi tahminler arasında bir histogram da elde edersiniz, böylece dağılımı yaklaşık olarak hesaplayabilir veya parametrik olmayan bazı testleri yapabilirsiniz.
Ve işte bu; Test treni bölmenin detayları, nadir bulunan durumlar ve eşdeğer oldukları küçük güç farklılıkları dışında, farklı CV türlerinin nedenidir. Gerçekten de büyük bir avantaj, çünkü onu kurşun geçirmez bir yöntem haline getiriyor; hile yapmak çok zor.
Eğitim sırasındaki test verilerine erişiminiz olmadığından ve modelinizin görülmeyen test verilerinde iyi çalışmasını istediğiniz için, testlerin küçük bir kısmını tekrar tekrar örnekleyerek bazı test verilerine erişiminiz varmış gibi davranırsınız. Eğitim verileriniz, modeli eğitirken bu seti kaldırın ve ardından düzenlenen seti test verilerinin bir vekili olarak ele alın (ve tutulan veriler üzerinde en iyi performansı veren model parametrelerini seçin). Eğitim verilerinden çeşitli altkümeleri rastgele örnekleyerek, bunları test verileri gibi göstermesini sağlayabilirsiniz (ortalama davranış anlamında) ve bu nedenle, öğrenilen model parametrelerinin de test verileri için iyi olacağını (ör. Modeliniz) görünmeyen veriler için iyi genelleştirir).