Model uydurma / eğitim ve validasyon için kullanılan örnek verilerin oranının hesaplanması

9

Verileri tahmin etmek için kullanmayı planladığım bir örnek boyut "N" sağladı. Verileri alt bölümlere ayırmanın bazı yolları nelerdir?

Bunun siyah-beyaz bir cevabı olmadığını biliyorum, ama bazı "başparmak kuralları" veya genellikle kullanılan oranları bilmek ilginç olurdu. Üniversitemizden biliyorum, profesörlerimizden biri eskiden% 60 model söyler ve% 40 geçer.

— dassouki
kaynak

7

Söylediğin gibi siyah beyaz cevap yok. Verileri genellikle 2 parçaya bölmüyorum, bunun yerine k-kat çapraz doğrulama gibi yöntemler kullanıyorum.

K katlı çapraz doğrulamada verilerinizi rastgele k parçalarına böler ve modelinizi k-1 parçalarına sığdırır ve soldaki parçadaki hataları test edersiniz. Her bir parçayı tek tek takılmadan bırakarak işlemi k kez tekrarlıyorsunuz. Her bir k yinelemesinden ortalama hatayı model hatasının bir göstergesi olarak alabilirsiniz. Farklı modellerin tahmin gücünü karşılaştırmak istiyorsanız bu gerçekten işe yarar.

K-kat çapraz doğrulamanın bir aşırı şekli, test için sadece bir veri noktası bıraktığınız ve modeli kalan tüm noktalara sığdırdığınız genelleştirilmiş çapraz doğrulamadır. Ardından, her veri noktasını tek tek bırakarak işlemi n kez tekrarlayın. Genellikle genelleştirilmiş çapraz doğrulamaya göre k-kat çapraz doğrulamayı tercih ederim ... sadece kişisel bir seçim

— Shrey
kaynak

2

Model seçimi için tam set kullanarak CV, ha? Bu yaygın bir hatadır (Wikipedia'dan bile bahseder), çünkü gizli bir revizyon. Bunu doğru yapmak için daha yüksek bir CV yapmalı veya biraz test bırakmalısınız.

5

Bu gerçekten sahip olduğunuz veri miktarına, yöntemlerin belirli maliyetine ve sonucunuzun tam olarak nasıl olmasını istediğinize bağlıdır.

Bazı örnekler:

Verileriniz çok azsa, muhtemelen çapraz doğrulamayı kullanmak istersiniz (k-kat, bir defa bırakma, vb.) Modeliniz muhtemelen zaten eğitmek ve test etmek için çok fazla kaynak almayacaktır. Verilerinizden en iyi şekilde yararlanmanın iyi yolları

Çok fazla veriniz var: Muhtemelen oldukça büyük bir test seti almak istiyorsunuz ve bazı garip örneklerin sonuçlarınıza çok fazla değişiklik gösterme olasılığının çok az olmasını sağlayacaksınız. Ne kadar veri almalısınız? Tamamen verilerinize ve modelinize bağlıdır. Örneğin konuşma tanımada, çok fazla veri alırsanız (diyelim ki 3000 cümle), deneyleriniz günler alacaktır, çünkü gerçek zamanlı bir 7-10 faktörü yaygındır. Çok az alırsanız, seçtiğiniz hoparlörlere çok fazla bağımlıdır (eğitim setinde izin verilmez).

Unutmayın, birçok durumda bir doğrulama / geliştirme ayarlaması da iyidir!

— Peter Smit
kaynak

5

1:10 test: tren oranı yuvarlak görünüyor çünkü yuvarlak görünüyor, 1: 9 10 kat CV nedeniyle popüler, 1: 2 popüler çünkü aynı zamanda yuvarlak ve bootstrap'ı yeniden birleştiriyor. Bazen, örneğin test için geçen yıl, eğitimden yıllar önce bazı verilere özgü kriterlerden bir test yapılır.

Genel kural şöyledir: tren, hassasiyetin önemli ölçüde düşmemesi için yeterince büyük olmalı ve test rastgele dalgalanmaları susturmak için yeterince büyük olmalıdır.

Yine de CV'yi tercih ediyorum, çünkü size bir hata dağılımı da veriyor.

4

K-katlama cevabının bir uzantısı olarak, "olağan" k seçimi 5 veya 10'dur. Bilginize, işte bu gerçeğe bir referans:

Shao, J. (1993), Çapraz Doğrulama ile Doğrusal Model Seçimi, Amerikan İstatistik Derneği Dergisi, Cilt. 88, No. 422, sayfa 486-494

— Albort
kaynak

Bu makaleyi bile okudun mu? Bununla birlikte, sadece doğrusal modeller için çalışır (başlık bile gösterir!) Sonsuz sayıda nesne için asimtotik davranışla ilgilidir. 100 yeterli değil.

1

Ve 9 nesne ile sette 10 kat çapraz doğrulama yapma şansı diliyorum.

@mbq: "Her zamanki" seçim diyorum. Her seçim demek değil

— Albort

@mbq: Makaleyi okudum; Shao, sadece 40 gözlemle bir simülasyon çalışması rapor eder ve LOOCV'nin, hiçbir alt seçimin uygun olmadığı durumlar hariç (Monte-Carlo CV) düşük performans gösterdiğini gösterir (tam özellik seti en uygunudur). 100 en azından doğrusal modellerde alt küme seçimi için fazlasıyla yeterli.

— shabbychef

@shabbychef Beni buraya getirdin; ilk yorumumdaki ikinci argüman elbette önemsiz, aklımda ve aşırı genelleştirilmiş başka işlerim vardı. Yine de, Shao'nun makalesinin genel "LOO büyük N için başarısız" için iyi bir referans olmadığını iddia edeceğim çünkü kapsamı doğrusal modellere indirgenmiştir.