Bunu sağlamak için bir yolu, yukarı kodlu var emin olmaktır hepsi hatta "müdahalesi", modeli sığacak şekilde yapmak şeylerden. Bu şekilde, işlemi tekrar tekrar çalıştırdığınızda, çapraz doğrulama yoluyla, işleri koşular arasında tutarlı tuttuğunuzu söyleyin. Bu, tüm potansiyel varyasyon kaynaklarının çapraz doğrulama işlemi tarafından yakalanmasını sağlar.
Hayati açıdan önemli olan bir diğer şey, her iki veri setinde de temsili bir örneğinizin olmasını sağlamaktır. Veri kümeniz, tahmin etmek için kullanmayı umduğunuz veri türünü temsil etmiyorsa, yapabileceğiniz pek bir şey yoktur. Tüm modelleme, "indüksiyon" un işe yaradığı varsayımına dayanır - gözlemlememiş olduğumuz şeyler gözlemlediklerimiz gibi davranır.
Genel bir kural olarak, (i) ne yaptığınızı bilmiyorsanız ve (ii) daha basit yöntemleri denemeden ve çalışmadıklarını ve karmaşık yöntemin nasıl düzelttiklerini tespit etmeden karmaşık model uygulama prosedürlerinden uzak durun. basit yöntemle problemler. "Basit" ve "karmaşık", fitting yapan kişiye "basit" veya "karmaşık" anlamına gelir. Bunun bu kadar önemli olmasının nedeni, sonuçlara "koklama testi" olarak adlandırdığım şeyi uygulamanıza izin vermesidir. Sonuç doğru görünüyor mu? Anlamadığınız bir prosedürden elde edilen sonuçları "koklayamazsınız".
NOT: Benim cevabın yanında oldukça uzun bir parçası olduğunu deneyimlerime dayanmaktadır ile, alana p olasılıkla büyük. Aşağıdakilerin N ≈ p veya N < p durumları için geçerli olmayacağından neredeyse eminimN-> > P p N-≈ p N-< p
Büyük bir örneğiniz varsa, belirli bir gözlemi kullanıp kullanmama arasındaki fark, modellemenizin "yerel" olmaması koşuluyla çok küçüktür. Bunun nedeni, belirli bir veri noktasının etkisinin genellikle . Bu yüzden, büyük veri setlerinde, test veri setini "uzatma" işleminden elde ettiğiniz artıklar temel olarak eğitim veri setinde kullanmaktan kalanlar ile aynıdır. Bunu sıradan en küçük kareleri kullanarak gösterebilirsiniz. Kalıntı Eğer hariç eldeigözlem inci (yani ne deney kümesinde gözlem koymak test seti hata olacaktır) olan, e t e s t i =(1-hii)-1, e t r bir i n ı ,e t r bir i n i1N-benet e s tben= ( 1 - sben ben)- 1et r bir i nbenet r bir i nbenEğitim kalıntı ve kaldıraç olan i veri noktası inci. Şimdi buna sahip Σ i h i i = p , p regresyon değişkenlerin sayısıdır. Şimdi eğer N > > p , o zaman herhangi açısından son derece zordur h i i testi kurmak ve eğitim seti hataları arasındaki kayda değer fark yaratmak için yeterince büyük olması. Basitleştirilmiş bir örnek alabiliriz, varsayalım ki p = 2 (kesişme ve 1 değişken), N × phben benbenΣbenhben ben= ppN-> > Phben benp = 21N-× ptasarım matrisi (hem eğitim hem de test setleri) ve kaldıraçX
hben ben= xTben( XTX)- 1xben= 1N-s2x( 1xben) ( x2¯¯¯¯¯- x¯¯¯- x¯¯¯1) ( 1xben) = 1 + x~2benN-
Burada , ¯ x 2 = N - 1 Σ i x 2 ı ve s 2 x = ¯ x 2 - ¯ x 2 . Son olarak, ˜ x i = x i - ¯ xx¯¯¯= N- 1Σbenxbenx2¯¯¯¯¯= N- 1Σbenx2bens2x= x2¯¯¯¯¯- x¯¯¯2 standartlaştırılmış yordayıcı değişkenidir vexiortalamadankaç standart sapma olduğunu ölçer. Bu nedenle, başlangıçtan itibaren test setinin "setin" yanında bulunan gözlemler için yapılan set setinden çok daha büyük olacağını biliyoruz. Ancak bu temelde yine temsili meseledir - “kenarda” gözlemler “ortada gözlemlerden daha az temsil edicidir”. Ayrıca, bu sipariş1x~ben= xben- x¯¯¯sxxben . Eğer var ise100gözlemler bile ~ x i=5(çoğu tanımlamalar tarafından x-uzayda bir aykırı değer), bunun anlamıhii=261N-100x~ben= 5 , ve test hatası sadece1-26faktörü ilebelirsizhben ben= 26100 . Büyük bir verikümeniz varsa,10000 deyince, daha küçüktür,1-261 - 26100= 7410010000 az olan,1%. Aslında,10000gözlemiçin, eğitim seti hatasını kullanarak test seti hatasını%25eksik tahminetmek için ˜ x =50gözlemine ihtiyacınız olacaktır.1 - 2610000% 110000x~= 50% 25
Büyük veri kümeleri için bir test seti kullanılarak sadece verimsizdir Yani, bu kadar uzun olarak da gereksizdir . Bu, OLS için geçerlidir ve ayrıca yaklaşık GLM'ler için de geçerlidir (detaylar GLM için farklıdır, ancak genel sonuç aynıdır). 2'den fazla boyutta "aykırı değerler", büyük "temel bileşen" puanlarına sahip gözlemlerle tanımlanır. Bu yazı ile gösterilebilir h i i = x T ı e E , T ( X , T x ) - 1 e D , T x i Burada EN-> > P2hben ben= xTbenEET( XTX)- 1EETxbenEiçin (dik) özvektörler matrisi olan özdeğer matris ile, X . Biz h i i = z T i Λ - 1 z i = ∑ p j = 1 z 2 j iXTXΛ zi=D, Txiiçin temel skorlar olanxi.hben ben= zTbenΛ- 1zben= ∑pj = 1z2j benΛj jzben= ETxbenxben
Test setinizde gözlem varsa, bir matris sürümü alırsınız e t e s t { k } =k , H { k } = X { k } ( X , T x ) - 1 x T { k } ve X,et e s t{ k }= ( Ik- H{ k })- 1et r bir i n{ k }'H{ k }= X{ k }( XTX)- 1XT{ k } , test setindeki tasarım matrisinin satırlarıdır. Dolayısıyla, OLS regresyonu için, verilerin test ve eğitim setlerine girmesi için "test seti" hatalarının ne olacağını zaten biliyorsunuz. Bu durumda (N>>p), tüm veri bölme için bir ihtiyaç vardır. Verileri bölmek zorunda kalmadan hemen hemen her boyuttaki "en iyi durum" ve "en kötü durum" test seti hatalarını bildirebilirsiniz. Bu, çok fazla zaman ve kaynak tasarrufu sağlar.X{ k }N-> > P
Temel olarak, tüm bunlar BIC veya AIC gibi eğitim ve test hataları arasındaki farkı hesaba katmak için bir ceza terimi kullanımına indirgenmiştir. Bu, bir test setini kullanmakla aynı sonucu verir, ancak potansiyel olarak yararlı bilgileri atmak zorunda kalmazsınız. BIC ile, matematiksel olarak benzeyen modelin kanıtlarına yaklaşıyorsunuz:
p ( D | Mbenben) = p ( y1y2… YN-| Mbenben)
Her modeli - Bu prosedürde, biz herhangi bir iç parametrelerini tahmin unutmayın tamamen belirtilmelidir veya onun iç parametreler göz entegre var. Bununla birlikte, bunu ürün kuralını tekrar tekrar kullanarak ve ardından sonucun günlüğünü alarak çapraz doğrulama (belirli bir kayıp işlevini kullanarak) gibi gösterebiliriz:Mben
= p ( y 1 | M i I ) p ( y 2 | y 1 M I I ) p ( y 3 ... y K |
p ( D | Mbenben) = p ( y1| Mbenben) p ( y)2… YN-| y1Mbenben)
= ⋯ = N ∏ i = 1 p ( y i | y 1 … y i - 1 M i I )= p ( y1| Mbenben) p ( y)2| y1Mbenben) p ( y)3… YN-| y1y2Mbenben)
= ⋯ = ∏i = 1N-p ( yben| y1… Yben - 1Mbenben)
⟹kütük[ p ( D | M)benben) ] = ∑i = 1N-kütük[ p ( y)ben| y1… Yben - 1Mbenben) ]
Bu, bir çapraz onaylama biçimi önermektedir, ancak eğitim setinin sürekli güncellendiği yerlerde, test setinden bir seferde bir gözlem - Kalman Filtresi'ne benzer. Mevcut eğitim setini kullanarak test setinden bir sonraki gözlemi tahmin ediyoruz, koşullu log olasılığını kullanarak gözlemlenen değerden sapmayı ölçüyoruz ve ardından yeni gözlemi içerecek şekilde eğitim setini güncelliyoruz. Ancak, bu prosedürün mevcut tüm verileri tamamen sindirdiğini ve aynı zamanda her gözlemin "örnek dışı" bir durum olarak test edildiğinden emin olduğunu unutmayın. Aynı zamanda “gözlem 1” veya “gözlem 10” dediğiniz şeyin önemi yoktur; sonuç aynıdır (bazı permütasyonlar için hesaplamalar diğerlerinden daha kolay olabilir). Kayıp fonksiyonu ayrıca "uyarlanabilir" , daha sonra netlik L i bağlıdır i kayıp fonksiyonu sürekli yeni verilerle güncellenmekte olduğundan,.Lben= log[ p ( y)ben| y1… Yben - 1Mbenben) ]Lbenben
Tahminli modellerin bu şekilde değerlendirilmesinin oldukça işe yarayacağını düşünüyorum.