Hayatta kalma analizi probleminde eğitim, test, validasyon


14

Burada çeşitli konulara göz atıyorum, ancak tam sorumun cevaplandığını sanmıyorum.

Yaklaşık 50.000 öğrenciden oluşan bir veri setim ve ayrılma zamanlarım var. Çok sayıda potansiyel ortak değişkenle orantılı tehlike regresyonu yapacağım. Ayrıca okuldan ayrılmak / kalmak için lojistik regresyon yapacağım. Ana hedef, yeni öğrenci grupları için tahmin olacaktır, ancak geçen yılki kohorttan çok farklı olacaklarına inanmak için hiçbir nedenimiz yok.

Genellikle, böyle lüks bir veriye sahip değilim ve bir çeşit ceza ile model uydurma yapıyorum, ancak bu sefer int eğitim ve test veri setlerini bölmeyi ve sonra eğitim setinde değişken seçimi yapmayı düşündüm; daha sonra parametreleri ve tahmin kapasitesini tahmin etmek için test veri kümesini kullanın.

Bu iyi bir strateji mi? Değilse, daha iyi olan nedir?

Alıntılar kabul edilir, ancak gerekli değildir.

Yanıtlar:


8

Benzer bir sonuç frekansıyla, veri bölmenin ise işe yarayabileceğini buldum . Test örneğini yalnızca bir kez kullanırsanız, model seçimi için doğru şekilde cezalandıran (gerçekten model seçimine gerçekten ihtiyacınız varsa; cezalandırmanın daha iyi bir modelle sonuçlanması daha olasıdır), model performansının tarafsız bir tahminini sağlar. AMA test örneğini parametrelerin yeniden tahmininde kullanmayın. Veri bölme, "derin dondurmaya" konulacak ve ince ayar yapmadan test örneğine uygulanacak eğitim örneği kullanılarak oluşturulan modele dayanmaktadır.n>20,000


Teşekkürler. 80-20 tavsiye eder misiniz? 90-10? Başka bir şey? Bu konuda referans var mı?
Peter Flom - Monica'yı eski durumuna getirin

2
Optimum bölünmüş konfigürasyon ile ilgili literatürü takip etmedim. Ancak bazı genel ilkeler geçerlidir. Doğrulama örneği için , kalibrasyon eğrisini büyük bir hassasiyetle tahmin edebilmeniz için yeterince büyük ihtiyacınız vardır , o zaman kalan modelin güvenilir model montajı için yeterli olandan daha fazla olduğunu görmeniz gerekir (20, 1 olay oranını kullanarak: aday) cezalandırmazsanız). n
Frank Harrell

3

Bu makaleye , hayatta kalma tahminini çapraz doğrulama gibi benzer bir görev için bakıyordum . İyi bitler Bölüm 2'den başlar.


Bu, 5 kat ile model CV tabanlı kestirimi karşılaştırıyor gibi görünüyor (ve 5 katın daha iyi olduğu sonucuna varıyor). Ancak, verileri sadece 2 parçaya bölmek ve birini diğerini doğrulamak için kullanmakla daha çok ilgileniyordum.
Peter Flom - Monica'yı eski durumuna döndürün

1
Buradan alıp götürdüğüm ve neden bu makaleye ilgi duyduğum, hayatta kalma tahminlerinde sansürle nasıl başa çıkılacağı, yani hangi kayıp fonksiyonunun kullanılacağıydı (sorunuzu yeniden okurken sansürünüz olmayabilir).
Cam.Davidson.Pilon

Sansürüm var ve tez ilginç, ama bu sorumun cevabı değil, sanmıyorum.
Peter Flom - Monica'yı eski durumuna döndürün

1

O zamandan beri sadece soruma cevap vermekle kalmayan, aynı zamanda belirli veri setleri için en uygun ayrımı bulmak için bir yöntem sağlayan bu makaleyi buldum . @FrankHarrell'ın daha sonra Googled yaptığım "optimum bölünmüş yapılandırma" terimini kullanması sayesinde buldum.


2
Peter Sanırım kağıt yanlış bir puanlama kuralı kullandı. Uygun puanlama kuralları kullanıldığında farklı sonuçlar elde edilebilir. Ayrıca makale analizin "oynaklığına" değinmemiştir. Burada ele alınan küçük toplam numune boyutları ile, işlemi farklı bir rastgele bölünme kullanarak tekrarlamak, ilk bölünmeye kıyasla çok farklı modellere ve çok farklı doğruluklara neden olacaktır. Bunun çok istenmeyen olduğunu görüyorum.
Frank Harrell

@FrankHarrell: Ne demek istediğini anlıyorum ve gerçekten çok iyi bir nokta. O zaman ne yapmayı öneriyorsun? Peform Monte Carlo, tren / test bölümlerini çalıştırıyor ve sonra her çalışmada ix k-katları CV (veya önyükleme) yapıyor mu? Ama sonra bu tüm veri kümesini kirletecekti ... Veri kümesini tren ve test setlerine ayırmak için uygun bir yol bulmaktan daha iyi bir çözüm göremiyorum (kriterler ne olurdu?) modelleri eğitmek ve doğrulamak için veri kümesi (CV veya önyükleme kullanarak) (bunlardan bir (veya birkaç) bazı giriş verilerine dayanarak bilinmeyen çıkış değerlerini tahmin etmek için kullanılacaktır).
jpcgandre

Gönderiye başka bir konu sayfası eklediğinizi söyledim.
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.