Yanıtlar:
Parsimonik bir model, olabildiğince az yordayıcı değişkeni ile istenen bir açıklama veya tahmin düzeyi gerçekleştiren bir modeldir.
Model değerlendirmesi için neyi bilmek istediğinize bağlı olarak farklı yöntemler vardır. Bir modeli değerlendirmenin genellikle iki yolu vardır: Tahminlere dayanarak ve mevcut verilere uygunluğa dayanarak. İlk durumda, modelinizin yeni verileri yeterli bir şekilde tahmin edip etmediğini bilmek istersiniz, ikincisi modelinizin mevcut verilerinizdeki ilişkileri yeterince tanımlayıp açıklamadığını bilmek istersiniz. Bunlar iki farklı şey.
Tahmin için kullanılan modelleri değerlendirmenin en iyi yolu, çapraz değerlendirmedir. Çok kısaca, veri kümenizi örn. 10 farklı parçada, 9 modelden birini kullanarak modeli oluşturun ve onuncu veri setinin sonuçlarını tahmin edin. Gözlemlenen ve öngörülen değerler arasındaki basit bir ortalama kare farkı, tahmin doğruluğu için bir ölçü sağlar. Bunu on kez tekrarladığınızda, standart bir sapma ile genel bir değere gelmek için on tekrarın tamamındaki ortalama kare farkını hesaplarsınız. Bu, standart istatistiksel teknikleri kullanarak (t-testi veya ANOVA) iki modeli tahmin doğruluğu konusunda tekrar karşılaştırmanıza izin verir.
Temanın bir varyantı, olarak tanımlanan PRESS kriteridir (Kareler Tahmin Toplamı).
Burada Y, I ( - i ) Tüm gözlemler eksi i değerini temel alan bir model kullanılarak i gözlem için tahmin edilen değerdir. Bu kriter özellikle fazla veriniz yoksa kullanışlıdır. Bu durumda, verilerinizi çapraz değerleme yaklaşımında olduğu gibi bölmek, dengeli bir montaj için çok küçük verilerin alt kümeleriyle sonuçlanabilir.
İlk önce, bunun kullandığınız model çerçevesine bağlı olarak gerçekten farklı olduğunu belirteyim. Örneğin, olabilirlik oranı testi, klasik gaussianı hatalar için kullanırken Genelleştirilmiş Katkı Maddesi Karışık Modeller için çalışabilir, ancak binom varyasyonu durumunda anlamsızdır.
İlk olarak, modelleri karşılaştırmanın daha sezgisel yöntemlerine sahipsiniz. İki model için uygunluğun iyiliğini karşılaştırmak için Aikake Bilgi Kriterini (AIC) veya Bayesian Bilgi Kriterini (BIC) kullanabilirsiniz. Fakat hiçbir şey size iki modelin de gerçekten farklı olduğunu söyleyemez.
Bir diğeri Mallow's Cp kriteri. Bu, temelde modelinizi olası tüm alt modellerle karşılaştırarak (veya bunlardan dikkatlice seçerek) modelinizdeki olası önyargıları kontrol eder. Ayrıca bkz: http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
Karşılaştırma yapmak istediğiniz modeller iç içe modeller ise (yani daha temel modelin tüm yordayıcıları ve etkileşimleri daha eksiksiz modelde de gerçekleşirse), olasılık oranı testi (veya Ki-kare) şeklinde resmi bir karşılaştırma kullanabilirsiniz. veya uygun durumlarda bir F testi, örneğin en küçük kareler kullanılarak yerleştirilmiş basit doğrusal modelleri karşılaştırırken). Bu test, esas olarak, ekstra tahmin edicilerin veya etkileşimlerin gerçekten modeli geliştirip geliştirmediğini kontrol eder. Bu kriter genellikle ileri veya geri adım adım yöntemlerde kullanılır.
Avukatların var ve bu yöntemin düşmanlarına sahipsin. Şahsen ben otomatik olarak model seçiminden hoşlanmıyorum, özellikle de modellerin tanımlanmasıyla ilgili değil.
Temel olarak, daha önce seçilen seçilmiş modellerin karşılaştırılmasında daha fazlasını görüyorum. Modelin istatistiksel olarak değerlendirilmesi ve hipotez testleriyle ilgilenmiyorsanız, modellerin öngörücü doğruluğunu karşılaştırmak için çapraz onaylama kullanabilirsiniz.
Ancak, tahmin amaçlı olarak gerçekten değişken seçimden sonraysanız, Destek Vektör Makineleri, Yapay Sinir Ağları, Rastgele Ormanlar ve benzerleri gibi değişken seçimi için diğer yöntemlere bakmak isteyebilirsiniz. Bunlar, örneğin tıpta ölçülen bin proteinden hangisinin kanser olup olmadığınızı doğru bir şekilde tahmin edebileceğini bulmak için sıklıkla kullanılmaktadır. Sadece (ünlü) bir örnek vermek gerekirse:
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
Tüm bu yöntemler sürekli veri için de regresyon varyantlarına sahiptir.
Geri veya ileri seçimi yapmak ortak bir stratejidir, ancak önerebileceğim bir strateji değildir. Böyle bir model inşasından elde edilen sonuçların hepsi yanlış. P değerleri çok düşük, katsayılar 0'dan uzak tutulmuş ve ilgili başka sorunlar var.
Otomatik değişken seçimi yapmanız gerekiyorsa, LASSO veya LAR gibi daha modern bir yöntem kullanmanızı öneririm.
Bunun üzerine "Adım Adım Durma: Neden Adım Adım ve Benzeri Yöntemler Kötü, Ne Kullanmalısınız?" Başlıklı bir SAS sunumu yazdım.
Ancak, mümkünse, bu otomatik yöntemlerden tamamen kaçınır ve konu uzmanlığına güvenirim. Bir fikir, 10 kadar makul modeller oluşturmak ve bunları bir bilgi kriterine göre karşılaştırmaktır. @Nick Sabbe, cevabında bunlardan birkaçını listeledi.
Bunun cevabı büyük ölçüde hedefinize bağlı olacaktır. İstatistiksel olarak anlamlı katsayılar arıyor olabilirsiniz veya yeni gözlemlerin sonucunu öngörürken mümkün olduğunca fazla yanlış sınıflandırma yapmaktan kaçınmış olabilirsiniz veya en az yanlış pozitif olan modele ilgi duyabilirsiniz; belki de sadece verilere en yakın olan eğriyi istiyorsunuz.
Yukarıdaki durumların herhangi birinde, aradığınız şey için bir tür önlem almanız gerekir. Farklı uygulamalara sahip bazı popüler önlemler AUC, BIC, AIC, artık hata ...
Her model için hedefinize en uygun ölçüyü hesaplar ve ardından her model için 'puanları' karşılaştırırsınız. Bu, amacınız için en iyi modele götürür.
Bu önlemlerin bazıları (örn. AIC), modeldeki sıfır olmayan katsayıların sayısına fazladan stres uygular, çünkü çok fazla kullanmak, yalnızca verileri geçersiz kılabilir. nüfus). Bir modelin “mümkün olduğu kadar az” değişkenler içermesini istemek için başka nedenler olabilir, örneğin, bunların hepsini tahmin için ölçmenin masraflı olması. Bir modeldeki 'basitlik' veya 'az sayıdaki değişken', tipik olarak parlamentosu olarak adlandırılır.
Kısacası, bir parasal model, çok fazla değişken içermeyen 'basit' bir modeldir.
Bu tür sorularla ilgili olarak, sizi konu ve ilgili konular hakkında daha derin bilgi için mükemmel İstatistiksel Öğrenme Öğeleri kitabına yönlendireceğim .
Tartışmayı burada ilginç buldum, özellikle daha çok katsayı ve değişken içeren Parsimonious ve Model arasındaki tartışmayı.
Profesörüm Geç Dr. Steve, daha iyi uyumu / büyük R ^ 2 olan diğer modele kıyasla düşük R ^ 2 ile benzer bir model üzerinde dururdu.
Buradaki tüm balıklar için teşekkürler!
Akash