Ben yaklaşık 5.000 ile ilişkili özellikleri / ortak değişkenleri ve ikili bir yanıt ile bir veri kümesi var. Veriler bana verildi, ben toplamadım. Modeller oluşturmak için Kement ve gradyan güçlendirme kullanıyorum. Yinelenen, iç içe çapraz doğrulamayı kullanıyorum. Lasso'nun en büyük (mutlak) 40 katsayısını ve degrade artırılmış ağaçlardaki en önemli 40 özelliğini rapor ediyorum (40 civarında özel bir şey yoktu; makul miktarda bilgi gibi görünüyordu). Ayrıca, CV'nin kıvrımları ve tekrarları üzerindeki bu miktarların varyansını da rapor ediyorum.
Ben "p" değerleri, nedensellik ya da herhangi bir şey hakkında hiçbir açıklama yapma "önemli" özellikleri üzerinde muse, ama bunun yerine bu süreç bir tür --- kusurlu ve rastgele bir tür --- bazı fenomene içgörü göz önüne alındığında.
Tüm bunları doğru yaptığımı varsayarsak (örneğin, çapraz doğrulamayı doğru şekilde yürüttüm, kement için ölçeklendirilmiş), bu yaklaşım makul mü? Birden fazla hipotez testi, post hoc analiz, yanlış keşif gibi sorunlar var mı? Ya da başka problemler?
Amaç
Olumsuz bir olayın olasılığını tahmin edin
- Her şeyden önce, olasılığı doğru bir şekilde tahmin edin
- Daha küçük - bir akıl sağlığı kontrolü olarak, ama aynı zamanda daha fazla araştırılabilecek bazı yeni öngörücüleri ortaya çıkarmak için, yukarıda belirtildiği gibi katsayıları ve önemleri inceleyin.
Tüketici
- Bu olayı tahmin etmek isteyen araştırmacılar ve olay gerçekleşirse düzeltmek zorunda kalan insanlar
Ondan çıkmalarını istediğim şey
Açıklandığı gibi modelleme işlemini kendi verileriyle tekrarlamak istiyorlarsa, olayı tahmin etme yeteneği verin.
Beklenmedik öngörücülere biraz ışık tut. Örneğin, tamamen beklenmedik bir şeyin en iyi öngörücü olduğu ortaya çıkabilir. Bu nedenle başka yerlerdeki modelciler söz konusu öngörücüyü daha ciddi şekilde değerlendirebilir.