Yüksek boyutlu, ilişkili veriler ve keşfedilen en iyi özellikler / ortak değişkenler; çoklu hipotez testi?


9

Ben yaklaşık 5.000 ile ilişkili özellikleri / ortak değişkenleri ve ikili bir yanıt ile bir veri kümesi var. Veriler bana verildi, ben toplamadım. Modeller oluşturmak için Kement ve gradyan güçlendirme kullanıyorum. Yinelenen, iç içe çapraz doğrulamayı kullanıyorum. Lasso'nun en büyük (mutlak) 40 katsayısını ve degrade artırılmış ağaçlardaki en önemli 40 özelliğini rapor ediyorum (40 civarında özel bir şey yoktu; makul miktarda bilgi gibi görünüyordu). Ayrıca, CV'nin kıvrımları ve tekrarları üzerindeki bu miktarların varyansını da rapor ediyorum.

Ben "p" değerleri, nedensellik ya da herhangi bir şey hakkında hiçbir açıklama yapma "önemli" özellikleri üzerinde muse, ama bunun yerine bu süreç bir tür --- kusurlu ve rastgele bir tür --- bazı fenomene içgörü göz önüne alındığında.

Tüm bunları doğru yaptığımı varsayarsak (örneğin, çapraz doğrulamayı doğru şekilde yürüttüm, kement için ölçeklendirilmiş), bu yaklaşım makul mü? Birden fazla hipotez testi, post hoc analiz, yanlış keşif gibi sorunlar var mı? Ya da başka problemler?

Amaç

Olumsuz bir olayın olasılığını tahmin edin

  • Her şeyden önce, olasılığı doğru bir şekilde tahmin edin
  • Daha küçük - bir akıl sağlığı kontrolü olarak, ama aynı zamanda daha fazla araştırılabilecek bazı yeni öngörücüleri ortaya çıkarmak için, yukarıda belirtildiği gibi katsayıları ve önemleri inceleyin.

Tüketici

  • Bu olayı tahmin etmek isteyen araştırmacılar ve olay gerçekleşirse düzeltmek zorunda kalan insanlar

Ondan çıkmalarını istediğim şey

  • Açıklandığı gibi modelleme işlemini kendi verileriyle tekrarlamak istiyorlarsa, olayı tahmin etme yeteneği verin.

  • Beklenmedik öngörücülere biraz ışık tut. Örneğin, tamamen beklenmedik bir şeyin en iyi öngörücü olduğu ortaya çıkabilir. Bu nedenle başka yerlerdeki modelciler söz konusu öngörücüyü daha ciddi şekilde değerlendirebilir.


Burada niyetin ne olduğunu bilmek faydalı olacaktır. Bunları yaptın, neden? Tüketici kimdir ve analizden ne elde etmelerini istersiniz?
Matthew Drury

Yanıtlar:


2

Tahminlerin doğruluğu ile ilgili herhangi bir sorun yoktur. Tahminlerinizdeki belirsizlik, çapraz geçerlilik ile iyi tahmin edilmektedir. Belki bir uyarı, çok sayıda parametre ayarını test ederseniz, doğruluğu abartırsınız, bu nedenle son modelinizin doğruluğunu tahmin etmek için bir doğrulama seti kullanmanız gerekir. Ayrıca, verileriniz tahminlerde bulunacağınız verileri temsil etmelidir.

Sizin için açıktır ve okuyucu için açık olmalıdır, tahmin edicilerin etkinin nedeni olmadığı, sadece iyi bir tahmin yapan ve ampirik olarak iyi çalışan tahmincilerdir. Dikkatinize tamamen katılıyorum, ancak gözlemsel verilerden herhangi bir nedenselliği çıkarmak her durumda sorunlu. Önem ve benzeri şeyler, iyi tasarlanmış, kontrollü çalışmalarda "geçerli" kavramlardır ve bunun dışında yalnızca sizin ve başkalarının akıllıca ve dikkatli bir şekilde yorumlaması gereken araçlardır. Bildirilen güven aralıkları ile normal bir doğrusal regresyonda ve ayrıca bir kement modelinde olduğu gibi gradyanla güçlendirilmiş bir ağaç modelinde yaygın nedenler, sahte etkiler, maskeleme ve diğer şeyler olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.