Bu sorunun nereye ait olduğundan emin değilim: Çapraz Onaylı veya İşyeri. Ama sorum belirsiz bir şekilde istatistiklerle ilgili.
Bu soru (ya da sanırım sorular) bir "veri bilimi stajyeri" olarak çalışmam sırasında ortaya çıktı. Bu lineer regresyon modelini yapıyordum ve kalan arsaları inceliyordum. Heteroskedastisite belirtisi gördüm. Heteroskedastisitenin güven aralığı ve t-testi gibi birçok test istatistiğini bozduğunu hatırlıyorum. Bu yüzden üniversitede öğrendiklerimi takip ederek en az kare ağırlıklı kullandım. Müdürüm bunu gördü ve bana bunu yapmamamı tavsiye etti çünkü “işleri karmaşık hale getirdim”, bu benim için çok inandırıcı bir neden değildi.
Başka bir örnek "açıklayıcı bir değişkenin p değeri önemsiz olduğundan kaldırılması" olacaktır. Bu tavsiye, mantıklı bir bakış açısından mantıklı değildir. Öğrendiklerime göre, önemsiz p-değeri farklı nedenlerden kaynaklanabilir: şans, yanlış modeli kullanma, varsayımları ihlal etme vb.
Yine başka bir örnek, modelimi değerlendirmek için k-kat çapraz doğrulamayı kullandım. Sonuca göre , den çok daha iyi . Ancak model 1 için daha düşük bir ve bunun nedeni kesişme ile ilgili . Yine de amirim daha yüksek R ^ 2 olduğu için model 2'yi tercih ediyor gibi görünüyor . Onun nedenleri ( R ^ 2 gibi sağlam ya da çapraz doğrulama istatistiksel öğrenme değil, makine öğrenme yaklaşımıdır) fikrimi değiştirecek kadar ikna edici görünmüyor.
Üniversiteden yeni mezun olan biri olarak kafam çok karıştı. Gerçek dünya sorunlarını çözmek için doğru istatistikleri uygulama konusunda çok tutkuluyum, ancak aşağıdakilerden hangisinin doğru olduğunu bilmiyorum:
- Kendi başıma öğrendiğim istatistikler yanlış, bu yüzden sadece hata yapıyorum.
- Şirketlerde teorik istatistikler ile yapı modelleri arasında büyük fark vardır. Ve istatistik teorisi doğru olmasına rağmen, insanlar bunu takip etmiyor.
- Yönetici istatistikleri doğru şekilde kullanmıyor.
17.04.2017 Güncellemesi: Doktora yapmaya karar verdim. istatistiklerde. Cevabınız için hepinize teşekkür ederim.