Optimizasyon: İstatistiklerdeki tüm kötülüklerin kökü mü?


14

Daha önce aşağıdaki ifadeyi duydum:

"Optimizasyon, istatistikteki tüm kötülüklerin köküdür".

Örneğin, bu konudaki en önemli yanıt, bu ifadeyi model seçimi sırasında çok agresif bir şekilde optimize etme tehlikesine atıfta bulunur.

İlk sorum şu: Bu alıntı özellikle herhangi birine atfedilebilir mi? (örneğin istatistik literatüründe)

Anladığım kadarıyla, ifade aşırı uyum risklerini ifade ediyor. Geleneksel bilgelik, doğru çapraz validasyonun zaten bu soruna karşı savaştığını söyler, ancak bu problemde bundan daha fazlası var gibi görünüyor.

İstatistikçiler ve ML uygulayıcıları, sıkı çapraz doğrulama protokollerine (örn. 100 iç içe 10 kat CV) uyurken bile modellerini aşırı optimize etmekten kaçınmalı mıdır? Öyleyse, "en iyi" modeli aramayı ne zaman durduracağımızı nasıl bileceğiz?


İkinci soru kesinlikle kendi başına duruyor, değil mi?
russellpierce

@Glen_b Bu konuya bir referans bıraktım. Ancak sadece açıklığa kavuşturmak için Dikran, cevabına ayrı sorularda takip soruları açmayı önerdi ve bu sorunun bir yorumda ele alınması gerektiğinden şüpheliyim.
Amelio Vazquez-Reina

3
@ RussellS.Pierce Soruyu şu anda olduğu gibi içeren düzenleme - yorumumdan önce yapılmış olmasına rağmen - yüklediğimde ve orijinal soruyu ve olası cevapları araştırmaya başladığımda yoktu, sadece tarif ettiğim şey vardı orada retorik bir soru olarak. Şu anki soru iyi.
Glen_b

2
Çapraz doğrulama sorunu burada başka bir soruda ele alınmıştır: stats.stackexchange.com/questions/29354/… Çapraz doğrulama aşırı uymayı önlemeye yardımcı olabilir, ancak sorunu tamamen çözmez. Ne zaman duracağınızı bilmek kesinlikle zor bir sorun olabilir ve genel bir çözüm olabileceğini düşünmüyorum.
Dikran Marsupial

1
"doğru çapraz doğrulama zaten bu soruna karşı savaşıyor, ancak bu problemde bundan daha fazlası var gibi görünüyor." Evet: sorun hala çapraz doğrulama tahminlerinin varyansıdır (çoklu test problemiyle birlikte). Zamanı bulursam, ilgili sorunuz için bir cevap yazacağım.
Sb ile mutsuz cbeleites

Yanıtlar:


14

Alıntı bir Donald Knuth alıntısının bir açıklamasıdır ve kendisi Hoare'ye atfeder. Yukarıdaki sayfadan üç alıntı:

Erken optimizasyon, programlamadaki tüm kötülüklerin (veya en azından çoğunun) köküdür.

Erken optimizasyon tüm kötülüklerin köküdür.

Knuth buna 15 yıl sonra "Hoare's Dictum" der.

İstatistik ifadesine katıldığımı bilmiyorum *. Orada bol optimizasyonu ilgili değildir istatistiklerinde 'şer' arasında.

İstatistikçiler ve ML uygulayıcıları, sıkı çapraz doğrulama protokollerine (örn. 100 iç içe 10 kat CV) uyurken bile modellerini her zaman aşırı optimize etmekten kaçınmalı mıdır? Öyleyse, "en iyi" modeli aramayı ne zaman durduracağımızı nasıl bileceğiz?

Bence kritik olan şey, hangi prosedürleri uyguladığınızın özelliklerini tam olarak anlamak (veya mümkün olduğu kadarıyla).

* I won't presume to comment on Knuth's use of it, since there's little I could say that he couldn't rightly claim to understand ten times as well as I do.


2
Teşekkürler, bu yardımcı olur. Programlama ve aşırı sığdırmada önceden olgunlaşmış optimizasyon arasında bazı ilginç bağlantılar olduğunu düşünüyorum. Topluluğumuzda benzer alıntılar olup olmadığını ve istatistiklerde bununla mücadele etmenin titiz bir yolu olup olmadığını merak ediyorum.
Amelio Vazquez-Reina

5
İfadeyi kullanımım Knuth's'tan ilham aldı, ancak nedeni farklı olmasına ve Bayes perspektifinden hemen hemen tüm optimizasyon kötü bir şey ve marjinalleştirme daha iyi.
Dikran Marsupial

3

Optimizasyonun (veriye dayalı) model seçimini ifade ettiğini varsayarak, teklifi (istatistiklerde) ayrıştırabileceğiniz birkaç yol:

  • Tahmini önemsiyorsanız, tek bir model seçmek yerine model ortalamasında daha iyi olabilirsiniz.
  • Modele sığdırmak için kullanılan aynı veri kümesinde bir model seçerseniz, modeli önceden seçmiş olduğunuz varsayımındaki olağan çıkarım araçlarına / prosedürlerine zarar verir . (Adım adım regresyon yaptığınızı, çapraz doğrulama ile model boyutunu seçtiğinizi düşünün. Frequentist analiz için seçilen model için normal p değerleri veya CI yanlış olacaktır. seçim.)
  • Veri kümeniz düşündüğünüz model ailesine kıyasla yeterince büyükse, fazla sığdırma bir sorun bile olmayabilir ve model seçimi gereksiz olabilir. (Birkaç değişkenli ve çok fazla gözlem içeren bir veri kümesi kullanarak doğrusal bir regresyona uyacağınızı varsayalım. Herhangi bir sahte değişken, zaten 0'a yakın katsayılar tahmin etmelidir, bu yüzden belki de daha küçük bir model seçmenize bile gerek yoktur.)
  • Veri kümeniz yeterince küçükse, soruna "doğru" veya "en iyi" modele uyacak kadar yeterli veriye sahip olmayabilirsiniz. Bu durumda model seçimini iyi yapmak ne anlama geliyor? (Doğrusal regresyon dön: Meli hepinizin yeterince onları ölçmek için yeterli veriye sahip olmasa bile, doğru değişkenlerle "gerçek" modeli seçmek için hedeflemelidir sadece kendisi için büyük modeli almak do yeterli veriye sahip ?)
  • Son olarak, model seçimini yapabileceğiniz ve yapmanız gerektiğinde bile, çapraz doğrulama her derde deva değildir. Birçok varyantına ve hatta özelliklerini etkileyen kendi ayar parametresine (kat sayısı veya tren: test oranı) sahiptir. Bu yüzden körü körüne güvenme.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.