Sanırım soruda kafasına çiviyi vurdun, ama yine de bir şey ekleyip ekleyemeyeceğimi göreceğim. Buna biraz dolambaçlı bir şekilde cevap vereceğim ...
Sağlam İstatistikler alanı , Gauss varsayımı başarısız olduğunda ne yapılacağı sorusunu inceler (aykırı değerler olduğu için):
veri hatalarının normal olarak en azından yaklaşık olarak dağıtıldığı veya merkezi limit teoreminin normal olarak dağıtılmış tahminler üretmeye dayanabileceği varsayılmaktadır. Ne yazık ki, verilerde aykırı değerler olduğunda, klasik yöntemler genellikle çok düşük performansa sahiptir.
Bunlar ML'de de uygulanmıştır, örneğin Mika el al. (2001) Çekirdek Fisher Algoritmasına Matematiksel Programlama Yaklaşımı , Huber'in Sağlam Kaybının KDFA ile nasıl kullanılabileceğini açıklar (diğer kayıp fonksiyonlarıyla birlikte). Tabii ki bu bir sınıflandırma kaybıdır, ancak KFDA Alaka Vektör Makinesi ile yakından ilişkilidir (Mika belgesinin 4. bölümüne bakın).
Soruda da belirtildiği gibi, kayıp fonksiyonları ile Bayesci hata modelleri arasında yakın bir bağlantı vardır ( tartışma için buraya bakınız ).
Bununla birlikte, "korkak" kayıp işlevlerini dahil etmeye başlar başlamaz, optimizasyon zorlaşır (bunun Bayes dünyasında da gerçekleştiğine dikkat edin). Bu nedenle, çoğu durumda insanlar, optimizasyonu kolay olan standart kayıp işlevlerine başvurur ve bunun yerine verilerin modele uygun olmasını sağlamak için ekstra ön işlem yaparlar.
Bahsettiğiniz diğer nokta, CLT'nin sadece IID olan numuneler için geçerli olmasıdır. Bu doğrudur, ancak daha sonra çoğu algoritmanın varsayımları (ve beraberindeki analizler) aynıdır. IID olmayan verilere bakmaya başladığınızda, işler çok daha zorlaşır. Bir örnek zamansal bağımlılık varsa, bu durumda tipik olarak yaklaşım, bağımlılığın sadece belirli bir pencereye yayıldığını varsaymaktır ve bu nedenle numuneler bu pencerenin dışında yaklaşık IID olarak düşünülebilir (bkz. Örneğin bu parlak ama sert kağıt Kromatik PAC IID Olmayan Veriler için Sınır Sınırları: Sıralama ve Sabit β-Karıştırma İşlemlerine Uygulamalar ), daha sonra normal analiz uygulanabilir.
Yani, evet, kısmen kolaylık sağlamak için geliyor ve kısmen gerçek dünyada, çoğu hata (kabaca) Gauss'a benziyor. Varsayımların ihlal edilmediğinden emin olmak için yeni bir soruna bakarken elbette dikkatli olunmalıdır.