Neden hatanın normal olarak dağıtıldığını varsayıyoruz?


17

Hatayı modellerken neden Gauss varsayımını kullandığımızı merak ediyorum. In Stanford ML kursu Prof. Ng iki şekilde temelde bunu anlatır:

  1. Matematiksel olarak uygundur. (En Küçük Kareler montajı ile ilgilidir ve psödoinverse ile çözülmesi kolaydır)
  2. Merkezi Limit Teoremi nedeniyle, süreci etkileyen çok sayıda temel olgu olduğunu varsayabiliriz ve bu bireysel hataların toplamı sıfır ortalama normal dağılım gibi davranma eğiliminde olacaktır. Pratikte öyle görünüyor.

Aslında ikinci bölümle ilgileniyorum. Merkezi Limit Teoremi iid numuneleri için bildiğim kadarıyla çalışır, ancak alttaki numunelerin iid olmasını garanti edemeyiz.

Gauss yanılgısı varsayımı hakkında herhangi bir fikriniz var mı?


Hangi ortamdan bahsediyorsun? Sınıflandırma, regresyon mu yoksa daha genel bir şey mi?
tdc

Genel dava için soruyu sordum. Hikayelerin çoğu Gauss hata varsayımı ile başlar. Ancak, kişisel olarak, benim ilgim matris çarpanlarına ayırma ve doğrusal model çözümleridir (regresyon diyelim).
petrichor

Yanıtlar:


9

Sanırım soruda kafasına çiviyi vurdun, ama yine de bir şey ekleyip ekleyemeyeceğimi göreceğim. Buna biraz dolambaçlı bir şekilde cevap vereceğim ...

Sağlam İstatistikler alanı , Gauss varsayımı başarısız olduğunda ne yapılacağı sorusunu inceler (aykırı değerler olduğu için):

veri hatalarının normal olarak en azından yaklaşık olarak dağıtıldığı veya merkezi limit teoreminin normal olarak dağıtılmış tahminler üretmeye dayanabileceği varsayılmaktadır. Ne yazık ki, verilerde aykırı değerler olduğunda, klasik yöntemler genellikle çok düşük performansa sahiptir.

Bunlar ML'de de uygulanmıştır, örneğin Mika el al. (2001) Çekirdek Fisher Algoritmasına Matematiksel Programlama Yaklaşımı , Huber'in Sağlam Kaybının KDFA ile nasıl kullanılabileceğini açıklar (diğer kayıp fonksiyonlarıyla birlikte). Tabii ki bu bir sınıflandırma kaybıdır, ancak KFDA Alaka Vektör Makinesi ile yakından ilişkilidir (Mika belgesinin 4. bölümüne bakın).

Soruda da belirtildiği gibi, kayıp fonksiyonları ile Bayesci hata modelleri arasında yakın bir bağlantı vardır ( tartışma için buraya bakınız ).

Bununla birlikte, "korkak" kayıp işlevlerini dahil etmeye başlar başlamaz, optimizasyon zorlaşır (bunun Bayes dünyasında da gerçekleştiğine dikkat edin). Bu nedenle, çoğu durumda insanlar, optimizasyonu kolay olan standart kayıp işlevlerine başvurur ve bunun yerine verilerin modele uygun olmasını sağlamak için ekstra ön işlem yaparlar.

Bahsettiğiniz diğer nokta, CLT'nin sadece IID olan numuneler için geçerli olmasıdır. Bu doğrudur, ancak daha sonra çoğu algoritmanın varsayımları (ve beraberindeki analizler) aynıdır. IID olmayan verilere bakmaya başladığınızda, işler çok daha zorlaşır. Bir örnek zamansal bağımlılık varsa, bu durumda tipik olarak yaklaşım, bağımlılığın sadece belirli bir pencereye yayıldığını varsaymaktır ve bu nedenle numuneler bu pencerenin dışında yaklaşık IID olarak düşünülebilir (bkz. Örneğin bu parlak ama sert kağıt Kromatik PAC IID Olmayan Veriler için Sınır Sınırları: Sıralama ve Sabit β-Karıştırma İşlemlerine Uygulamalar ), daha sonra normal analiz uygulanabilir.

Yani, evet, kısmen kolaylık sağlamak için geliyor ve kısmen gerçek dünyada, çoğu hata (kabaca) Gauss'a benziyor. Varsayımların ihlal edilmediğinden emin olmak için yeni bir soruna bakarken elbette dikkatli olunmalıdır.


1
+1 Özellikle sağlam ve sağlam olmayan istatistiklerden bahsettiğiniz için çok teşekkür ederiz. Medyan ve alfa kesilmiş ortalamaların pratikte genellikle ortalamadan daha iyi çalıştığını gözlemliyorum, ancak arkasındaki teoriyi bilmiyordum.
petrichor

3
Normal olarak dağıtılan verilerle ilişkili diğer bir kolaylık maddesi de 0 korelasyonun bağımsızlık anlamına gelmesidir.
AdamO

3
IID-ness hakkındaki yorum pek doğru değil. Sonuçlar bağımsız ancak aynı şekilde dağıtılmadığında geçerli olan (birkaç) çok genel Merkezi Limit Teoremleri vardır; bakınız örn. Lindeberg CLT. Bağımsızlığa bile ihtiyaç duymayan CLT sonuçları da vardır; örneğin değiştirilebilir gözlemlerden kaynaklanabilir.
misafir
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.