Verileri kullanarak iş sorunlarını çözerken, klasik istatistiklerin altını çizdiği en az bir anahtar varsayımın yaygın olduğu yaygındır. Çoğu zaman, hiç kimse bu varsayımları kontrol etmekte hiçbir sıkıntı çekmez.
Örneğin, ortak web metriklerinin çoğunun "uzun kuyruklu" olduğu (normal dağılıma göre) şimdiye dek çok iyi belgelendirildiği anlaşılmaktadır. Diğer bir örnek olarak, çevrimiçi topluluklar - binlerce üyeli topluluklarda bile, bu topluluğun çoğuna katkının / katılımın en büyük payının eksi bir 'süper katkı yapanlar' grubuna atfedildiği iyi belgelenmiştir. (Örneğin, birkaç ay önce, SO API beta kullanıma sunuldu hemen sonra, bir StackOverflow üyesi, API aracılığıyla toplanan verilerden kısa bir analiz yayınladı; onun conclusion-- SO az bir yüzde üyeleri çoğu için hesap SO’daki etkinlik (muhtemelen soru sorma ve cevaplama), geri kalanı% 1-2 oranında hesapladı ve üyelerin ezici çoğunluğu hiçbir şey yapmıyordu).
Bu tür dağılımlar - istisnadan ziyade kural daha sık - genellikle güç yasası yoğunluğu fonksiyonuyla modellenmiştir . Bu tür dağılımlar için merkezi limit teoremini bile uygulamak problemlidir.
Dolayısıyla, bu tür popülasyonların bolluğu analistlerin ilgisini çeken ve klasik modellerin bu veriler üzerinde gözle görülür derecede kötü performans gösterdiği ve sağlam ve dirençli yöntemlerin bir süredir (en az 20 yıl, sanırım) olduğu göz önüne alındığında - neden daha sık kullanılmıyorlar mı? (Bunları neden daha sık kullanmadığımı da merak ediyorum , ancak bu gerçekten CrossValidated için bir soru değil .)
Evet, tamamen sağlam istatistiklere ayrılmış ders kitapları bölümleri olduğunu biliyorum ve (birkaç) R Paketi olduğunu biliyorum (sağlam taban , aşina olduğum ve kullandığım).
Yine de bu tekniklerin bariz avantajları göz önüne alındığında, genellikle iş için daha iyi araçlar oldukları açıktır - neden daha fazla kullanılmıyorlar ? Klasik analoglara kıyasla daha sık (belki de önceden tahmin edilebilecek şekilde) kullanılan sağlam (ve dayanıklı) istatistikler görmeyi beklememeli miyiz?
Duyduğum tek önemli (yani teknik) açıklama, sağlam tekniklerin (dirençli yöntemler için de aynı şekilde) klasik tekniklerin gücünden / hassasiyetinden yoksun olmasıdır. Bunun bazı durumlarda gerçekten doğru olup olmadığını bilmiyorum, ancak birçok durumda doğru olmadığını biliyorum.
Son bir preemption kelimesi: evet, bu sorunun kesin ve doğru bir cevabı olmadığını biliyorum; Bu Sitede çok az soru var. Üstelik bu soru gerçek bir soruşturma; Bir bakış açısını ilerletmek için bahane değil - burada bakış açım yok, sadece bazı anlayışlı cevaplar için umduğum bir soru.