Neden sağlam (ve dirençli) istatistikler klasik tekniklerin yerine geçmedi?


82

Verileri kullanarak iş sorunlarını çözerken, klasik istatistiklerin altını çizdiği en az bir anahtar varsayımın yaygın olduğu yaygındır. Çoğu zaman, hiç kimse bu varsayımları kontrol etmekte hiçbir sıkıntı çekmez.

Örneğin, ortak web metriklerinin çoğunun "uzun kuyruklu" olduğu (normal dağılıma göre) şimdiye dek çok iyi belgelendirildiği anlaşılmaktadır. Diğer bir örnek olarak, çevrimiçi topluluklar - binlerce üyeli topluluklarda bile, bu topluluğun çoğuna katkının / katılımın en büyük payının eksi bir 'süper katkı yapanlar' grubuna atfedildiği iyi belgelenmiştir. (Örneğin, birkaç ay önce, SO API beta kullanıma sunuldu hemen sonra, bir StackOverflow üyesi, API aracılığıyla toplanan verilerden kısa bir analiz yayınladı; onun conclusion-- SO az bir yüzde üyeleri çoğu için hesap SO’daki etkinlik (muhtemelen soru sorma ve cevaplama), geri kalanı% 1-2 oranında hesapladı ve üyelerin ezici çoğunluğu hiçbir şey yapmıyordu).

Bu tür dağılımlar - istisnadan ziyade kural daha sık - genellikle güç yasası yoğunluğu fonksiyonuyla modellenmiştir . Bu tür dağılımlar için merkezi limit teoremini bile uygulamak problemlidir.

Dolayısıyla, bu tür popülasyonların bolluğu analistlerin ilgisini çeken ve klasik modellerin bu veriler üzerinde gözle görülür derecede kötü performans gösterdiği ve sağlam ve dirençli yöntemlerin bir süredir (en az 20 yıl, sanırım) olduğu göz önüne alındığında - neden daha sık kullanılmıyorlar mı? (Bunları neden daha sık kullanmadığımı da merak ediyorum , ancak bu gerçekten CrossValidated için bir soru değil .)

Evet, tamamen sağlam istatistiklere ayrılmış ders kitapları bölümleri olduğunu biliyorum ve (birkaç) R Paketi olduğunu biliyorum (sağlam taban , aşina olduğum ve kullandığım).

Yine de bu tekniklerin bariz avantajları göz önüne alındığında, genellikle iş için daha iyi araçlar oldukları açıktır - neden daha fazla kullanılmıyorlar ? Klasik analoglara kıyasla daha sık (belki de önceden tahmin edilebilecek şekilde) kullanılan sağlam (ve dayanıklı) istatistikler görmeyi beklememeli miyiz?

Duyduğum tek önemli (yani teknik) açıklama, sağlam tekniklerin (dirençli yöntemler için de aynı şekilde) klasik tekniklerin gücünden / hassasiyetinden yoksun olmasıdır. Bunun bazı durumlarda gerçekten doğru olup olmadığını bilmiyorum, ancak birçok durumda doğru olmadığını biliyorum.

Son bir preemption kelimesi: evet, bu sorunun kesin ve doğru bir cevabı olmadığını biliyorum; Bu Sitede çok az soru var. Üstelik bu soru gerçek bir soruşturma; Bir bakış açısını ilerletmek için bahane değil - burada bakış açım yok, sadece bazı anlayışlı cevaplar için umduğum bir soru.


12
Nassim Nicholas Taleb'in Siyah Kuğu, finansal dünyada neden basit modellerin kullanıldığını ve bunun neden olduğu tehlikeleri açıklıyor. Özel bir hata, çok düşük olasılıkları sıfır ile eşitlemektir ve risk dağılımında normal dağılımı kör şekilde uygulamaktadır!
James

9
Birçok varsayıma dayanan testler, bu varsayımlar yerine getirildiğinde daha güçlüdür. Gözlemlerin IID Gaussian olduğunu farz edersek sapmanın önemini test edebiliriz; Daha az kısıtlayıcı bir varsayımlar seti bize medyanı kullanmamızı söyler. Daha ileri gidebilir ve gözlemlerin daha da sağlamlık elde etmek için ilişkilendirildiğini varsayabiliriz. Ancak her adım testimizin gücünü azaltır ve eğer hiçbir varsayımda bulunmazsak testimiz işe yaramaz. Sağlam testler örtük olarak veriler hakkında varsayımlarda bulunur ve yalnızca bu varsayımlar gerçeği daha iyi eşleştirdiğinde klasikten daha iyidir
Yaroslav Bulatov

Yanıtlar:


69

Araştırmacılar küçük p değerleri isterler ve daha güçlü dağıtım varsayımları yapan yöntemler kullanırsanız daha küçük p değerleri elde edebilirsiniz. Başka bir deyişle, sağlam olmayan yöntemler daha fazla makale yayınlamanıza izin verir. Elbette bu makalelerin çoğu yanlış pozitif olabilir, ancak bir yayın bir yayındır. Bu alaycı bir açıklama, ama bazen geçerli.


4
"bazen" bir understatement ... yazarların mantığı genellikle bu doğrudan değil ama teşvik / ödül senaryosu, insanların bunu şartlandırma olarak yapacakları
John

2
Araştırmacıların cehaletten hareket ettiği kadar dürüst değiller. Hangi istatistiklerin ne anlama geldiğini veya hangi varsayımları gerektirdiklerini anlamıyorlar, ancak dediğiniz gibi teşvik / ödülü açıkça anlıyorlar: p> 0.05 => yayın yok.
John D. Cook,

10
Ayrıca "iktidarda" olanların (karar vericiler, denetçiler, hakemler) anlayabileceği bir şey sunmalısınız. Bu nedenle, bu insanlar daha yaşlı ve değişime karşı daha dirençli olma eğiliminde olduklarından, çoğunlukla kariyerlerini geçersiz kılabildiklerinden, oldukça yavaş gelişen ortak dilde olmalı!
James

12
İyi bir nokta. "P-değerlerini anlıyorum. Sadece bana bir p-değeri ver." İronik olarak, muhtemelen do not p-değerlerini anlamak, ama bu başka bir mesele.
John D. Cook,

2
Bunun kategorik olarak doğru olduğuna inanmıyorum. En azından, modern parametrik olmayanların çoğu zaman çok az gücü feda ettiğini duydum. AFAIK, güç kaybı en sağlam yöntemler arasında neredeyse her yerde bulunan rütbe dönüşümleri içeren testlerde belirgindir.
Nick Stauner

42

Bu yüzden 'klasik modeller' (ne olursa olsun - ders kitaplarında öğretilen ve ML tarafından tahmin edilen basit modeller gibi bir şeyi kastediyorsunuzdur) bazı, belki de birçok gerçek dünya veri setinde başarısız.

Bir model başarısız olursa, düzeltmenin iki temel yaklaşımı vardır:

  1. Daha az varsayım yapın (daha az model)
  2. Daha fazla varsayımda bulun (daha fazla model)

Sağlam istatistikler, yarı olabilirlik ve GEE yaklaşımları, tahmin stratejisini modelin tüm veri noktaları için geçerli olmadığı (sağlam) veya verilerin tüm yönlerini (QL ve GEE) nitelendirmediği bir noktaya değiştirerek ilk yaklaşımı benimsemiştir.

Alternatif, tahmin yöntemini eskisi gibi tutarken, kirletici veri noktalarının kaynağını veya orijinal modelin yanlış göründüğü yönlerini açıkça modelleyen bir model oluşturmaya çalışmaktır.

Bazıları sezgisel olarak birincisini tercih ediyor (özellikle ekonomide popüler) ve bazıları sezgisel olarak tercih etmeyi tercih ediyor (özellikle ekonomi konusunda popüler olan Bayezliler arasında özellikle popüler, özellikle daha karmaşık modellerle daha mutlu olma eğilimi gösteriyorlar) yine de çıkarım).

Yağ kuyruklu dağıtım varsayımları, örneğin poisson yerine negatif binom veya normalden ziyade t kullanılması, ikinci stratejiye aittir. 'Sağlam istatistikler' etiketli birçok şey ilk stratejiye aittir.

Pratik bir mesele olarak, gerçekçi olarak karmaşık problemler için ilk strateji için tahmin edicileri türetmek oldukça zor görünmektedir. Bunu yapmamak için bir sebep değil, ama belki de neden sık sık yapılmadığının bir açıklaması.


4
+1. Çok iyi açıklama. Ayrıca, bazı "sağlam" yöntemlerin geçici olduğunu (kısaltılmış araçlar) ve "sağlam" yöntemin belirli bir yönüne bağlı olduğunu ve genel bir kalite olmadığını ancak birçok kişinin "sağlam" anlamına geldiğini "düşünüyorum" olduğunu düşünüyorum. Verilerim için endişelenmenize gerek yok çünkü yöntemim sağlam. "
Wayne,

Mükemmel cevap. Bu beni pek çok cevabın sağlam istatistiklerin anlaşılmasının zorluğuna veya varsayımların ihlal edilmemesini ihmal etmeye yönelik teşviklere odaklamak beni rahatsız ediyor. Sağlam istatistiklere ihtiyaç duyulan ve olmadıklarında vakalar olduğunu bilen insanları dışarıda görmezden geliyorlar.
Kenji

29

Bunun öğretmenlikte bir gecikme olduğunu söyleyebilirim. Çoğu insan kolejde veya üniversitede istatistik öğrenir. İstatistikler sizin birinci dereceniz değilse ve bunun yerine bir matematik veya bilgisayar bilimi derecesi varsa, muhtemelen sadece temel istatistik modüllerini kapsarsınız:

  1. olasılık
  2. Hipotez testi
  3. gerileme

Bu, bir sorunla karşılaştığınızda sorunu çözmek için bildiğiniz şeyi kullanmaya çalıştığınız anlamına gelir.

  • Veri Normal değil - günlükleri alır.
  • Verilerde rahatsız edici outliers var - bunları kaldırın.

Başka bir şeyle karşılaşmazsanız, daha iyisini yapmak zordur. Ne dendiğini bilmiyorsanız, Google’ı kullanarak bir şey bulmak gerçekten zor!

Tüm tekniklerle yeni tekniklerin süzülmesinin biraz zaman alacağını düşünüyorum. Standart istatistik müfredatının bir parçası olmak standart hipotez testlerini ne kadar sürdü?

Btw, istatistik derecesi ile hala öğretimde bir gecikme olacak - sadece daha kısa bir!


4
Ancak bu, en azından Psikolojide ilginç bir pedagojik problemi ortaya çıkarmaktadır, çünkü bildiğim kadarıyla, tarlamda kullanılan tanıtım istatistik kitaplarının bir kenara haricinde, sağlam önlemler hakkında gerçekten tartışmadığı görülmektedir.
russellpierce

3
Bu çok doğru ve aynı zamanda psikolojide parametrik olmayan ve normal olmayan arasındaki anlayışı engelleyen rahatsız edici bir karışıklık var.
richiemorrisroe

2
Bazılarımız psikologlar sadece istatistiksel her şey hakkında kafasını karıştırıyor! :)
Nick Stauner

21

İstatistiksel veri analizi konusunda makul düzeyde eğitim almış herkes , sağlam istatistik kavramlarını düzenli olarak kullanır. Çoğu araştırmacı ciddi aykırı ve veri kayıt hatalarını arayacak kadar bilgilidir; Şüpheli veri noktalarının kaldırılması politikası, Lord Rayleigh, GG Stokes ve onların yaşlarındaki diğerleriyle birlikte 19. yüzyıla kadar uzanıyor. Eğer soru şuysa:

Araştırmacılar neden konum, ölçek, regresyon vb. Tahminleri hesaplamada daha modern yöntemleri kullanmıyorlar?

sonra cevap yukarıda verilmiştir - yöntemler büyük ölçüde son 25 yılda 1985 - 2010, yani 1985 - 2010'da geliştirilmiştir. 'efsane' ile birleştirilen ataletin yanı sıra yeni yöntem faktörlerini öğrenme gecikmesi Klasik yöntemlerle kör olarak. John Tukey, kullandığınız sağlam / dirençli yöntemlerin önemli olmadığını, önemli olan bir kısmını kullanmanız olduğunu söylüyor. Hem klasik hem de sağlam / dirençli yöntemleri rutin olarak kullanmak tamamen uygundur ve yalnızca madde için yeterince farklı olduklarında endişe duyarlar. Ama farklı olduklarında , zor düşünmelisin .

Eğer öyleyse, soru şudur:

Araştırmacılar neden son derece dengesiz tahminler yapmak yerine kör bir şekilde durup veri hakkında soru sormuyor?

o zaman cevap gerçekten eğitime gelir. İstatistikler konusunda hiçbir zaman düzgün bir şekilde eğitilmemiş, p-değerlerinin genel olarak 'istatistiksel öneme sahip' olduğu ve hepsinin sonu olduğu şeklinde özetlenen çok fazla araştırmacı var.

@Kwak: 1970'lerden itibaren Huber'ın tahminleri olan kelimenin klasik anlamda sağlam: bunlar uç değerleri direnmek. Ve azalan tahmin ediciler gerçekte 1980'lerden önce iyi tarihleniyor: Princeton sağlamlık çalışması (1971'de) yerin bisquare tahminini, bir azalan tahminini içeriyordu.


2
projecteuclid.org/… Peter Huber tarafından John Tukey'in sağlam istatistiklere katkısı üzerine yazılmış ücretsiz bir belge. Oldukça kolay okunur, formüllere ışık.
Wesley Burr,

20

İstatistik, istatistiksel düşünmeyen araştırmacılar için bir araçtır ve sadece umursamıyorlar.

Bir keresinde eski karımın birlikte yazdığı bir Tıp makalesinde yardım etmeye çalıştım. Verileri, ne önerdiğini, niçin bazı gözlemlerin çalışmadan dışlandığını açıklayan birkaç sayfa yazdım ... ve lider araştırmacı, bir doktor, hepsini çöpe attı ve kendisinden bir p-değeri hesaplamasını istedi. (ve hemen hemen makaleyi okuyan herkes hakkında) değer verdi.


12

İki yönde cevap veriyorum:

  1. Sağlam olan şeyler mutlaka sağlam olarak etiketlenmemişlerdir. Her şeye karşı sağlamlığın var olduğuna inanıyorsanız, safsınız demektir.
  2. Sağlamlık sorununu ortadan kaldıran istatistiksel yaklaşımlar bazen gerçek dünyaya adapte edilmezler, ancak mutfağa benzeyen bir algoritmadan çok daha değerlidirler (kavram olarak).

Developpment

Birincisi, istatistik olarak (doğal olarak sağlam olan ve gerçek veriler üzerinde test edilen ve algoritmayı bulamadığınız gerçeği üzerinde test edilen R paketlerinde bulacağınız) bir sürü iyi yaklaşım olduğunu düşünüyorum "bir yerde bahsetmek, sağlam olmadığı anlamına gelmez. Neyse, sağlam olmanın evrensel olduğunu düşünürseniz, o zaman hiçbir zaman sağlam bir prosedür bulamazsınız (ücretsiz öğle yemeği yok), uyarlanmış aracı kullanmak veya uyarlanmış bir model oluşturmak için analiz ettiğiniz veriler hakkında biraz bilgi / uzmanlığa sahip olmanız gerekir.

Öte yandan, istatistikteki bazı yaklaşımlar sağlam değildir çünkü bunlar tek bir modele adanmıştır. Bazı şeyleri anlamaya çalışmak için laboratuvarda çalışmanın iyi olacağını düşünüyorum. Bizim çözümümüzün ne gibi bir problem olduğunu anlamak için problemi ayrı ayrı ele almak da iyidir. Gaussian model elocant örneği: Öyle çok eleştirilir ki, Gauss varsayımı hiçbir zaman yerine getirilmemiştir, ancak bugün pratikte kullanılan fikirlerin% 75'ini getirmiştir. Tüm bunların yayınlama veya yok olma kuralını takip etmek için kağıt yazma ile ilgili olduğunu düşünüyor musunuz (hoşuma gitmiyor, katılıyorum)?


11

Kendi araştırmam için biraz istatistik öğrenen biri olarak, nedenlerin pedagojik ve ataletsel olduğunu tahmin edeceğim.

Kendi alanımda, konuların öğretildiği sıranın alanın tarihini yansıttığını gözlemledim. İlk gelen fikirler önce öğretilir, vb. Sadece zorunlu eğitim için istatistiklere dalmış insanlar için, bu önce klasik istatistikleri ilk ve muhtemelen son öğrenecekleri anlamına gelir. Sonra, daha fazlasını öğrenmiş olsalar bile, öncelikli etkilerinden dolayı klasik şeylerle daha iyi sopa olurlar.

Ayrıca, herkes iki örnek t testinin ne olduğunu bilir. Mann-Whitney veya Wilcoxon Rank Sum testinin ne olduğunu herkes bilir. Bu, sağlam testimin ne olduğunu açıklamak için klasik bir testle herhangi bir şey yapmamaya zorlamak yerine sadece biraz enerji harcamam gerektiği anlamına geliyor. Bu koşullar elbette olması gerekenden daha az sayıda insanın sağlam yöntemler kullanmasıyla sonuçlanacaktır.


9

Wooldridge "Giriş Ekonometrisi - Modern Bir Yaklaşım" 2E s.261.

Eğer Heteroskedastisite-dayanıklı standart hatalar normal OLS standart hatalarından daha sık geçerliyse, neden normal standart hataları bizi rahatsız etmiyoruz? ve erros normalde dağıtılır, o zaman normal t-istatistiklerinin örneklem büyüklüğünden bağımsız olarak kesin t dağılımları vardır. Sağlam standart hatalar ve sağlam t istatistikler yalnızca örneklem büyüklüğü arttıkça haklı çıkarılır. Küçük örneklem büyüklükleriyle, sağlam t istatistiklerinin t dağılımına çok yakın olmayan ve çıkarımızı azaltan dağılımları olabilir. Büyük örneklem boyutlarında, kesitsel uygulamalarda sadece Heteroskedastiklik-sağlam standart hatalarını her zaman rapor etmek için bir dava açabiliriz,



7

Karşılıklı münhasır olmasalar da, Bayesian istatistiklerinin artan popülaritesinin bir parçası olduğunu düşünüyorum. Bayesian istatistikleri, önceki ve model ortalamalarını alarak aynı amaçların çoğuna ulaşabilir ve uygulamada biraz daha güçlü olma eğilimindedir.


6

İstatistikçi değilim, istatistik deneyimim oldukça sınırlı, sadece bilgisayar vizyonu / 3d rekonstrüksiyon / poz tahmininde sağlam istatistikler kullanıyorum. İşte sorun benim kullanıcı bakış açısıyla:

İlk olarak, sağlam istatistikler “sağlam istatistikler” olarak adlandırılmadan mühendislik ve bilimde çok kullandı. Pek çok insan sezgisel olarak kullanıyor, özel metodu gerçek dünya problemine uyarlama sürecinde geliyor. Örneğin, yinelemeli en küçük kareler ve en sık kullanılan en küçük kareler ve kesilmiş araçlar / en küçük kareler, yalnızca kullanıcının sağlam istatistikler kullandıklarını bilmediği anlamına gelir - yalnızca gerçek, sentetik olmayan veriler için uygulanabilir bir yöntem yapar.

İkincisi, hem "sezgisel" hem de bilinçli sağlam istatistikler, sonuçların doğrulanabilir olduğu ya da açıkça görülebilir hata ölçümlerinin bulunduğu durumlarda pratik olarak her zaman kullanılır. Eğer normal dağılımla elde edilen sonuç açıkça geçerli değilse veya yanlışsa, insanlar terimleri bilseler de bilmeseler de, ağır tahminciler kullanmaya başlarlar, kesmeye, örneklemeye, bazı kağıtları okurlar ve sağlam tahminciler kullanarak son bulurlar. Öte yandan, araştırmanın sonucu sadece bazı grafikler ve diyagramlar ise ve sonuçları doğrulamak için duyarsızlık yoksa ya da normal istatistik yeterince iyi sonuç verirse - insanlar rahatsız etmez.

Ve son olarak, sağlam istatistiklerin bir teori olarak kullanışlılığı hakkında - teorinin kendisi çok ilginç olsa da, genellikle pratik avantajlar sağlamaz. Sağlam tahmin edicilerin çoğu oldukça önemsiz ve sezgiseldir, çoğu zaman insanlar herhangi bir istatistiksel bilgi olmadan kendilerini yeniden icat ederler. Dağılım noktası kestirimi, asimptotik, veri derinliği, heteroskedacity vb gibi teori, verilerin daha derinden anlaşılmasını sağlar, ancak çoğu durumda sadece gereksizdir. En büyük istisnalardan biri, "çapraz buket" gibi bazı yeni pratik yöntemler üreten, sağlam istatistiklerin ve sıkıştırma algılamanın kesişimidir.


5

Sağlam tahmin ediciler hakkındaki bilgilerim yalnızca regresyon parametreleri için sağlam standart hatalar ile ilgilidir, bu yüzden yorumum yalnızca bu olanlar için olacaktır. İnsanların bu makaleyi okumasını öneririm.

"Huber Sandwich Tahmincisi" ve "Güçlü Standart Hatalar" Üzerine: Freedman, A. David Amerikan İstatistiği, Vol. 60, No. 4. (Kasım 2006), s. 299-302. doi: 10.1198 / 000313006X152207 ( PDF Sürümü )

Özellikle bu yaklaşımlarla ilgilendiğim şey onların yanlış olmadıkları değil, daha büyük sorunlardan uzaklaştığıdır. Bu yüzden Robin Girard'ın cevabına ve “bedava öğle yemeği” sözüne tamamen katılıyorum.


3

Sağlam istatistikler için gereken hesap ve olasılık (genellikle) daha zordur, bu nedenle (a) daha az teori vardır ve (b) kavraması daha zordur.


2

Ben görmek şaşırttı Gauss-Markov teoremi cevaplar, afaics bu uzun listede belirtilmeyen:

Küresel hataları olan doğrusal bir modelde (bu yol boyunca hiçbir aykırı değer varsayımı içermez, sonlu hata varyansı yoluyla), OLS doğrusal yansız tahmin edicilerin bir sınıfında etkilidir - altında (kısıtlayıcı, elbette) şartlar vardır " OLS'den daha iyisini yapamazsın ".

Neredeyse her zaman OLS kullanımını haklı çıkarması gerektiğini savunmuyorum, ama bunun nedenine kesinlikle katkıda bulunuyor (özellikle de öğretimde OLS'a odaklanmak için iyi bir bahane olduğu için).


Evet, ama varyansı en aza indirmenin ilgili kriter olduğunu varsayarız, ve bunun nedeni ağır kuyruklarda böyle olmayabilir!
kjetil b halvorsen

1
Elbette. Sadece, OLS'nin sağlam tekniklerin yerini almadığının anlaşılabilir sebepler listesine faydalı bir teknik olduğunu düşünmek için belki de en meşhur sebep olduğunu düşündüğüm şeyi eklemek istedim : değiştirmemesi gereken durumlar var.
Christoph Hanck

0

Tahminime göre, sağlam istatistikler asla yeterli değildir, yani sağlam olmak için bu istatistikler dağıtım hakkındaki bilgilerin bir kısmını atlar. Ve bunun her zaman iyi bir şey olmadığını düşünüyorum. Başka bir deyişle, sağlamlık ile bilgi kaybı arasında bir denge vardır.

median({1,2,3,4,5})=3=median({0.1,0.2,3,4000,5000})

1
Medyanın çok kırılgan olduğu ve ortalamanın çok iyi davranıldığı bir durum için bkz. Stats.stackexchange.com/questions/74113/… .
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.