Son 15 yılın İstatistiklerinde atılımlar nelerdir?


56

Friedman-Hastie-Tibshirani tarafından Güçlendirmeye İlişkin Annals İstatistik raporunu ve diğer yazarların (Freund ve Schapire dahil) aynı konularda yaptığı yorumları hala hatırlıyorum. O zaman, açıkça Boostting birçok açıdan bir atılım olarak görülüyordu: hesaplama açısından uygulanabilir, mükemmel ama gizemli bir performansa sahip bir topluluk yöntemi. Aynı zaman zarfında SVM, sağlam teori ve bol miktarda değişken ve uygulama ile desteklenmiş bir çerçeve sundu .

Bu muhteşem 90'lı yıllarda oldu. Geçtiğimiz 15 yılda, bana birçok İstatistiğin bir temizlik ve detaylandırma operasyonu olduğu, ancak çok az yeni bakış açıları olduğu görünüyor.

Bu yüzden iki soru soracağım:

  1. Bazı devrimci / seminal kağıtları özledim mi?
  2. Olmazsa, istatistiksel çıkarım bakış açısını değiştirme potansiyeline sahip olduğunu düşündüğünüz yeni yaklaşımlar var mı?

Kurallar:

  1. Gönderi başına bir cevap;
  2. Referanslar veya linkler hoş geldiniz.

Not: Gelecek vaat eden gelişmeler için birkaç adayım var. Onları daha sonra gönderirim.


5
Bkz stats.stackexchange.com/q/1883/159 (sübjektif ve tartışmacı olarak kapatıldı) benzer bir soru için.
Rob Hyndman

1
Aynı ipliği çıkarmak üzereydim. Bir kopya gibi kokuyor.
Dirk Eddelbuettel

1
Subjektif, elbette, ama hala CW için uygun değil mi?
Christopher Aden,

1
Bu daha uzun bir ölçekte oldu. Bunun bir kopya olduğunu sanmıyorum. Tartışmacı gelince, katılımcılara kalmış. Ben burada ödül almaya çalışmıyorum, sadece ben ve başkalarının kaçırmış olabileceği seminal makaleleri takip etmek için. Doğru cevap olmadığından, ben bir CW için varım. Şimdiye kadar tüm cevapların bayesyen yeniliklerle ilgili olduğunu ilginç buluyorum.
gappy

2
Bu, dedesi olabilecek bir postaya benziyor. Bence bu açık kalabilir.
dediklerinin - Monica Yeniden

Yanıtlar:


43

Cevap o kadar basit ki, özgeçmişi yayınlamama izin vermek için bütün bu saçmalıkları yazmam gerekiyor: R


14

Başına "atılım" diyeceğinden emin değilim, fakat Olasılık Teorisinin Yayınlanması : Bilim Mantığı Edwin Jaynes ve Larry Bretthorst tarafından dikkat çekici olabilir. Burada yaptıkları şeylerden bazıları:

1) bazı yinelemeli "mevsimsel ayar" şemaları ve Bayesian "sıkıntı parametresi" entegrasyonu arasındaki denkliği göstermektedir.

2) “Marjinalleşme Paradoksu” olarak adlandırılan - bazılarının "bayesilikçiliğin ölümü" ve diğerleri tarafından "uygunsuz öncelerin ölümü" olduğu düşünüldü.

3) Olasılığın , dünyanın fiziksel bir özelliğini tanımlamak yerine, doğru ya da yanlış bir önermeyle ilgili bir bilgi durumu tanımladığı fikri .

Bu kitabın ilk üç bölümü burada ücretsiz olarak verilmektedir .


2
Ne yazık ki, Jaynes'in marjinalleşme paradoksu konusundaki kararı hatalıydı. Kevin Van Horn'un Bkz Marjinalleşme Paradox Jaynes en Tedavisi ile ilgili notlar , mevcut burada .
Cyan

1
@cyan - Kararının bazı alanlarda kusurlu olmasına rağmen, temel ilkelerinin çözdüğünü unutmayın. Genel öncelikli kurallar ve bunların yakınsak sınırları, mp'nin oluşamayacağı anlamına gelir. Kusur, kitabın ikinci bölümün çoğunda bitmemiş olmasından kaynaklanmaktadır. [Burada] çözünürlüğünü ( arxiv.org/abs/math/0310006 ) ksvh versiyonundan daha çok seviyorum. daha kısa ve daha genel.
Olasılıksal

14

Uygulamalı bir istatistikçi ve arada bir küçük yazılım yazarı olarak şunu söyleyebilirim:

WinBUGS (1997’de yayımlandı)

15 yıldan daha uzun bir süre önce piyasaya sürülen BUGS'a dayanıyor (1989), ancak çok daha geniş bir kullanıcı tabanına yönelik gerçekçi bir şekilde karmaşık modellerin Bayesian analizini yapan WinBUGS. Bakınız örneğin Lunn, Spiegelhalter, Thomas & Best (2009) (ve Tıp İstatistikleri, cilt 28, Sayı 25'deki tartışma ).


2
Bu şimdi nasıl değişiyor Stan?
Ari B. Friedman

13

kii


Hiç LARS kullandınız mı? Soruyorum çünkü bunu daha önce hiç duymamıştım ve bu gerçekten ilginç görünüyor. Orijinal makale biraz uzun (93 sayfa) bu yüzden derinlemesine girmeden önce biraz fikir edinmek istiyorum.
Tomek Tarczynski

@Tomek Tarczynski: Az miktarda kullandım. Kullandığım Matlab'da bir paket var (R'de bir veya daha fazla olduğundan eminim). Ayrıca daha fazla ilgilendiğim çok az PCA sağlıyor. Sadece kağıdı inceledim. ;)
35'te perişan

11

“İçsel tutarsızlık” kayıp fonksiyonunun ve diğer “parametreleşme serbest” kayıp fonksiyonlarının karar teorisine getirilmesi. Diğer birçok "güzel" özelliğe sahip, ancak en iyisini şu şekilde olduğunu düşünüyorum:

θθeθg(θ)g(θe)

Bence bu çok havalı! (örneğin, log-odds'ın en iyi tahmini log (p / (1-p)), en iyi varyans tahminleri standart sapma kareleridir vs.)

Yakalayış? içsel tutarsızlığı çözmek oldukça zor olabilir! (min () işlev, olasılık oranı ve integralleri içerir!)

"Karşı-yakalama"? hesaplamak daha kolay olacak şekilde sorunu "yeniden" ayarlayabilirsiniz.

"Karşı-karşı-yakala" mı? Sorunun nasıl "yeniden düzenleneceğini" bulmak zor olabilir!

İşte bu kayıp fonksiyonunu kullanan bazı referanslar. Bu makalelerin / slaytların "içsel tahmin" kısımlarını çok sevmeme rağmen, aynı zamanda açıklanan "referans önceliği" yaklaşımı hakkında bazı çekincelerim var.

Bayes Hipotezi Testi: Referans Bir Yaklaşım

İçsel Tahmini

Normal Ortalamaların Karşılaştırılması: Eski Bir Problem İçin Yeni Yöntemler

Bütünleşik Amaç Bayesian Kestirimi ve Hipotez Testi



9

Kendi 5 kurumu ekleyerek, son 15 yılın en önemli atılımının Sıkıştırma Algılama olduğuna inanıyorum. LARS, LASSO ve bir dizi başka algoritma bu alana girer; Sıkıştırılmış Algılama neden çalıştıklarını açıklar ve bunları diğer alanlara da genişletir.


1
Sıkıştırılmış Algılama'ya baktım ve istatistikçi olmayan biri olarak kendime “Bu sadece rastgele ters projeksiyon değil mi?” Diye sormaya devam ediyorum. "Sadece" atmanın kolay bir kelime olduğunu biliyorum, ancak insanların rastgele projeksiyon (2000 dolaylarında) ve sıkıştırılmış algılama (2004 dolaylarında) arasındaki bariz bağlantı gibi görünen şeyleri bıraktıklarını hissediyorlar.
Wayne

9

İstatistikleri kendileri ile çok az yapmakta olan, ancak büyük ölçüde yararlı olan bir şey: Bilgisayarların artan ateş gücü, daha büyük veri kümelerini ve daha karmaşık istatistiksel analizleri, özellikle de uygulamalı alanlarda daha erişilebilir hale getirme.


8

Özellikle Gaussian Süreci sınıflandırmalarında Bayesci çıkarım için Beklenti-Yayılım algoritması, neredeyse hesaplamalı olarak pahalı olan örnekleme temelli yaklaşımların (olağan Laplace yaklaşımının aksine) çalışmasının yanında etkili bir analitik yaklaşım yöntemi sağladığı için tartışmasız önemli bir atılımdı. EP yol haritasındaki Thomas Minka ve diğerlerinin çalışmalarını görün


EP havalı görünüyor (hala kafamı ağrıtıyor olsa da). Hala genel yakınsama garantisi yok mu?
conjugateprior



2

İstatistiklerden biraz daha genel olsa da, yeniden üretilebilir araştırma yöntemlerinde (RR) önemli gelişmeler olduğunu düşünüyorum . Örneğin, R’lerin gelişimi knittrveSweavepaketler ve "R Markdown" notebooklar, LyX ve LaTeX geliştirmeleri, veri paylaşımına, işbirliğine, doğrulama / doğrulama ve hatta ek istatistiksel ilerlemeye önemli ölçüde katkıda bulunmuştur. İstatistiksel, tıbbi ve epidemiyolojik dergilerdeki hakemli makaleler, bu yeniden üretilebilir araştırma yöntemleri / teknolojilerinin ortaya çıkmasından önce nadiren sonuçların kolayca çoğaltılmasını sağlamıştır. Şimdi, birkaç dergi tekrarlanabilir bir araştırmaya ihtiyaç duyuyor ve birçok istatistikçi web üzerinde RR ve posta kodu, sonuçları ve veri kaynaklarını kullanıyor. Bu aynı zamanda veri bilimi disiplinlerini geliştirmeye yardımcı oldu ve istatistiksel öğrenmeyi daha erişilebilir hale getirdi.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.