İstatistiklerdeki 'büyük problemler' nedir?


77

Matematiğin, ünlü Millennium Problemleri (ve tarihsel olarak Hilbert'in 23 ), alanın yönünü şekillendirmeye yardımcı olan soruları vardır.

Bununla birlikte, Riemann Hipotezleri ve P ile NP'nin istatistiklerinin ne olacağı hakkında çok az fikrim var.

Öyleyse, istatistiklerdeki genel açık sorular nelerdir?

Eklemek için düzenlendi: Aradığım cevabın genel ruhunun (tam olarak belli değilse) bir örneği olarak, "21. Yüzyıldaki Matematik Zorluklar" konferansında David Donoho'nun "Hilbert'in 23" esinli bir konferansını buldum: Yüksek Boyutlu Veri Analizi: Curses ve Boyutluluğun Bereketleri

Bu nedenle, olası bir cevap büyük veriler ve neden önemli olduğu, istatistik türleri yüksek boyutlu veri pozları ve problemin çözülmesine yardımcı olması için geliştirilmesi gereken yöntemler veya cevaplanması gereken sorular hakkında konuşabilir.


5
Bunu gönderdiğiniz için teşekkür ederiz. Yapılması gereken önemli (ve ilham verici) bir tartışma.
whuber

Yanıtlar:


48

Bir büyük soru istatistiksel metodolojinin temel sorunları içermelidir ya, istatistik uygulamalar hakkında tamamen, bunun nedeni topluma önemli problemlerle nasıl kullanıldığını istatistik ilgilendirmelidir.

Bu karakterizasyon, aşağıdakilerin büyük problemlerin göz önünde bulundurulmasına dahil edilmesini önermektedir:

  • Nasıl iyi ilaç denemeleri yapmak . Günümüzde, klasik hipotez testleri birçok resmi çalışma aşaması gerektirmektedir. Daha sonraki (onaylayıcı) aşamalarda, ekonomik ve etik konular büyük görünmektedir. Daha iyisini yapabilir miyiz? Örneğin, yüzlerce veya binlerce hastayı kontrol grubuna koymak zorunda mıyız ve onları çalışmanın sonuna kadar orada tutmalı mıyız, yoksa gerçekten işe yarayacak tedavileri tanımlamanın daha iyi yollarını bulabilir miyiz (ve diğerleri)

  • Bilimsel yayın önyargısıyla baş etmek . Olumsuz sonuçlar çok daha az yayınlanır çünkü sadece sihirli bir p-değeri kazanmazlar. Tüm bilim dalları, bilimsel olarak önemli, sadece istatistiksel olarak anlamlı olmayan sonuçları ortaya çıkarmak için daha iyi yollar bulmalı . (Çoklu karşılaştırma problemi ve yüksek boyutlu verilerle başa çıkma bu problemin alt kategorileridir.)

  • İstatistiksel yöntemlerin sınırlarını ve bunların makine öğrenmesi ve makine bilişiyle olan arayüzlerini araştırmak . Bilgisayar teknolojisindeki kaçınılmaz gelişmeler, yaşam boyu gerçek AI'ları erişilebilir kılacaktır. Yapay beyinleri nasıl programlayacağız? Bu gelişmeleri yaratmada istatistiksel düşünme ve istatistiksel öğrenmenin rolü nedir? İstatistikçiler yapay biliş, düşünmeyi öğrenme, sınırlarını keşfetme ve ilerleme kaydetme konularında nasıl düşünebilirler?

  • Jeo uzamsal verileri analiz etmek için daha iyi yollar geliştirmek . Genellikle, veritabanlarının çoğunluğunun veya büyük çoğunluğunun, yerel referanslar içerdiği iddia edilir. Yakında birçok kişi ve cihaz GPS ve cep telefonu teknolojileriyle gerçek zamanlı olarak bulunacaktır. Mekansal verileri analiz etmek ve kullanmak için kullanılan istatistiksel yöntemler gerçekten başlangıç ​​aşamasındadır (ve tipik olarak istatistikçiler tarafından kullanılmayan GIS'e ve mekansal yazılıma indirgenmiş görünmektedir).


1
İnsanların bu sorunları çözmeye çalıştığı yöntemler nelerdir?
raegtin

3
@grautur: Bu dört mükemmel soru (artı cevabınız çok daha fazla, çünkü cevabınız bu konudaki her cevap için geçerli). Hepsi ayrıntılı cevapları hakediyor, ama belli ki burada buna yer yok: her seferinde bir soru, lütfen!
whuber

3
İlk kurşunu ilgili (ilaç deneyleri): Aksi NYTimes makale okumalısınız tıbbi deneylere ilgilenen olmayabilir insanlar bile Yeni İlaçlar Klinik Araştırmalar Temel Kuralları Tartışmasına Stir ( nytimes.com/2010/09/19/health/research/ … ). İstatistiksel olarak okuryazar olan okuyucu, deneysel tasarım ve karar vermede p-değerlerini kullanma konusundaki gösterilmeyen sonuçları hemen görecektir. Bir yerde, bu makalede açıklanan ölüm kalım meselesine ilişkin istatistiksel bir karar var.
whuber

26

Michael Jordan'ın Bayesian İstatistiklerinde Açık Problemler Nedir? Adlı kısa bir makalesi var. İçinde istatistiklerle ilgili açık sorunlara dair görüşleri için bir grup istatistikçiyi seçti. Burada biraz özetleyeceğim (aka, kopyala ve yapıştır), ancak orijinali okumak muhtemelen en iyisidir.

Parametrik olmayan ve semiparametrik

  • Bayesian nonparametrik hangi problemler için faydalı ve soruna değer mi?
  • David Dunson: "Parametrik olmayan Bayes modelleri sonsuz sayıda parametre içerir ve öncelikler, normalde makul bir değere ayarlanmamış hiperparametrelere uygun bir amaç veya öznel bir gerekçe olmaksızın kolaylık sağlamak için seçilir."
  • “Birçok kişi tarafından, sık-olmayan parametriklerin çekici uygulamalarından birinin, modelin parametrik olmayan bileşeninin bir sıkıntı parametresi olduğu, yarı-parametrik çıkarımda olduğu belirtildi. Bayesian semiparametri. "

Sabıkası

  • “Tahliye, temel bir açık sorun kaynağı olmaya devam ediyor.”
  • “Aad van der Vaart, kafasına Bayes'i çevirdi ve“ sadece bir Bayesyen yaklaşımını yumuşatmak için bir yaklaşım sağlama ”nın tersine,“ posterior'da bir kişinin daha önce gelmesini istediği durumlar ”teorisinin eksikliğine işaret etti.

Bayes / sık ilişkileri

  • "Birçok katılımcı Bayesian / sık görüşme ilişkilerini daha da güçlendirmek istediğini dile getirdi. Bu, en sık olarak, uygulanması zor olan önceliklerin tanımlanmasında öznel yaklaşımlar değil, kolaylık öncelikleri için sadece öznel yaklaşımlar olduğu yüksek boyutlu modeller ve veriler bağlamında ortaya kondu. (çok) yanıltıcı. "
  • “Bazı yanıt verenler, Bayesian yöntemlerinin varsayılan avantajlarını daha iyi ortaya çıkarabilecek asimptotik olmayan teoriye işaret ettiler; örneğin, David Dunson: "Sıklıkla, en uygun oran, sonlu örneklerde Bayesian yaklaşımlarından çok daha kötü performans gösteren prosedürlerle elde edilir." '

Hesaplama ve istatistik

  • Alan Gelfand: "MCMC, insanların ele almak istediği sorunlar için artık uygun değilse, INLA'nın, değişken yöntemlerin, ABC yaklaşımlarının rolü nedir?"
  • “Çok sayıda katılımcı, herhangi bir durumda ulaşabileceği çıkarımlar kümesinin birlikte bir model, fonksiyonun, verilerin ve hesaplama kaynaklarının ortak bir işlevi olduğunu belirterek, hesaplama bilimi ve istatistik biliminin daha kapsamlı bir entegrasyonunu istedi. Gerçekten de, bu miktarlar arasındaki değişimlerin net yönetimi için Rob Kass, bazı sorunların umudun ötesinde olduğu anlaşılan “çıkarımsal çözülebilirlik” kavramını ortaya koydu.“önemsiz gürültüye maruz kalan mütevazı miktarlarda veri için, modelde varlığı veya yokluğu önceden belirtilmemiş olan çok sayıda değişken olduğunda”, ve umut olan başka problemler de var (“yararlı güven aralıklarının olduğu belirli fonksiyoneller”). ”
  • “Bazı katılımcılar belli bir belirsizlikten dolayı özür dilerken, büyük miktarda verinin büyük miktarda hesaplama gerektirmeyeceği hissini ifade ettiler; aksine, büyük veride bulunan çıkarımsal gücün algoritmaya aktarılması ve bunu mümkün kılması gerektiği fikrini verdiler. Tatmin edici (yaklaşık) bir çıkarımsal çözüm elde etmek için daha az sayıda hesaplama adımını yapmak. "

Model Seçimi ve Hipotez Testleri

  • George Casella:. "Artık modeli seçimini yapmak ama Bayesians seçilen modele çıkarım dayandırılması özellikleri hakkında endişe görünmüyor yanlış ne olur belli parametre için inandırıcı bölgelerini kurma sonuçları nelerdir? zaman yanlış modeli seçtiniz mi? Bir çeşit garantili prosedürler yapabilir miyiz? "β1
  • Model seçiminde karar-teorik temeller üzerine daha fazla çalışmaya ihtiyaç vardır.
  • David Spiegelhalter: "Önceki / veri çeklerini en iyi nasıl yapmalı Bayesian analizinin ayrılmaz bir parçası?"
  • Andrew Gelman: "Model kontrolü için, önemli bir sorun, modelleri anlamak ve karşılaştırmak için grafiksel araçlar geliştirmektir. Grafikler yalnızca ham veriler için değil, karmaşık Bayesian modelleri daha iyi ve daha etkili keşif verileri analizi için fırsat verir."

13

Ne kadar büyük olduklarından emin değilim, ancak istatistiklerde çözülmemiş sorunlar için bir Wikipedia sayfası var . Onların listesi şunları içerir:

Çıkarım ve test

  • Sistematik hatalar
  • Graybill-Deal tahmincisinin kabul edilebilirliği
  • Meta-analizde bağımlı p-değerlerinin birleştirilmesi
  • Behrens – Fisher sorunu
  • Çoklu karşılaştırmalar
  • Bayes istatistiklerinde açık problemler

Deneysel tasarım

  • Latin karelerinde problemler

Daha felsefi bir doğa problemleri

  • Tür probleminin örneklenmesi
  • Kıyamet günü argümanı
  • Döviz paradoksu


4

Mathoverflow'un olasılık teorisindeki büyük problemler hakkında da benzer bir sorusu vardır .

Bu sayfadan, en büyük soruların kendi kendine rastgele yürüyüşlerden ve süzülmelerden kaçınmak ile ilgili olduğu anlaşılıyor.


1
Ancak istatistiklerin olasılık teorisinden ayrı bir alan olduğunu düşünüyorum.
raegtin

3
@raegtin - Olasılık teorisinin istatistiklerden ayrı olduğunu düşünmüyorum, teori olduğu kesin. "İstatistikler", olasılık teorisinin çıkarımsal problemlere (yani uygulama) uygulanmasıdır.
probabilityislogic


3

Benim cevabım, sık ve Bayes istatistikleri arasındaki mücadele olacaktır. İnsanlar size hangisine "inandığınızı" sorduğunda, bu iyi değil! Özellikle bilimsel bir disiplin için.


2
Bir bilim insanının bir şeye "inanması" ile ilgili hiçbir yanlış yoktur, özellikle de Bayesçi bir olasılık bazı önerilerin gerçeği ile ilgili inanç veya bilginin derecesini temsil eder.
Dikran Marsupial

2
... Sorun sadece bir bilim insanının bir inançla bir gerçek arasında ayrım yapamadığı durumlarda ortaya çıkar. Yanıtta karar verebilecek herhangi bir nesnel test olmadığı için Bayesçi veya sık sık istatistiklerin üstün olduğu inancında bilimsel olmayan hiçbir şey yoktur, bu nedenle seçim büyük ölçüde özneldir ve / veya "atlar için atlar" meselesidir.
Dikran Marsupial

@propofol - "İnanmak" kelimesinin istatistiklerde kullanmak için uygun bir kavram olmadığı konusunda hemfikir - yanlış çağrışım türlerini taşıyor. Bilgi çok daha uygun bir kelime olduğunu düşünüyorum (yani, "hangi bilgiye sahipsin?"). Bayes analizinin matematiğini ya da iyimserlik teoremlerini değiştirmez, ancak gerçekte nasıl kullanıldığı ile ilgili olarak onlara doğru anlamlarını verir. örneğin, bir fiziksel teori veya nedensel mekanizma bilgisi, inanç değil bilgidir.
probabilityislogic
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.