İstatistiğin dalları nedir?


30

Matematikte cebir, analiz, topoloji vb. Dallar vardır. Makine öğrenmesinde denetimli, denetimsiz ve pekiştirici öğrenme vardır. Bu dalların her birinde, yöntemleri daha da bölen daha ince dallar vardır.

İstatistiklerle paralel çizim yapmakta zorlanıyorum. İstatistiğin ana dalları (ve alt dalları) ne olurdu? Mükemmel bir bölüm mümkün değildir, ancak her şey büyük ve boş bir haritadan daha iyidir.

Görsel örnekler: görüntü tanımını buraya girin görüntü tanımını buraya girin


6
Sunmak henüz başka bu çözümsüz nedenini (ve belki de öncül yanlış neden,): Bu kötü etmektir (matematik gibi) sert, teorik bilimin nesnel anlaşılmaktadır genellemek yerine etmek uzmanım . Bu nedenle, başarılı bir soruşturmanın yörüngesini alana doğru görselleştireceksek, daha küçük, daha rafine dallara dalmış gibi görmeyiz, daha çok soyut kavramlara ve düşüncelere genişleyen bir mercek görüyoruz.
AdamO

@Rob Hyndman'ın cevabı hala üstümde duruyor gibi görünüyor. Burada herhangi bir sınıflandırma konusunda şüpheliyim. Ayrıca, bu herhangi biri için ortaya çıkan bir konu listesinin bir ağaç tabanlı sınıflandırmanın çok gerisinde kaldığını işaretlemek için olduğu kadar iyi bir yerdir. Ve dendrogramlar veya kuaför temsilleri hafifçe ilgi çekici olsa da, alanın manifoldu yapısını göstermenin ötesinde hangi gerçek kullanım veya ilgiye hizmet ediyorlar?
Nick Cox

Yanıtlar:


52

Bu sınıflandırma sistemlerini son derece yararsız ve çelişkili buluyorum. Örneğin:

  • sinir ağları denetimli bir öğrenme şeklidir
  • Matematik, diferansiyel geometride kullanılır
  • Olasılık teorisi küme teorisinin bir parçası olarak resmileştirilebilir

ve bunun gibi. Matematiğin kesin "dalları" yoktur ve istatistik olmamalıdır.


11
"sinir ağları denetimli bir öğrenme şeklidir". Bu da tamamen doğru değil, değil mi? Yani, denetlenen öğrenmede, denetimsiz öğrenmede ve hatta pekiştirici öğrenmede NN'ler kullanılabilir (ve kullanılır)! En azından sinir ağları kavramı (aralarında SL, UL ve RL olmak üzere çeşitli optimizasyon yöntemleri ile optimize edilebilecek sadece doğrusal olmayan bir fonksiyondur). Ama belki terminoloji kullandığınız şekilde kullanılır, bu durumda herkes doğru olabilir.
BlueRine S

7
Tabii, gerçek yok, ama bu gerçekten kullanışlı değil. OP'nin ihtiyaçlarını karşılayan bir model var mı?
Jay Schyler Raadt

3
Rob haklı. Karar ağaçları regresyonda kullanılır ve AdaBoost bir sınıflandırma yöntemidir ancak harita bunu göstermez.
Zen

4
İtiraf ediyorum, bu bakış açısını gerçekten anlamadım. Bir istatistik ders kitabı da, bir şekilde düzenlenmiş bölümlerinin sırasına sahip olmalıdır ve içindekiler sayfası bu organizasyonu yansıtır. İçindekiler sayfasının yapısı, en azından alan kavramlarının nasıl düzenlendiğine dair bazı bilgileri aktarır ve bunu bir görselleştirmenin izin verdiğinden çok daha sınırlı bir şekilde yapar. Eğer kimse alanın karmaşıklığını yakalamamasına rağmen ders kitabı içerik sayfalarının varlığı ile ilgili bir problem yaşamadığı takdirde, neden birinin OP'nin umduğu gibi bir görselleştirmeye itiraz ettiğini anlamıyorum.
mkt - Monica’yı

4
Ders kitapları hiyerarşik olarak yapılandırılmamıştır, doğrusal olarak yapılandırılmıştır. Kitabın ilerleyen bölümlerinde, ilk bölümler arasındaki bağlantılar genellikle daha önce ayrı olarak verilen konuların gerçekte birbirleriyle bağlantılı olduğunu göstererek geliştirilir. Örnek vermek gerekirse, daha sonraki bölümde verilen regresyon ve ARIMA modellerini birbirine bağlayan dinamik regresyon modellerini nerede tanıttığımızı tahmin etmek üzerine kendi ders kitabım.
Rob Hyndman

29

Bu, Rob Hyndman'ın cevabının küçük bir karşılığıdır. Bir yorum olarak başladı ve sonra biri için çok karmaşıklaştı. Bu ana soruyu ele almaktan çok uzaksa, özür dilerim ve silerim.


Biyoloji, Darwin'in ilk doodle'ından çok uzun zamandan beri hiyerarşik ilişkileri gösteriyor (Nick Cox'un bir link için yaptığı yoruma bakınız). Evrimsel ilişkilerin çoğu hala bu tür güzel, temiz, dallanan “filogenetik ağaç” ile gösterilmiştir:

görüntü tanımını buraya girin Ancak, nihayetinde biyolojinin bundan daha karışık olduğunu fark ettik. Bazen, ağacın bir kısmında bulunan farklı türler ve genler arasında, ağacın farklı bir yerine atlayan 'genleşme ve diğer işlemler yoluyla' genetik değişim söz konusudur. Yatay gen aktarımı , genleri etrafında basit ağaç betimlemesini yanlış yapacak şekilde hareket ettirir. Bununla birlikte, ağaçları terk etmedik, ancak bu tür görselleştirmede yalnızca değişiklikler yarattık:

Önceki şekille aynı, ancak gösterilen dallar arasında gen aktarımı

Bunu takip etmek daha zor, ama gerçekliğin daha kesin bir resmini aktarıyor.

Başka bir örnek:

görüntü tanımını buraya girin

Bununla birlikte, bu daha karmaşık rakamları asla başlatamayacağız, çünkü temel kavramları anlamadan kavramaları zordur. Bunun yerine, temel fikri basit şekille öğretiriz ve daha sonra onlara daha karmaşık şekil ve hikayenin yeni komplikasyonlarını sunarız.

Herhangi bir “istatistik haritası” aynı şekilde hem yanlış hem de değerli bir öğretim aracı olacaktır. OP formunun görselleştirilmesi, öğrenciler için çok faydalı olduğunu ve toplamda gerçeği yakalayamadıkları için göz ardı edilmemesi gerektiğini öne sürmektedir. Temel bir çerçeve oluşturduktan sonra resme daha fazla karmaşıklık ekleyebiliriz.


4
FWIW, organizmalar arasındaki ilişkilerin ağaç temsilleri uzun zamandır Darwin'i izlemektedir. Daha sonra bir referans ekleyeceğim.
Nick Cox

2
jhupbooks.press.jhu.edu/title/trees-life henüz bilimsel olarak çekici değil.
Nick Cox

3
Destekleyici bir argümandan çok zıt bir nokta değil: ağaçların geçerliliğini sorgulamak. En azından, filogenle, böyle bir yapı oluşturmak için verileri kullanırız, fosil kayıtları, gen ifadesi, herhangi bir şey olsun. Veriler olmadan, kimin yanlış bilgiyi yayan blokları ve okları seçme yetkisine sahip olduğunu ciddiye alıyoruz.,
AdamO

2
@AdamO Tek bir evrensel istatistik 'haritanın' olmasını beklemiyorum. İki kişinin farklı yapıları ve farklı bağlantı kümelerini kullanması tamamen mantıklıdır, ancak biri geniş yapının makul derecede sağlam olmasını bekler (bu noktada aynı veri kümesinden oluşturulan filogenetik ağaçlar arasında düşük seviye farklılıkları da olabilir. metaforu çok uzatma). Uzmanlığın (şu an için otorite kavramlarını bir yana koyarak) genel istatistik ders kitapları yazan ve hatta genel istatistikler öğreten birçok insan arasında bulunduğunu söyleyebilirim .
mkt - Monica’yı

2
Buradaki grafikleri, bunu düzeltecek kadar sevdim, ancak soruyu gerçekten yanıtlamıyor.
Nick Cox

24

Çapraz Doğrulanmış web sitesinin anahtar kelimelerine / etiketlerine bakabilirsiniz .


Bir ağ olarak şubeler

Bunu yapmanın bir yolu, anahtar kelimeler arasındaki ilişkilere dayanarak onu bir ağ olarak planlamaktır (aynı yazıda ne sıklıkta çakışırlar).

Sitenin verilerini almak için bu sql komut dosyasını kullandığınızda (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

Ardından, 2 veya daha yüksek puan alan tüm sorular için bir anahtar kelime listesi edinebilirsiniz.

Aşağıdakine benzer bir şey çizerek bu listeyi keşfedebilirsiniz:

Etiketler arasındaki ilişkiler

Güncelleme: renk ile aynı (ilişki matrisinin özvektörlerine dayanarak) ve kendi kendine çalışma etiketi olmadan

Etiketler arasındaki ilişkiler

Bu grafiği biraz daha temizleyebilirsiniz (örneğin, yazılım etiketleri gibi istatistiksel kavramlarla ilgili olmayan etiketleri çıkarın, yukarıdaki grafikte bu 'r' etiketi için zaten yapılmıştır) ve görsel gösterimi iyileştirin, ancak sanırım Yukarıdaki bu görüntü zaten güzel bir başlangıç ​​noktası gösterir.

R-kod:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

Hiyerarşik dallar

Yukarıdaki ağ grafiklerinin, tamamen dallanmış bir hiyerarşik yapıya yönelik eleştirilerin bir kısmı ile ilgili olduğuna inanıyorum. İsterseniz, onu hiyerarşik bir yapıya zorlamak için hiyerarşik bir kümeleme gerçekleştirebileceğinizi tahmin ediyorum.

Aşağıda böyle bir hiyerarşik model örneğidir. Biri hala çeşitli kümeler için uygun grup isimleri bulmaya ihtiyaç duyacaktır (ancak bu hiyerarşik kümelemenin iyi bir yön olduğunu sanmıyorum, bu yüzden onu açık bırakıyorum).

hiyerarşik kümeleme

Kümelenme için uzaklık ölçüsü deneme yanılma sonucu bulunmuştur (kümeler güzel görünene kadar ayarlamalar yapılmıştır.

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

StackExchangeStrike tarafından yazıldı.


2
Belki grafikleri daha düzenli hale getirmek için biraz çalışacağım. Bu web sitesindeki konuları gösteren net grafiklere sahip olmak güzel olabilir.
Sextus Empiricus

1
Bu harika bir yaklaşım! Güzel bitti.
Andrew Brēza

Renkli grafiğinizden üç büyük alan olasılık, regresyon ve makine öğrenmesidir.
Matt F.

@MattF. grafik aslında biraz problemli ve kullanım sıklığına daha çok karşılık geliyor. Matrisi, frekans ile ölçeklendirmeyi denedim (kovaryans matrisinden korelasyon matrisine geçiş gibi), ancak fazla değişmedi. 2B grafik yapıyı çok güzel göstermiyor ve yolları dizeler olarak gören fiziksel model, düğümleri altıgen / üçgen şeklinde (en verimli olan) yerleştiriyor.
Sextus Empiricus

1
Ben yığın akışında beş ana kategori olduğunu söyleyebilirim: olasılık, regresyon, makine öğrenmesi, aynı zamanda hipotez testleri ve zaman serileri.
Sextus Empiricus

9

Sorunuza cevap vermenin kolay bir yolu, ortak sınıflandırma tablolarına bakmaktır. Örneğin, 2010 Matematik Konu Sınıflandırması bazı yayınlar tarafından kağıtları sınıflandırmak için kullanılmaktadır. Bunlar önemlidir çünkü birçok yazar kendi makalelerini böyle sınıflandırır. görüntü tanımını buraya girin

Benzer sınıflandırmaların pek çok örnek vardır, örneğin arXiv sınıflandırma veya Rus eğitim bakanlığının UDK tüm yayınlar ve araştırmalar için yaygın olarak kullanılmaktadır (evrensel ondalık classifictaion).

görüntü tanımını buraya girin

Diğer bir örnek, Amerikan Ekonomik Birliği'nin JEL Claasification System . Rob Hyndman'ın makalesi " Otomatik zaman serileri tahmini: R için tahmin paketi ." JEL'e göre C53, C22, C52 olarak sınıflandırılmıştır. Hyndman'ın ağaç sınıflandırmalarını eleştirirken bir noktası var. Daha iyi bir yaklaşım etiketleme olabilir, örneğin, makalesinde anahtar kelimeler: "ARIMA modelleri, otomatik tahmin, üssel düzeltme, tahmin aralıkları, durum uzayı modelleri, zaman serileri, R." Bunların, hiyerarşik olmadıkları ve çoklu hiyerarşiler kurulabildiğinden, kağıtları sınıflandırmanın daha iyi bir yolu olduğu söylenebilir.

@whuber, makine öğrenmesi gibi son gelişmelerin mevcut sınıflandırmalarda istatistiklerin altında olmayacağına dair iyi bir noktaya değindi. Örneğin, Catherine F. Higham, Desmond J. Higham'ın " Derin Öğrenme: Uygulamalı Matematikçilere Giriş " adlı makaleye bir bakın . Makalelerini yukarıda belirtilen MSC'de 97R40, 68T01, 65K10, 62M45 olarak sınıflandırdılar. Bunlar bilgisayar bilimi, matematik eğitimi ve istatistiklere ek olarak sayısal analiz altındadır.


3
Bence bu, birçok yazardan makalelerini sınıflandırmasının nasıl istendiği olduğunu söylemenin daha doğru olacağını düşünüyorum . İşimde böyle bir priori kategorisini kullanmam istendiğinde asla tatmin olmadığımı biliyorum .
Alexis,

6
Bu, matematiksel istatistik dallarını tanımlamak için iyi bir temeldir . Bunun bilinmesi, kalanları tanımlamamıza yardımcı oluyor, bu da makine öğreniminin birçok bölümünü içeriyor. Gerçekten de, 2010 matematik dersi sınıflandırmasını "1950’deki istatistikleri" tanımlayarak tanımlamak ve daha sonra ortaya çıkan jeo-istatistik, genomik, önyükleme, vb. Her şeyi atmak doğru olabilir (bazıları eskilerin altına düşebilir) kategoriler, belki).
whuber

4

Soruna yaklaşmanın bir yolu, İstatistik Annals, Biometrika, JASA ve JRSS-B gibi istatistik dergilerindeki alıntı ve ortak yazarlık ağlarına bakmaktır. Bu tarafından yapıldı:

Ji, P., & Jin, J. (2016). İstatistikçiler için ortak yazarlık ve alıntı ağları. Uygulamalı İstatistik Annals, 10 (4), 1779-1812.

İstatistikçilerden oluşan toplulukları belirlediler ve etki alanı anlayışlarını, toplulukları şöyle etiketlemek için kullandılar:

  • Yüksek Boyutlu Veri Analizi (HDDA-Coau-A)
  • Teorik Makine Öğrenmesi
  • Boyut Azaltma
  • Johns Hopkins
  • dük
  • Stanford
  • Kantil regresyon
  • Deneysel tasarım
  • Amaç Bayes
  • Biyoistatistik
  • Yüksek Boyutlu Veri Analizi (HDDA-Coau-B)
  • Büyük Ölçekli Çoklu Test
  • Değişken Seçim
  • Mekansal ve Yarı Parametrik / Parametrik Olmayan İstatistikler

Rapor, daha büyük olanların diğer alt topluluklara ayrıştırılmasıyla birlikte toplulukların ayrıntılı bir tartışmasını içerir.

Bu, soruya tam olarak cevap vermeyebilir, çünkü artık aktif olmayanlar da dahil olmak üzere, tüm alanlardan ziyade istatistikçileri araştırma alanlarıyla ilgilidir. Umarım yine de yardımcı olur. Tabii ki, makalede daha fazla tartışılan başka uyarılar da var (sadece bu dört dergiyi göz önünde bulundurarak).


2
Bu web sitesi için bunu yapmayı düşünüyordum. “Ortak yazarlığı” aynı sorulara cevap veren / cevap veren kişiler olarak tanımlamak.
Sextus Empiricus,

@MartijnWeterings Evet, cevabınız bu yaklaşımla aynı yönde görünüyor!
user257566

2

Çok şaşırtıcı cevaplar görüyorum ve alçakgönüllü bir sınıflandırma sınıfının nasıl alınabileceğini bilmiyorum, ama özetini göstermek için tüm istatistiklerin bütünleyici bir kitabını bilmiyorum ve @ mkt brillantly yorumladı, bir çalışma alanının sınıflandırılması yararlı olabilir. Yani, işte benim atış:

  • tanımlayıcı istatistikler
    • basit çıkarım
      • basit hipotez testleri
    • komplo / veri görselleştirme
  • örnekleme tasarımı
    • deneysel tasarım
    • anket tasarımı
  • çok değişkenli istatistikler (denetimsiz)
    • kümeleme
    • bileşen analizi
    • gizli değişkenler modelleri
  • Doğrusal modeller (aslında çok değişkenli olan)
    • Sıradan en küçük kareler
    • genelleştirilmiş doğrusal modeller
      • logit modeli
    • diğer doğrusal modeller
      • Cox modeli
      • kuantil regresyon
    • çok değişkenli çıkarım
      • çoklu hipotez testi
      • düzeltilmiş hipotez testi
    • yapısal veri modelleri
      • karışık etki modelleri
      • uzaysal modeller
      • zaman serileri modelleri
    • doğrusal olmayan uzantılar
      • genelleştirilmiş katkı modelleri
  • bayesian istatistikleri (aslında listelenen birçok şey için bayesian yöntemleri var)
  • parametrik olmayan regresyon ve sınıflandırma
    • birçok makine öğrenme yöntemi buraya sığmaktadır

Tabii ki bu aşırı basitliktir, sadece alanı tanımayan birisine doğrudan bir fikir vermesi amaçlanmıştır, burada her birimiz kesinlikle buradaki kategoriler arasında yaptığım diğer birçok yöntem olduğunu biliyoruz. t Çünkü onlar daha az ünlüler ya da sadece unuttuğum için. Umarım beğenirsin.


1

Bu bilgiyi düzenlemenin bir yolu iyi bir kitap bulmak ve içindekiler tablosuna bakmaktır. Bu bir çelişkidir, çünkü özellikle istatistiklerden bahsettiniz, konuyla ilgili lisansüstü seviye metinlerinin çoğu birlikte istatistik ve olasılık teorisi içindir . Regresyonda okuduğum bir kitapta şu TOK var:

  • Sıkça Çıkarım
  • Bayesian Çıkarımı
  • Hipotez Testleri ve Değişken Seçimi
  • Doğrusal Modeller
  • Genel Regresyon Modelleri
  • İkili Veri Modelleri

  • Genel Regresyon Modelleri

  • Parametrik Olmayan Regresyon için Ön Hazırlıklar [… için bir öncü ...]
  • Spline ve Çekirdek Metodları
  • Çoklu Tahmin Edicilerle Parametrik Olmayan Regresyon

(Kalan bölümler matematiği ve olasılık teorisini desteklemektedir)

  • Matris İfadelerinin Farklılaşması
  • Matris Sonuçları
  • Bazı Doğrusal Cebir
  • Olasılık Dağılımları ve Üreten İşlevler
  • Normal Rasgele Değişkenlerin İşlevleri
  • Klasik İstatistiklerden Bazı Sonuçlar
  • Temel Büyük Örnek Teorisi

2
Bir iletmek için böyle bir kitap düşünebilirsiniz bir kısmını ait bir koluna bir disiplin. Tüm istatistiklerin ansiklopedik bir anketi olması iddiasında bulunmadığı sürece, bölüm başlıkları hemen hemen alanın ana dalları olarak kabul edilebilir!
whuber

3
@whuber kabul etti. Kitabın regresyonda olduğunu ve “istatistik” konusunda herhangi bir kitabın yeterince genel olduğunu veya bir istatistikçinin ortaya konulan konuları yeterli bulması için uygun düzeyde olduğunu düşünmemeye dikkat ettim. Bu özel örnek Wakefield'in metnindendir ve oldukça genel bir muameledir (örneğin, eşit olmayan değişkenlik tahmini olan T-testi, örneğin ikili değişkenli ve güçlü hata tahmini ile doğrusal regresyon bağlamında ele alınmıştır).
AdamO
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.