Belirli istatistiksel anlamları olan yaygın kelimeler


12

Ben istatistikçi değilim ama araştırmalarımda istatistikler (verileri analiz etme, literatür okuma vb.) Var. Burada yayınlanan sorularımdan birine yapılan bir yorumdan , istatistik alanında iyi uygulanmış kişiler için özellikle belirli anlamlara veya çağrışımlara sahip bazı ortak kelimeler olduğunu hatırlattım .

Bu tür kelimelerin bir listesine sahip olmak yardımcı olacaktır ve bazı yorumlarla birlikte ifadeler olabilir.


1
Topluluk Wiki'ye aday gibi geliyor .
Glen_b -Dica Monica

@Glen_b İstatistik veya matematikteki hemen hemen her terimin nitelendirilebileceği göz önüne alındığında, özellikle büyük bir taneye dönüşebilir. Bu sorunun kapsamını anlamlı bir şekilde daraltmanın bir yolu var mı?
whuber

3
@whuber Evet, aşırı genişleme tehlikesi var. "Yaygın olarak karışıklık yaratan" gibi bir şey kapsamı daraltmak için yeterli midir?
Glen_b

Yetkili istatistikçilerin normal olarak kendi ana dillerine hakim olduklarını ve profesyonel bir izleyiciye düzgün bir şekilde açıklanması gereken jargon kullandıklarının farkında olacaklarını düşünüyorum.
Robert Jones

@Glen_b Emin değilim. Bu o kadar geniştir ki, kapsanması gereken kelimelerin bir listesini zorlukla başlatabilirim: doğruluk, önyargı, kalibrasyon, ayrımcılık, sürekli, dağıtım, tehlike, hayatta kalma, spline, model, yanıt, önyükleme, ayarlama, küme, koşullu, güven, yoğunluk tahmin, değişken, kanonik, korelasyon, tahmin, çıkarım, sansür, risk, uyum, lojistik, sınırı, kapsama alanı, karıştırıcı, beklenmedik durum, yakınsama, yazışma, özgürlük , açıklanan [varyasyon], faktör, başarısızlık, doldurma, uygun, donatılmış, işlevi, ...
whuber

Yanıtlar:


12

" anlamlı " - burada kelimenin ortak dil kullanımı 'önemli' veya 'anlamlı' gibi bir şey ifade etmektir. İstatistiksel anlam gayri resmi olarak "sıfır ile ilgili rastgele varyasyondan ayırt edilebilir"; bu farkın önemli olduğu kadar büyük olduğu anlamına gelmez.

Bu ayrımın bazı karışıklıkların nedeni olabileceği bazı örnekler: 1 2

" parametre " - genellikle bilimsel deneylerde - 'parametre' kelimesinin bir istatistikçinin 'değişken' kelimesini kullanma biçiminde kullanıldığı görülür. Wikipedia bunu şöyle ifade eder:

İstatistiksel parametre, olasılık dağılımları ailesini indeksleyen bir parametredir. Bir popülasyonun veya bir modelin sayısal bir özelliği olarak kabul edilebilir

Bunun bir sorun olabileceği örnek: 1 - muhtemelen bu soruya yol açan yazı. (Son zamanlarda başka bir tanesini gördüm ama şu anda bulamıyorum)


11

"Hata" - İstatistiklerde genellikle gözlemlenen ve tahmin edilen değer arasındaki herhangi bir sapma anlamına gelir. Gerçek hayatta bu bir hata demektir.


11

2010'dan bu soruyu inceleyen hakemli bir makale buldum.

Anderson-Cook CM. Gizli jargon: İstatistiğe özgü anlamları olan günlük kelimeler. ICOTS8, Uluslararası İstatistik Öğretimi Konferansı, Ljubljana, Slovenya, 11-17 Temmuz 2010.

Makale çevrimiçi olarak ücretsiz olarak kullanılabilir , bu yüzden yazarın tartıştığı terimlerin sadece kısmi bir listesini sağlıyorum:

 confounding, control, factor, independent, random, uniform

10

Diğerleri "veri oluşturmaya" atıfta bulunduğumu düşünürken, "sahteciliği" kullanmanın "hipotezi yanlışlamak" gibi bir sorunla karşılaştım. Ayrıca “ önyargılı ” karışıklığa neden olmadan bahsetmek neredeyse imkansızdır.


6

"normal" - Genel konuşmada normal, olağan dışı değil, beklendiği gibi anlamına gelir. İstatistiklerde, bir değişken normal olarak dağıtılırsa, Gauss dağılımına atıfta bulunur. Ortak konuşma anlamından ayırmak için "normal" kelimesini büyük harfle yazmanın standart olduğuna inanmıyorum.

"normalleştirme / standartlaştırma" - İstatistiklerde, değişkenleri normalleştirmek, ortalamayı çıkarmak ve standart sapmaya bölmek anlamına gelir.

"standart hataya karşı standart sapma" - Standart sapma genellikle tüm popülasyon kullanılarak hesaplanırken standart hata örnek kullanılarak hesaplanır.


1
"Standart hata" nın, bu sözcüğün diğer kullanımlarından (gerçekten ifade) farklı istatistiksel anlamı olan "ortak [geleneksel, istatistiksel olmayan] bir kelime" olduğundan şüpheliyim. "Normalizasyon" ve "standart sapma" için aynen.
whuber

Belki "normalleşme" değil, "normal" iyi bir noktadır ve bu nedenle ulusal standartlar oluşturmak amacıyla yapılan testleri tanımlamak için kullanılan "standardize" olacaktır (örneğin, Eğitimde, örneğin Çocuk Bırakmadan Sonra ABD'de olduğu gibi) Arkası). "Standart sapmanın" karışıklığa neden olma olasılığının düşük olduğunu kabul ediyorum, ancak kendi başına ortak sapmada "sapmanın" olumsuz bir çağrışım (özellikle "sapma" ile eşanlamlı olarak) taşıma olasılığı daha yüksek olabilir.
Nick Stauner

SD ve SEM'i ayırt etmenin başka bir yolu: Standart sapma varyasyonu veya saçılmayı nicelleştirir. Standart bir hata, hesaplanan bir değerin hassasiyetini belirler.
Harvey Motulsky

@HarveyMotulsky Bence en iyi yol bir asteroit düşünmektir (düzensiz şekil). Asteroidin kütle merkezi nedir? Diğer tüm noktalardan eşit uzaklıkta olan noktadır. Bu ortalama. Standart sapma nedir? Her bir noktanın merkezden "ortalama" uzaklığı, bir boyut ölçüsüdür. SEM nedir? Asteroit merkezinin konumu hakkında ne kadar emin olduğunuzu söyler.
Flask

Ben standart hata "örnek" biraz talihsiz kullanılarak hesaplanan standart sapma olduğunu söyleyerek buldum. Bu benim için örnek varyansın karekökü olurken, standart hata bir test istatistiğinin standart sapmasıdır. Ayrıca, yukarıdaki terimlerden sadece "normal" gerçekten yaygın görünüyor. Ama sanırım bu normal ...
anlamına geliyor

2

"Parametrik" ve "Parametrik Olmayan" ile karşılaştırması: "Normal" veya "Normal değil" verileri gerektiren test kategorileri. Parametrik testler parametrik olmayanlara tercih edilir.

Yaygın testler: T testi (eşleştirilmiş), Mann-Whitney U, ANOVA, Anderson-Darling, vb.

Diğer terimler arasında "anlamlı" sayılabilir. Bu, verilerin hipotezinizin geçerli olup olmadığını gösterir. Hipotezinizi belirli bir olasılık derecesinde (normalde% 95) test ettiğinizde, 0.05'ten küçük bir "p-değeri", "sıfır hipotezinizi" (yani veri kümeleri farklı değildir) reddedeceğinizi ve " alternatif hipotez "(yani veri kümeleri farklıdır).


2

İstatistiklerde çarpıklık , dağılımda asimetrik anlamına gelir.

Sıradan bir dilde ve hatta bilim içinde bile, çarpıklık, "Ortalama yükseklik sonuçları çok fazla basketbol oyuncusu dahil edilerek çarpıtılır" ifadesinde olduğu gibi, genellikle istatistiki insanların genellikle önyargılı olarak adlandırılacağı anlamına gelir (ve giderek daha fazla?) .


2

Tahmin - İstatistiklerde bir hesaplamanın sonucudur. Örneğin, örnek ortalama popülasyon ortalamasının bir tahminidir ve bir ortalamanın güven aralığı popülasyon ortalamasının bir aralık tahminidir. Bunlar kesin hesaplamaların sonucudur. "Tahmin", bir örnekteki verilerden bir popülasyon hakkında çıkarım yapmaya çalışmanın kesin bir genellemesidir.

Normal kullanımda, tahmin kelimesi bilinçli bir tahmin veya önsezi veya yaklaşık bir hesaplamanın sonucu anlamına gelir.


2

θXL(θ|X)=Pr(X|θ)

Temsilci - hem gündelik hem de bilimsel görüşte bazen birbiriyle çelişen bazı anlamlara sahiptir. Kruskal & Mosteller bakın 1979a , 1979b , 1979c ve 1980 . Tanıdığım çoğu istatistikçi, bilinen olasılıkla örneklenmişse örnek bir temsilci düşünür; tanıdığım pek çok meslekten olmayan kişi, marjinal dağılımların topluma yakın olup olmadığını temsil eder.


2
  • Örnek : istatistiklerde bu bir dizi durumu ifade ederken, diğer birçok disiplinde örnek bir fiziksel örnektir . Tabii ki, numune boyutu da istatistiksel numunedeki vaka sayısına veya numunenin fiziksel boyutuna (kütle, hacim, ...) atıfta bulunur.

  • Hassasiyet : tıbbi teşhis için test tarafından tanınan hastalıklı vakaların fraksiyonu. Analitik kimyada: kalibrasyon eğrisinin eğimi (aşağıya bakınız).

  • Özgüllük : tıbbi teşhislerde, test tarafından doğru olarak tanınan hastalık dışı vakaların oranı. Analitik kimyada, çapraz duyarlılık yoksa bir yöntem spesifiktir.

  • Kalibrasyon : aslında, Wiki makalesinde istatistikler için zaten iki anlam listelenmiştir. Kimya ve fizikte, ters regresyon anlamı olağan olanıdır. Yine de karışıklık ortaya çıkar:

    • bencben=f(c)cc=f-1(ben)c=f(ben)
      cben
    • "Kalibrasyon grafikleri" (istatistik insanlar) denilen gerçek olasılık üzerinde tahmin edilen olasılık grafikleri gördüm. Analitik kimyada, karşılık gelen kalibrasyon grafiğinin ölçülen sinyal (genellikle başka bir birim) üzerindeki olasılığı tahmin edilir. Gerçek bağımlı değişken üzerinde öngörülen grafik genellikle kurtarma eğrisi olarak adlandırılır .
  • Doğrulama set : burada zaten doğar bence terimlerin potansiyel karışıklık kullanımına dikkat çekmek istiyorum içinde , farklı istatistik-ilgili alanlarda bile I olsa yine kontrast. Yuvalanmış / çift validasyon veya optimizasyona karşı validasyon / test bağlamında, bir terminoloji satırı eğitim - validasyon - testini böler ve hiperparametrelerin optimizasyonu için "validasyon" setini kullanır.
    Örneğin , İstatistiksel Öğrenme Unsurlarında, s. 2. baskıda 222. :

    ... veri kümesini üç bölüme ayırın: bir eğitim seti, bir doğrulama seti ve bir test seti. Eğitim seti modele uyacak şekilde kullanılır; doğrulama seti model seçimi için tahmin hatasını tahmin etmek için kullanılır; test seti, seçilen son modelin genelleme hatasının değerlendirilmesi için kullanılır.

    Buna karşılık, örneğin analitik kimya doğrulama model (aslında, nihai modelin değerlendirilmesi analitik yöntemin doğrulama sadece bir parçası) uygulaması için çalışır göstermektedir prosedür ve önlemler performans kadar, mesela bakınız John K. Taylor: Analitik yöntemlerin validasyonu, Analitik Kimya 1983 55 (6), 600A-608A veya FDA gibi kurumlar tarafından kurallar. Bu, "doğrulama" nın gerçekten optimizasyon için kullanıldığı diğer terminolojide "test etme" olacaktır.
    Önemli fark, "optimizasyon-validasyon" sonuçlarının modeli değiştirmek (seçmek) için kullanılırken, onaylanmış bir analitik yöntemdeki (veri analitik modeli dahil) değişiklikler yeniden doğrulamanız gerektiği anlamına gelir. (örneğin, yöntemin hala çalışması gerektiği gibi çalıştığını kanıtlayın).


Kimyagerlerle konuşmak zorunda kalırsanız, analitik kimya terminolojisine iyi bir referans Danzer: Analitik Kimya - Teorik ve Metrolojik Temeller, DOI 10.1007 / b103950

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.