En kafa karıştırıcı istatistiksel terimler


47

Biz istatistikçiler, pek çok kelimeyi, başkalarının kullandıklarından biraz farklı şekillerde kullanıyoruz. Bu ne yaptığımızı öğrettiğimiz veya açıkladığımız zaman birçok soruna neden olur. Bir liste başlayacağım (ve şimdi yorum başına bazı tanımlar ekleyeceğim):

  • Güç, yanlış bir boş hipotezi doğru bir şekilde reddetme yeteneğidir. Genellikle, bu doğru "bir şeyler oluyor" demek anlamına gelir.
  • Önyargı - bir istatistik, kendisiyle ilişkilendirilen popülasyon parametresinden sistematik olarak farklıysa önyargılıdır.
  • Önem: - aşağıdaki durumda sonuçlar bir yüzde (çoğu zaman% 5) düzeyinde istatistiksel olarak anlamlıdır: Eğer örneklemin geldiği popülasyon 0'ın gerçek bir etkisine sahipse, en azından örneklemden elde edilenin en az olduğu bir istatistik meydana gelecektir. Zamanın% 5'i.
  • Etkileşim - Bağımlı değişken ile bir bağımsız değişken arasındaki ilişki diğer bağımsız değişkenin farklı seviyelerinde farklı ise iki bağımsız değişken etkileşime girer.

Fakat başkaları da olmalı!


5
İnsanların cevaplarına daha fazla bağlam eklemelerini öneririm. Örnekler, farklı alanlarda farklı şekilde kullanılan aynı sözcük (sabit etkiler Gelman, 2005 ) veya farklı bağlamlarda farklı anlamlara sahip sözcükler olabilir (anlamlılık ve istatistiksel anlamlılık Bushway ve diğerleri, 2006 ).
Andy,

5
Cevap verenlerin bir ya da iki cümle ile "teknik" teriminin gerçekte ne anlama geldiğini ya da farklı bir anlama sahip olmalarının algılanmasına neden olabileceklerini açıklamak iyi olurdu.
chl

Cevabımı daha sonra ;-)
ocram'daki

1
... ve "korelasyon"!
Stéphane Laurent

Yanıtlar:


21

Hem ortak bir İngilizce kullanım anlamı vardır, çünkü "Anlamlı" Ben girmek en büyüğü ve bu anlam araştırma sonuçlarının tartışılması da ortaya çıkacak. İstatistiki sonuçlar hakkında konuştuğum aynı cümle içinde kendimi "anlamlı" olarak karıştırırken bile önemli buluyorum.

Bu şekilde delilik yatıyor.


Doğru, ama daha iyi bir kelime yok, "Çok önemli olduğuna eminim, ancak üzerinde herhangi bir test yapmadım, ve yapmayacağım, çünkü açık / yapamıyorum / ne olursa olsun"
naught101

17

Listeye Linear eklemenizi tavsiye ederim.

YXYY^=aX+babE[(YaXb)2]

“Dilinizden biraz rahatsızlık duyuyorum, çünkü“ doğrusal ”kelimesini bu şekilde kullanmanın popüler yanlış anlaşılmaya neden olacağından korktuğumdan, lineer regresyonda lineer regresyonun lineer regresyonun bir çizgiye uyması sebebinin sebebi olduğunu düşünüyorum. Sonra bir istatistikçi, biri parabol ya da sinüs dalgasına uyduğunda doğrusal regresyon yapmakta ısrar ettiğinde kafa karıştırıcı bulur. "

Peki, doğrusal regresyon istatistikçi için ne anlama geliyor?


5
Bu cevabı referans olarak sitedeki ilgili soru, Doğrusal regresyonda doğrusal ne demektir?
Andy,

1
@AndyW Öyleyse, Linear'ın Peter Flom'un başlattığı listede yer aldığını mı söylüyorsunuz?
Dilip Sarwate

1
evet bu listenin faturasına uyduğunu kabul ediyorum. (+1)
Andy,

4
Listeye uyuyor, ancak olağandışı bir nedenden dolayı: "Doğrusal" teriminin anlamı iyi kurulmuş ve birçok matematik odaklı alanda tutarlı bir şekilde kullanılıyor. Potansiyel karışıklık , formülün hangi kısmının doğrusal olduğu ile ilgilidir.
whuber

Bir parabole nasıl uyduğuna ve yine de ona doğrusal bir model dediğine dair bir örnek verebilir misiniz?
oneloop

14

olasılık

Bana göre bu, hipotez testlerini ve güven aralıklarını yorumlama ile ilgili sorunların çoğunun, işlem sık sık olanı temel aldığında Bayesian "olasılık" tanımının uygulanmasından kaynaklanıyor gibi görünüyor. Örneğin, p değeri, boş hipotezin olasılığıdır, AFAICS, sıklıkça bir ortamda belirli bir hipotezin gerçeğiyle ilişkilendirilemezse.


4
Aynı husus, (true) parametresinin, xx ve xx arasında, güven aralıklarını konuşurken / yorumlarken% 95 kalma şansına sahip olduğunu söylemek için kullanılanlar için de geçerli görünüyor.
chl

1
Evet kesinlikle!
Dikran Marsupial

1
+1 Son cümlenizi biraz farklı bir şekilde ifade ederdim. En sık ayarda, sıfır hipotezinin doğru olma olasılığı ya 1 ya da 0'dır, ama hangisini bilmiyorsunuz . 'Olasılık' gerçekten geçerli değildir uzun dönemli göreli frekans ve 'uzun dönem frekans' olduğundan (Kesin, bu tam olarak doğru değildir, konuşma. Bununla birlikte, bu şekilde insanların ifadelerine zaman olabilir anlama anlıyoruz nasıl / ne söylediğini İçinde bulunduğumuz durum. Örneğin, insanlar null hipotezini p-değerini null hipotezinin doğru olma olasılığı olarak kullanamayacağınızın farkına varırlar.)
gung - Reinstate Monica

2
“Çünkü 'olasılık' uzun vadeli bir göreceli frekanstır.” Pek çok sayıda olasılıklının bu ifadeye şiddetle itiraz etmesi
Dilip Sarwate

14

"Güven"

İstatistikçi olmayanları, güven aralıklarının farklı parametre değerlerinin güvenilirliği hakkında (doğrudan) bir ifade olmadığı konusunda caydırmak çok zordur .

Güvende olmak için, terimin teknik anlamında, her biri önceden belirlenmiş bir şekilde bir aralık hesaplayan bazı tekrarlanan deneyler kümesini hayal etmemiz gerekir. % 95'lik bir güven aralığı olması için, formülün bu kullanımlarının% 95'i ilgili ilgili parametreyi hapsedecektir.

ab

(Tabii ki, iki görüşün yaklaşık ya da tam olarak aynı fikirde olduğu durumlar vardır. Ancak genel olarak kabul etmezler ve sayısal anlaşma teknik şartların kötüye kullanılması sorununu ortadan kaldırmaz.)


10

"Olabilirlik" - günlük konuşmada "olasılık" ile eş anlamlıdır, ancak İstatistikler'de bunun özel bir anlamı vardır: değeri, parametrelerin gözlemlendiği sonucuna varma olasılığı olan istatistiksel bir modelin parametrelerinin bir işlevidir. parametre değerlerine eşittir.


8

Hata.

İstatistiklerde, bir "hata", gerçek bir veri değerinin bir model öngörüsünden sapmasıdır.

Gerçek hayatta, bir hata spllng mstake veya başka bir saçmalıktır.


Bir yazım hatası, iletişim ortamının gerçek (amaçlanan) değerinden sadece bir sapma değil midir? Bunun nasıl farklı bir kelime olduğunu gerçekten anlamıyorum, sadece farklı (ama çelişkili olmayan) bir bağlamda kullanıldığı içindir. Sahada yeni birisinin kafasını karıştıracağına inanmak zor.
naught101

2
Bir değerin bir tahminden farklı olmasının bir nedeni, deneycinin dağılmış olmasıdır. Bu bir yazım hatası gibi. Peki neden kilonuz, cinsiyetiniz ve yaşınızdaki tüm insanların ortalama kilosundan farklı mı? Geliriniz neden ortalama gelirden farklı? İstatistiklerde, bir ortalamadan bu sapma bir "hata" dır, ancak bu bir hata değildir, sadece çeşitliliktir.
Harvey Motulsky

Doğru, ama nasıl baktığına bağlı. Bir ilkokul örneğindeki bir kelimenin hecelemesine bakarsanız, insanlardan kaynaklanan, evet, fakat deneyci tarafından neden olunmayan bir çeşitlilik elde edeceksiniz. Aynı şeye farklı yaşlardan ingilizce olarak da yazabilirsiniz. Sanırım erken ingilizcenin çok daha yüksek bir değişkenliği olduğunu
farkedersiniz

@ HarveyMotulsky: analitik kimya, her iki yönde de hata kullanır. Sistematik hata, rastgele hata ve brüt hatalardan söz ediyoruz. Ders kitabı: "brüt hatalardan kaçınılabilir".
cbeleites, Monica'da

8

"Çıkarım"

βb

Çıkarımla ilgili bir diğer önemli kısım ise merkezi limit teoremidir. Bir popülasyondan basitçe örnekleme yaptığınızı fark ettiğinizde - örnekleme çıkarım gibi bir başka karmaşık özellik olsa da - o zaman örnek ortalamanın bir değeri tutsa bile, bu değerin mutlaka popülasyondakiyle aynı anlama gelmediğini anlarsınız. .

Belki de sorunuzu göreceli olarak gevşek bir şekilde anladım, ancak birisi bir örneklem ile popülasyon arasındaki çıkarımı veya farklılıkları anladıktan sonra istatistiklerin tamamı kendilerine açılıyor.


7

Bize (veya en azından ben) göre, bir "örneğin" "rastlantısallığı", "popülasyon" u temsil ettiğini ileri sürer.

Diğerlerine göre "rastgelelik" bazen bir kişinin / şeyin olağandışı olduğu anlamına gelir.


1
Ben "rastgelelik" ile ilgili bu karışıklığa rastlamadım. Ama eğer varsa, o zaman açıkça var.
Peter Flom - Eski Monica

3
Daha doğrusu, var olduğu
Thomas Levine

1
"Rastgele" nin son kullanımı benim için oldukça yeni görünüyor. Bu nedenle onu biraz sinir bozucu buluyorum (sadece istatistikleri anlamak için insanları zorlaştırıyor). Kendimi o anlamda kullandığımı duyduğumda daha da can sıkıcı oluyor ..
naught101

5

Halkın kafasını karıştıran terimlerle istatistikçilerin kafasını karıştıran terimler arasında ayrım yapılması gerektiğini düşünüyorum. Yukarıdaki öneriler, çoğunlukla istatistikçiler tarafından iyi anlaşılan ve (muhtemelen) halk tarafından yanlış anlaşılan terimlerdir. İstatistlerin bildiği bazı terimleri özledim listesine eklemek istiyorum:

  • Bayesian: Başlangıçta şimdi öznel Bayes (aka epistemik, De-Finetti) olarak bilinen şeye atıfta bulunulmaktadır. Bugün bu terim, Bayes kuralı nadiren karar teorisi olarak kabul edilen öznel inançlar bağlamında ortaya çıktığı zaman kullanılacaktır.
  • Ampirik Bayes: Başlangıçta parametrik olmayan bir frekansçı düzene atıfta bulunur . Bugün, tipik olarak önce parametrik (objektif) parametrelerin önceden tahmin edildiği ve a-priori olarak bilinmediği anlamına gelir. Yani, bir zamanlar tip II maksimum ihtimal olarak bilinen şeydi.
  • Parametrik olmayan: Bazen "model ücretsiz" anlamına gelir. Bazen "dağıtım ücretsiz". “Parametrik” modellerin milyonlarca parametre içerebileceği günlerde pratikte etkisiz hale geldi.
  • Tip III hatası: bazen bir işaret hatasına atıfta bulunur. Bazen modelin yanlış tanımlanmasına atıfta bulunur.

Ben sorduğumda, "genel halk için kafa karıştırıcı terimler" demeyi düşündüm, ancak kesinlikle istatistikçilere kafa karıştırıcı terimler de listelenmeye değer
Peter Flom - Reinstate Monica

Bu muhtemelen ayrı cevaplara bölünmelidir.
naught101

4

Ekolojik, biyolojik sistemlere atıfta bulunmak için kullanılır, fakat aynı zamanda istatistiksel bir yanlışlıktır. Wikipedia'dan:

Ekolojik bir yanlışlık (veya ekolojik çıkarım yanılgısı), ekolojik bir çalışmada istatistiksel verilerin yorumlanmasında bir hatadır; bu nedenle, belirli bireylerin doğası ile ilgili çıkarımlar, yalnızca bu kişilerin ait olduğu grup için toplanan toplam istatistiklere dayanır. Bu yanlışlık, bir grubun bireysel üyelerinin, genel olarak grubun ortalama özelliklerine sahip olduğunu varsayar.


3

Bir "anket" bir tür matematik ("anket örneklemesi") veya bir kağıt parçası mı ("anket")?

Bununla ilgili bir anket yapmadım, ancak halkın çoğunun ikinci anket olduğunu düşündüğünden şüpheliyim. Daha öncekileri düşünmediklerini sanıyorum.


2
Anketçiler tarafından anket yapılmıyor mu? ;)
zbicyclist 5

3

"Yüklemeler", "Katsayılar" ve "Ağırlıklar"; Temel Bileşen Analizi hakkında konuşurken.

İnsanları genellikle kullandıklarında oldukça geçici olduklarını, ne anlama geldiklerini açıkça tanımlamaksızın birbirlerinin yerine kullanabildiklerini görüyorum ve aslında "yükleme vektörleri" ve bazen bilgisayarların kendileri ve diğer zamanlarda "ağırlıklar" anlamına gelen kağıtlarla karşılaştım. belirli bir PC ile ilişkili.

Muhtemelen Jollifee'nin Temel Bileşenler hakkındaki mükemmel referansı, 1.1 bölümünün sonunda belirtmektedir. "Bazı yazarlar, kullanılan normalizasyon kısıtlamasına bağlı olarak," yükler "ve" katsayılar "terimlerini birbirinden ayırmaktadır, ancak bunlar bu kitapta birbirlerinin yerine kullanılacaktır." İnsanların terminolojiyi kendi zevkleriyle karıştırmak ve eşleştirmek için serbestçe geçtiklerini düşündürdüler.


1

Katkı modeli Hala bunun ne anlama geldiğinden emin değilim. Etkileşim terimleri olmayan bir modeli ifade ettiğini düşünüyorum. Ama sonra başka bir şeye, yani bir spline modeline atıfta bulunmak için kullandıkları bir makaleyle karşılaşacağım.


0

En kafa karıştırıcı bulduğum terimlerden biri de “karmaşa matrisi”. Tabii ki, kullanılan terim kafa karıştırıcı, kavram değil.

Terimin tarihini izlemeye çalıştım ve bu da oldukça ilginç. Karışıklık matrisi 1904'te ( http://en.wikipedia.org/wiki/Karl_Pearson ) tarafından icat edildi . Http://en.wikipedia.org/wiki/Contingency_table terimini kullandı . FRS (1904) Karl Pearson'da göründü. Evrim teorisine matematiksel katkılar (PDF). Dulau ve Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

2. Dünya Savaşı sırasında, h ttps: //en.wikipedia.org/wiki/Detection_theory , uyaran ve cevap arasındaki ilişkilerin araştırılması olarak geliştirilmiştir. Karışıklık matrisi orada kullanılmıştır.

Tespit teorisi nedeniyle psikoloji kullanıldı. Oradan terim makine öğrenmeye ulaştı.

Kavram istatistikte icat edilse de, makine öğrenimi ile ilgili bir dosyalama yapılmış gibi gözükse de, 100 yıllık bir periyotta bir servis yolundan sonra makine öğrenmesine ulaştı.

Terimin kullanımına ilişkin bazı referanslar için bakınız: Karışıklık matrisi teriminin kökeni nedir?


-4

"İstatistik"

Genel halk için, "şimdi sana yalan söylemek ve anlamadığınız bir şekilde konuşmak üzereyim" yerine geçer.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.