Hangi yanlış kullanılan istatistiksel terimleri düzeltmeye değer?


103

İstatistikler her yerde; Ancak istatistiksel terimlerin ortak kullanımı genellikle belirsizdir.

Olasılık ve olasılık terimleri , iyi tanımlanmış ve farklı matematiksel ifadelere rağmen, İngilizce dilinde birbirleri yerine kullanılabilir.

Olasılık olasılığını terimden ayırmamak , rutin olarak pozitif bir mamografi ile verilen meme kanseri olasılığını ölçmeye çalışan hekimleri şaşırtıyor: “Ah, ne saçmalık. Bunu yapamam. Kızımı denemelisin; Tıp okuyor. ”

Aynı şekilde yayıldı kullanılmasıdır korelasyon yerine dernek . Veya nedensellik ima eden korelasyon .

Al Gore'un ünlü belgesel filmi An Inconvenient Truth'da , bir slayt buz çekirdeği ile sıcaklıklar arasındaki korelasyonu göstererek, tartışmanın sonucunu kanıtlamak için daha teknik çalışmaları bıraktı:CO2

görüntü tanımını buraya girin

SORU: Hangi istatistiksel terimler matematiksel titizlik olmadan kullanıldığında yorumlama sorunları doğurur ve bu nedenle düzeltmeye değer mi?


4
Laymen arasındaki olasılık ve olasılık, benim için bir sorun gibi görünmüyor çünkü laymen zaten bunları hesaplamıyor, sadece değerlerin düşük veya yüksek olduğunu ve ikisinin de doğrudan ilişkili olduğunu söylüyorlardı.
Mehrdad

@Mehrdad Katılıyorum. Aslında, mesele şu ki ... istatistiklerin içinde benimsenen ve üretilen bu kelimelerin kötüye kullanılması problemlerle sonuçlanır. Örneğin, iklim değişikliğinin arkasında önemli bir araştırma organı olduğu açıktır, ancak diğer birçok durumda korelasyonun nedenselliğe eşit olduğunu öne sürerek yanlış iddialarda bulunulabilir. Şans ve olasılıklar söz konusu olduğunda, ikisi de diğerine dönüştürülebilir, bu yüzden tek risk bahislerinizi yanlış anlamaktır.
Antoni Parellada

3
@Mehrdad Oranlarla ilgili nokta ilginç bir konu ama sanırım göründüğünden daha karmaşık. Laymen bahis oranları hakkında konuştuğunda, genellikle kumar oranları anlamına gelir ve bunlar genellikle "karşı bahis oranları" şeklinde ifade edilir. Bu nedenle çoğu insanın aşina olduğu sistemde, yüksek oranlar için yüksek bir değer , yüksek istatistik için yüksek oranlar ile ilişkilendirilmiş olmasına rağmen, düşük olasılıkla ilişkilidir. Bu nedenle karışıklık için oldukça olgun: ayrıca bkz. Odds Made Simple
Silverfish

5
Muhtemelen, bu terimlerden bazılarının, istatistiklerle uygun hale getirilmeden ve titiz teknik tanımlamalar yapılmadan önce, İngilizce dilinde önceden mevcut olduğu (aklı anlamıyla) akılda tutmaya değer. Sözcüğü alıp anlamını değiştirmek biraz yoğunlaşıyor ve daha sonra başkalarını eski, teknik olmayan tanımlarla kullanırken yanlış kullanmaktan suçluyor.
RM

Önceden planlanmış olsalar bile "post hoc" testi yapmaktan hoşlanmıyorum. Bunun bir istatistik paketi ile başladığını düşünüyorum ama şimdi yaygın.
David Lane,

Yanıtlar:


101

Dildeki değişimlere karşı savaşmak boşuna olabilir. Fakat

parametre değişken anlamına gelmez

Bu durumda, tam olarak bu anlamı kullanan terimi kullanan RA Fisher ile başlayan klasik istatistiklerde, bir parametrenin tahmin edilmesi bilinmeyen bir sabittir, yani bir popülasyon ortalaması veya korelasyonu söyleyin. Matematikte, bir eğrinin parametrik olarak verildiği gibi, birbiriyle ilişkili ancak aynı anlamları yoktur. Birçok bilimlerde, parametre , ölçü veya uzunluk, iletkenlik veya gözeneklilik veya erdem gibi, bir ölçü için bir sözcük (kendisi de matematiksel anlamla yoğun bir terimdir), özellik veya değişkendir. Doğal olarak, bir bireyin uzunluğu veya erdemi ölçülmeden önce bilinmemektedir. ancak istatistiksel olarak düşünen insanlar, bir dizi ölçüm için kullanılmasından dolayı şaşırtılabilirler. Normal veya kaba parlance olarak, parametreler(hemen hemen her zaman çoğul) genellikle, belki de çevre ile ilgili bazı orijinal karışıklıklardan kaynaklanan kişisel bir ilişki veya politik bir politika söyler . Önceden yüksek olasılıkla birlikte, Bayesanların kendi kullanımları hakkında kendileri için konuşacakları varsayılmalıdır (@conjugateprior'a minnettar).

çarpık anlamına gelmez önyargılı

Bir asır veya daha fazla bir süre boyunca, çarpıklık, grafiksel olarak değerlendirilmiş, sayısal olarak ölçülmüş veya inanç veya umut olarak teorik olarak kabul edilmiş olsun, dağılımların asimetrisine atıfta bulunulan belirli bir istatistiki anlayışa sahiptir. Daha uzun süre veya tahmin edilebileceği gibi, önyargı, ortalama olarak yanlış olmak anlamına geliyordu; bu, gerçeği bildiğimiz sürece, doğru veya doğru bir değer anlamına geldiğinde, sistematik hata olarak nitelendirilebilir. Sıradan bir dilde çarpık, çarpık veya çarpık olma ve dolayısıyla yanlış, yanlış olma ve aynı zamanda önyargılı olma gibi ortak bir düşünceye sahiptir. Bu duyum (farkına vardığım kadarıyla, ancak oldukça yakın bir zamanda), istatistiksel tartışmalara geri dönmeye başladı, böylece eğriliğin asıl anlamı bulanıklaşma veya su altında kalma tehlikesi altında.

korelasyon anlaşma anlamına gelmez

Korelasyon, istatistiklerde, kesin olarak kesin bir anlamda mükemmel olan iki değişkenli bir ilişki hakkında bir fikre sahip olan birkaç kesin duyuyu kendine çekmiştir: önde gelen durumlar doğrusal ve monoton ilişkidir. Neredeyse her türlü ilişki veya ilişki anlamına gelmek üzere, istatistiksel tartışmalarda bile sıklıkla seyreltilir. Korelasyonun ne anlama geldiği anlamına gelmediği, mutlaka bir anlaşma olduğu anlamına gelir: bu nedenle , olduğu sürece veya Pearson korelasyonunu belirtir , ancak sözleşmesi, çok katı koşulu gerektirir .y=a+bx11b0y=xa=0,b=1

benzersiz , farklı anlamına gelmez

Verilerin farklı değerlerinden benzersiz olarak bahsetmek oldukça yaygın olmakla birlikte, benzersiz , yalnızca bir kez meydana gelen anlam olarak ideal olarak daha iyi korunmaktadır. Benim tahminime göre, bazı suçlamalar Unix [sic] kuruluşundan uniqve taklitçilerinden kaynaklanıyor, bu durum muhtemelen tekrarlanan değerleri, her bir değerin gerçekten benzersiz olduğu bir kümeye indirgiyor. Kullanımı, bu tahminde, bir programın giriş ve çıkışını sınırlar. Biz konuşmak if (Tersine, çoğaltmaları verilerde, nadiren tam iki kez meydana doubletons kendimizi kısıtlamak. Dönemli çoğaltırdilsel olarak daha anlamlı olur, ancak deneylerdeki kontrollerin kasıtlı olarak çoğaltılması için önceden yasaklanmıştır; sonuçta ortaya çıkan yanıt değerleri genellikle aynı değildir, ki bu da asıl meseledir.)

numuneler nadiren tekrarlanır

İstatistik olarak, örnek bir çok değerleri içerir ve numara her türlü yönelik alışılagelmiş bir terimdir simülasyonu ile tekrarlandı ancak örnekleme yüksek teorik erdemdir, ancak bir nadir uygulanan silico . Birçok bilimlerde, bir örnek bir topak, yığın veya dollop su, toprak, tortu, kaya, kan, doku veya çekici ila iğrenç ve iğrenç diğer maddelerden oluşan tek bir nesnedir; istisnai olmaktan uzak, birçok numune almak ciddi analizler için gerekli olabilir. Burada her alanın terminolojisi çalışanlarına mükemmel bir anlam ifade ediyor, ancak bazen çeviriye ihtiyaç duyuluyor.

hata genellikle hata anlamına gelmez; Harold Jeffreys'in belirttiği gibi, birincil duyu hatalı değil, düzensizdir.

Bununla birlikte, kendi günahlarımıza veya terminoloji tuhaflıklarına karşı dikkatli olmalıyız:

gerileme geriye gitmiyor

durağan hareketsiz veya sabit anlamına gelmez

Güvenin kimsenin zihinsel ya da psikolojik durumu ile ilgisi yoktur.

önem sadece bazen günlük anlamını taşır

Kesin , genellikle soruna uygun olandan ziyade uygun bir şekilde izlenebilir bir çözüme veya hesaplamaya atıfta bulunarak onurlu bir terimdir.

sağa çarpık dağılımlar, birçok görünümde sola yatar, ya da tam tersi

lognormal bir Normal exponentiated çünkü böylece denir

ancak lognormal normalden daha normal

Gauss De Moivre tarafından keşfedildi

Poisson keşfetmek değildi Poisson , yalnız Poisson regresyon izin

önyükleme için ayakkabı ile yardımcı olmaz

jackknife kesmiyor

kurtosis tıbbi bir durum değildir

gövde ve yaprak parselleri bitkilere atıfta bulunmaz

bir kukla değişken yararlı anlamsız olmayan veya aptal

Dünya'da (ya da başka bir yerde), heterosistemikliğin gerçekten eşitsiz değişkenlik yerine tercih edilen bir terim olduğunu kim düşünüyor ?

robust , farklı gruplar için en azından iki temel teknik anlama sahiptir; bunların hiçbiri, teknik tartışmalarda bile, sık sık kullanılmasını engeller;

IV şimdi farklı gruplar için en az iki ana anlama sahip

Faktör artık farklı gruplar için en az iki ana anlama sahip

normalleştirmek ve standardize edilemeyecek kadar çok anlamı var (gerçekten burada standardize etmemiz gerekiyor)

karşı bir grafik tarif anlamına dikey değişken karşı yatay değişken bunun tersi anlamına gelir sürece,

ve (son fakat en az değil, bir cümleyi paraya çevirmek için) istatistiklerin en az üç ana anlamı vardır.

Notlar:

  1. Aksine görünüşe rağmen, bunun iyi ve ciddi bir soru olduğunu düşünüyorum.

  2. Moda kayması. Yirminci yüzyıla kadar, pek çok insanın (isim yok, paket yok ama Karl Pearson'dan bahsedilebilir) yalnızca Yunanca ve Latince sözlüklere ulaşarak terimleri icat edebileceği görülüyor. ( Dağınık arsa için ona kredi vermemesi haksızlık olur .) Ancak RA Fisher, varyans , yeterlilik , verimlilik ve olasılık gibi birçok İngilizce kelimeyi kaçırdı . Daha yakın bir zaman önce, JW Tukey sade terimleri kullanmada ustaydı, ancak çok azı ayrılmalar ve hilelere aykırı olmadıkları için üzülmeli .

  3. Bir yorum, “Hayat […] Katkı değil çarpımsal: günlük normal dağılım normalden daha normal” diye hatırlıyor. Anon. 1962. Bloggins'in çalışma kuralları. İyiyim, IJ (Ed.) Bilim adamı spekülatif: kısmen pişmiş fikirlerin bir antolojisi. Londra: Heinemann, 212-213 (s.213'te alıntı).


Yorumlar uzun tartışmalar için değildir; bu konuşma sohbete taşındı .
whuber

Heteroscedastisite tamamen kedi kutusunu sallar ! "Eşit olmayan değişkenlik?" [Phuagh!]) (Aksi takdirde +1 çok iyi;)
Alexis

1
Regresyon testinin sıklıkla, genel olarak geriye doğru gitmeyi kastettiği
Konrad

@Konrad İlginç, ancak sonra (yanlış olursam beni düzeltin) (a) bu, kelimenin yanlış kullanımı olmaz ve (b) oradaki kelimenin istatistiksel bir anlamı yoktur.
Nick Cox,

@NickCox Doğru.
Konrad

33

Karşılaştığım şeylerden bazıları:

  1. Önemlilik seviyesi ve CI kapsamı olasılıklarını birbiriyle değiştirilebilir olarak kabul etmek, böylece insanlar "% 95 önem" den söz etme gibi şeyler yaparlar.

    [Daha da kötüsü, bu tür hatalar yapan insanlar ders notlarını - hatta ders kitaplarını - bunun için destek olarak gösterdiğinde; başka bir deyişle, hata onların değil, yüz kat veya binlerce kat daha karmaşıktır ve daha da kötüsü, doğru bir şekilde anlamış olsalar bile, konuyu geçmek için hatayı yinelemek zorunda kalabilirler.]

  2. Ayrıca, “anlamlılığın” bir şekilde belirli bir hipotez / soru dışında bulunduğunu düşünme eğilimi de vardır (“benim verilerim önemli” gibi sorulara, hangi sorunun ele alınacağına dair net bir fikir olmadan). [İlgili bir sorun: "Bu veriler için hangi testi kullanmalıyım?" Verilermiş gibi - cevaplanacak sorudan ziyade - analiz seçiminde itici güç budur. (Çalışmanın "tasarımı" kullanılan spesifik testleri etkileyebilirken, ilgi konusu daha önemlidir - örneğin, üç grubunuz varsa, ancak ilgilendiğiniz konu yalnızca ikisinin karşılaştırılmasıyla ilgilidir, Üçünüzün olması, sizi iki çıkar grubunun doğrudan karşılaştırması yerine, tek yönlü bir analiz yapmaya zorlamaz ... Analiz seçiminiz verinin gösterdiğinden kaynaklanmadıkça. İdeal olarak, verilerinizi analiz etmeden, verilerinizi analiz etmeden, sorularınızı ve analizlerinizi planlayın ve hangi post-hoc analiz soruları gibi göründüğüne bakın - "bu veriler için hangi testi kullanmalıyım?" - yol açma eğilimindedir.)

  3. Ara sıra, p-değerinin tamamlayıcısına bir tür "güven" ya da "alternatifin olasılığı" olarak bahsetme eğilimi.

  4. "parametrik olmayan veriler"; birkaç kitapta (ve ne yazık ki, ortak bir hatayı düzeltmeyi öne süren bir makalede) bulunan bir tane daha maalesef, bu sık sık ortaya çıkıyor. parametrik olmayan, bunlar modellere veya tekniklere uygulanan sıfatlardır ... ") (bana bu özel böceği hatırlattığın için teşekkürler Nick Cox)

    Genellikle amaçlanan "normal olmayan veri" dir, ancak parametrik normal anlamına gelmez ve yaklaşık normalliğe sahip olmak parametrik prosedürlere ihtiyacımız olduğu anlamına gelmez. Benzer şekilde, normal olmama parametrik olmayan prosedürlere ihtiyacımız olduğu anlamına gelmez. Bazen, kastedilen, "sıralı veri" veya "nominal veri" dir, ancak hiçbir durumda sonlu-parametrik modellerin uygun olmadığı anlamına gelmez.

  5. "Doğrusal model" in "doğrusal" teriminin "genelleştirilmiş doğrusal model" in "doğrusal" teriminin kullanımıyla çelişecek şekilde yanlış anlaşılma eğilimi. Bu kısmen terminolojiyi kullanma biçimimizin hatasıdır.

  6. Ortalama-eksi-ortanca türdeki çarpıklığın, üçüncü momentin çarpıklığı ile birleştiği ve sıfırın ikisinin de (veya her ikisinin de) simetri ile birleştirilmesi. Her iki hata da, bazı özel uygulama alanlarında yaygın olarak kullanılan temel metinlerde bulunur. [Sıfır çarpıklık ve sıfır aşırı kurtozun normallik olarak görülmesiyle ilgili bir hata var]

  7. bu o kadar yaygındır ki, artık bir hata olarak adlandırılması zorlaşır (belirli bir programın çabaları nedeniyle) - aşırı kurtosiyi basitçe "kurtosis" olarak adlandırmak; iletişim sorunlarına yol açacak kadar kesin bir garanti.


2
+1. Size, bu listede benimkinden daha iyi olan grometk "parametrik olmayan verileri" hatırlatmak istiyorum. Aşırı kurtosis, çirkin bir ham kurtosis kardeşidir.
Nick Cox

@ Teşekkürler, burada oturup "gerçekten buraya ait olduğumu rahatsız eden bir şey var" diyerek listemize bakıyorum. Bu olanı.
Glen_b

3
Bir diğeri, açılış sorusu haline gelinceye kadar genişleyen “istatistiksel test” tir: verilerime hangi testi uygulamalıyım? Genellikle "Student's t", "Mann-Whitney" veya "chi-square" formunun tek bir cevabı olacağına inanılıyor. Cevabımın daha genel olduğu, belki de hiç olmadığı, ya da verilerinize dikkatlice bakmalı ve bunu düşünmeden önce asıl sorunuzun ne olduğunu tartışmalıyız.
Nick Cox

@ nick Bu benim ürünümle yakından ilgilidir 2. Acaba bunu genişletmenin iyi bir yolu var mı?
Glen_b

1
Pek çok istatistiksel metnin (böyle göründüğü gibi) bu düşünceyi teşvik etmesinden korkuyorum.
Nick Cox

31

" Veri " çoğuldur . (Tekil "veri" dir).


2
Gerçekten bir referans hakkında mı konuşuyorsun? Daha genel olarak, bu nokta ... bu değer ..., bu gözlem ..., en azından bunlar hakkında.
Nick Cox

5
Veriler ayrıca, çoğu zaman mizahi olan verilere dayanan veri odaklı veri sonuçlarına geldiğini gözlemlediği insanlar hakkındaki verileri özümseyen tekil bir androiddir.
Matthew Drury

2
Bunu duymak için uzun bir yoldan gitmelisin.
Nick Cox,

5
Çoğul veriler sadece "veri" yerine "veri" yerine "veri" ifadesini değil, "çok veri" yerine "çok veri" yerine "daha az veri" yerine "daha az veri" anlamına gelir. Bu yüzden az sayıda insan bunun kaybedilmiş bir sebep olduğu konusunda tutarlı olmayı başarır.
Scortchi

5
Bununla savaşmaktan yıllarca (yıllarca) sonra (Latince öğretmenlerim memnun olacaktı), @ Scortchi'ninkine benzer bir görüşe geldim. Ancak , özellikle StataCorp uygulamalarından etkilenen veri kümesi kelimesini mümkün olduğunda kullanmaya çalışıyorum . Bu, bazı zorlukları çözer.
Nick Cox,

14

Kesinlikle istatistiksel bir terim olmasa da, endojenliği emekli etmek için oy kullanırım . Tüm insanlar gerçekten yapmak istediklerinde: "Bu etki tanımlanmadı" derken ters nedensellikten kafa karıştırıcı seçim ve çarpıştırıcı önyargısına kadar her şeye atıfta bulunmak için kullanılır.


Yorumlar uzun tartışmalar için değildir; bu konuşma sohbete taşındı .
Glen_b

13

"Ortama doğru gerileme", beklenen değerin altında belirli sayıda iid örneği gözlemlediğimiz takdirde, bir sonraki iid örneklerinin beklenen değerin üzerinde olacağı anlamına gelmez.


3
+1 Bu önemli. Kayda değer insanlar bununla olağanüstü bir şekilde karıştı. Örneğin, Peter Bernstein'ın Tanrılara Karşı Risk Analizi üzerine popüler kitabı . Regresyonu ortalamanın birçok farklı yoldan karakterize eder - tek bir doğru değil.
whuber

10

Yüzde ile Yüzde Puan : Bir şey% 1'den% 2'ye yükselirse,% 100 artmıştır. Veya: yüzde 1 puan arttığını söyleyebilirsiniz.

Artışın% 1 olduğunu belirtmek çok yanıltıcıdır.


7

Açıkça belirtilmeyen kısaltmaların gerçek bir problem olduğunu düşünüyorum. Örneğin, GLM gibi şeyler görüyorum ve bunun genel doğrusal model veya genelleştirilmiş doğrusal model anlamına gelip gelmediği hiçbir yerde belirtilmemiştir. Bir zamanlar genellikle, içeriğe girdikten sonra neyin referans alındığını bulabilir, ancak bunun istatistiksel modelleri öğrenmeye yeni başlayan öğrenciler için özellikle sıkıntılı olduğunu buluyorum.

Bunun bir başka örneği IV. Bu, enstrümantal değişken veya bağımsız değişken anlamına mı geliyor? Çoğu zaman, içeriği incelemeden önce netleşmez.

Kafamda karıştığım bir şey daha "moderatör" ve "etkileşim". Ayrıca, nüfus (genel olarak popülasyonda olduğu gibi) ve ilgi popülasyonu, çok net bir şekilde belirtilmediği sürece, yeni öğrencileri şaşırtmaktadır.


5
Ayrıca, GLM'nin bazılarının makine öğrenen kalabalığın "Küresel Doğrusal Modeller" anlamına geldiğini gördüm. Sadece zaten aşırı yüklenmiş bir
terimdeki

1
Bu cevabı / gözlemi kısmen destekliyorum. Bence "Genelleştirilmiş" (her ne ise) Gz'ye, GzLM (genelleştirilmiş doğrusal model) gibi, G'ye kısaltılmalıdır.
ttnphns

2
@ ttnphns: bazılarımız s ile genelleştirilmiş bir yazı yazdı
Henry

@Tnphns merak ediyorum, bu cevabın hangi kısmını desteklemiyorsunuz ve neden? Bir şeyi yanlış anlayabilmem oldukça mümkün, bu yüzden daha fazla önerecek bir şeyin varsa, daha fazla bilmek istiyorum. Teşekkürler!
StatsStudent

1
Huh, IV'ün in vitro demek istediğini sanıyordum. = P
Mehrdad

7

Günlük dilde ortak olan:

ortalama

Oradaki ortalama insan için (tamamen amaçlanan acı ironi), bir şeyin ortalama, medyan, modu ve beklenen değeri aynı görünüyor. Bilinçli ve güvenilmez bir temele dayanan bir normal dağılımın olduğu varsayımıyla, bir nokta tahmininde bulunma eğilimi doğaldır. Ve çok küçük bir varyansın eşit derecede bilinçsiz varsayımı. Böyle bir tahminin 1) var olduğuna ve 2) 'nin onlar için çok faydalı olacağına olan inancı, pratik olarak kesin bir tahminci olarak kabul edebilecekleri için, o kadar kökleşmiştir ki, temelde onları ikna etmenin imkânsızdır.

Gerçek dünyadaki bir örnek için, "ortalama büyüklükteki patatesin ne olduğunu" soran bir aşçıyla konuşmaya çalışın, kesinlikle ona bir sayı söylerseniz, bu sayıyı belirten herhangi bir tarif için kullanabileceği kesin Patatesin her seferinde mükemmel çıkmasını sağlayın. Ve ona "böyle bir numara yok" demeye çalıştığın için sinirleniyorsun. Ne yazık ki, çorba yapmaktan daha yüksek riskli durumlarda ortaya çıkar.


3
Bence bu biraz abartılı. Örneğin, milyarlarca insan olmasa bile, milyonlarca insan sporda ortalamalarda çok az zorluk çekiyor gibi görünüyor.
Nick Cox

1
@NickCox kesinlikle bağlama bağımlı. Özellikle verilen veriler için aritmetik ortalamanın hesaplanması problemsizdir. Sorunu özellikle tarif ettiğim durumlarda gördüm, nokta tahminine ihtiyaç duyuyorlar ve "ortalamanın" çok kesin olduğunu varsayıyorlar. Ayrıca, bu "ortalamanın" bir ortalama olarak hesaplandığını varsayıyorlar, ancak onlardan ortalama olarak ne anlama geldiklerini açıklamasını isterseniz kabaca bir modu açıklarlar.
rumtscho

@ rumtscho, haklısın. Joe Average, ortalamanın mod olarak ya da tipik olduğunu düşünme eğiliminde olabilir.
Mark L. Stone

İnsanlar Birleşik Krallık'taki "ortalama" ev fiyatları hakkında konuştuğunda, bana kullandıkları ortalama türünü veya dış hatlar hariç tutulduğunu söyleyemezler.
Ian Ringrose

1
Çok modlu dağılımlar için hesaplanamayacak anlamına gelen hiçbir şey yok, sadece sık sık, bu dağılımın tanımlanması için en büyük önlem değil. Ayrıca, istatistikçilerin imajının herkese "Ortalamanın ne anlama geldiğini bilmiyorsun!" Demesi için harika şeyler yapacağından emin değilim. ve sonra bir sözlük tanımına işaret ettiklerinde "Biz, sözlük de yok!" diye cevaplıyoruz.
Cliff AB,

7

Kurtosis "doruk noktasını" ölçmez.

Tanım olarak, beklenen değeri (ortalama) . * Thus,- 1'den küçük değerler (ortalamanın bir standart sapması içindeki veri değerlerine karşılık gelen, herhangi bir "zirvenin" olduğu yerler) kurtosise çok az katkıda bulunur; kurtosise neredeyse tüm katkı- 1'den büyük değerler (özellikle aykırı değerler). Özellikle http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ , Şekil 2 ve 3'e bakınız .| Z | | Z |Z4|Z||Z|

* 3 çıkarın ya da değil; bu noktada farketmez.


1
ZZ

1
Bize leptokurtik'in Yunanca'da "dar omuzlu" ya da "kambur sırtlı" anlamına geldiğini öğreten bir Kıbrıslı Rum istatistik profesörüm vardı. Bu nedenle, bir leptokurtik dağılım (örneğin, bir Laplace veya çift-üstel), "omuz" alanlarındaki Gaussian'dan (eşit varyanslı) daha az kütleye sahiptir - ve buna karşılık baş ve kuyruk bölgelerinde daha fazla kütleye sahiptir. Buna karşılık, bir platikurtik dağılım (örneğin, tek tip) omuzlarda daha fazla kütleye ve baş ve kuyruk alanlarında normalden daha az kütleye sahiptir.
Mico

2
Kelimelerin iyi açıklaması, ancak gerçekte, Pearson'un geliştirdiği kurtosis istatistiği ile ilgisi yoktur. Pearson yanlış yaptı, ama o son derece hoş sözlü Yunanca kelimeleri kullanarak başkalarının derin bir şey olduğunu düşünmesini sağladı. Yanılgısı, maalesef 100 yıldan beri istatistik eğitimine ve okuryazarlığa zarar verdi. Kurtosisin küçük olduğu sivri ("lepto") dağılımları ve kurtosisin sonsuz olduğu düz tepeli ("platy") dağılımları için makaleme bakın. Pearson kurtosisi size "lepto" veya "platy" hakkında hiçbir şey söylemez. ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Peter Westfall

5

Doğrusal demek:

  • y=a+bxy=a+bx+cx2y=axb

  • Parametrelerde lineer tahmin ediliyor. Bir regresyon modelinde olduğu gibi (doğrusal, lojistik, GLM, vb.) Skaler parametrelerin ve bağımsız değişkenlerin toplamı anlamına gelir . Bu bakımdan doğrusal olmayan , gibi şeyler anlamına gelir.y=ea+bx1+ea+bxy=a+bx+xmax(xθ,0)

  • Doğrusal, dinamiğin zıddı . Bağımlı değişken ne olursa olsun, onun önceki değerlerinin bir işlevi değildir. Bu bağlamda doğrusal olmayan , ve gibi şeyler anlamına gelir. .y t - y t - 1 = a + b ( y t - 1 - x t - x ) + c ( x t - x t - 1 ) + d x t - 1yt=a+byt1+cxytyt1=a+b(yt1xtx)+c(xtxt1)+dxt1

Burada bir bağımlı değişken olarak, , bağımsız bir değişkendir, ve ve her örnekte söz konusu parametrelerdir.x a , b , c , d θyxa,b,c,dθ


5

Soru, düzeltmek için ÖNEMLİDİRmemiz gereken istatistiksel terimlerin kullanımıyla ilgiliydi. Binlerce yıldır çocuğumun 'rastgele' terimini, 10 yıldır rastgele karşıt olan şeyleri ifade etmek için kullanmalarını düzeltiyorum. Stajyerlerimin ne kadarının rastgele rastgele olan, kelimenin kelimenin bu kullanımından önce bile meydana gelen rastgele bir veri örneği üretmek için uğraştığını düşünürsek, bu terimin günlük argoda şaşırtması bir krizdir.

OnlineSlangDictionary:

Definition of random


random

adjective
  • beklenmedik ve şaşırtıcı.
    All of the sudden this guy jumped out from behind the bushes, it was so random!
    The street cleaner never comes down our street. How random.
    
  • beklenmedik bir şekilde harika.
    The party was totally random.
    

4

Glen ve Nick'in bahsettiği pek çok harika örnek var ... fazla kalmadı!

Regresyonun bazı yönleri

  • hata terimi ve artık (insanlar artıklarının regülatörlerle ilişkisiz olmasından gurur duydukları için biraz komik)

  • Tahmin ve tahmin (öngörülen rastgele etkiler hakkında olduklarında ayrım yapmayı bırakmalı mıyız?)

  • tahmin / tahmin aralığı ve güven aralığı. Bence yanlış olanı alıntılama olasılığı> 0,5.

  • regresör (tasarım matrisindeki sütun) karşı değişkenlik et al. Özellikle ayrımın zorunlu olduğu teknik durumlarda, çoğu insan (kendim dahil) kesin değildir.


Üzgünüm kafam karıştı. Tahmin ve tahmin arasında bir fark var mı? Son iki noktanız hakkında daha fazla açıklayabilir misiniz? Teşekkürler!
yuqian

3

Özellikle sigorta ortamlarında, her bir veri noktası ile veri kümesinin ortalaması arasındaki kare farkların ortalaması yerine, herhangi bir farklılığa atıfta bulunmak için varyans kullanılması yaygındır .


6
Ben de bu farklı anlamda kullanılan varyansla tanıştım, ancak RA Fisher 1918'de bu amaç için kaçırdığında varyansın mevcut bir İngilizce kelime olduğuna dikkat edin. Bu farklı bir kullanım; istatistiksel insanlar gerçek anlamın sahipliğini iddia edemezler.
Nick Cox

3

Bayes

Bunu öğrenen öğrenciler, Bayesian'ün "göründüğü" olup olmadığını söylemekte zorluk çekmeyebilir, ancak sık ve Bayesyen bir yaklaşımla bir sorunu çözmelerini ister ve muhtemelen başarısız olurlar.

Tecrübelerime göre öğrenciler, bunun sadece felsefi bir fark olduğunu, sonunda da aynı sorunun her iki yaklaşımla da saldırıya uğradığını gösteren somut bir örnek olmadan öğretildiklerini ortaya koyuyor .

Şimdi onlara neden örneklerinde sıkça bir yaklaşım izleyebileceklerini sorun; Muhtemelen en iyi açıklama "eski günlerde, bilgisayarlar olmasaydı ..." gibi bir şey olurdu.


Neden birisinin sıkça bir yaklaşım izleyebileceğini açıklayabilir misiniz? Teşekkürler!
yuqian

4
@yuqian: Evet. Benim için önemli olan, insanların nesnel olarak sizinle aynı fikirde olmasını istediğinizde bunu yapmanızdır. Bayes yaklaşımı, doğası gereği öznel olan önceki dağıtımları gerektirir ve gerçek dünyadaki sorunlarda nesnel olarak doğru olan tek bir öncelik yoktur ... bu, iki kişinin önceliklerinin ne olması gerektiğine bağlı olarak aynı problem için farklı cevaplar hesaplayabileceği anlamına gelir. Sık görülen bir yaklaşımla, böyle bir belirsizlik yoktur ve bu, sonuçlarınızı başkalarının sonuçlarıyla objektif bir şekilde karşılaştırmayı mümkün kılar.
Mehrdad

2

Risk

Risk olasılık anlamına gelmez

Risk, tüm sonuçların maliyetlerinin toplamıdır, bu maliyetlerin her biri olma ihtimaliyle çarpılır.

Risk genellikle elde etmeye çalıştığımız kazanç olan ödüle karşı tartılır .

İşte bir örnek: Kişisel Kilowatt Nasıl Ölümcül mı . Buradaki riskler - farklı enerji kaynakları için ölü insan sayısı - ödüle karşı tartılır - bu enerji kaynakları tarafından üretilen terawatt saat enerji.

Mesela: Nükleer enerji riski , bir erimenin gerçekleşmesi olasılığı değil ; o ölmektedir insanlar, sayı ile çarpılarak bir erime meydana çıkma olasılığı vardır ile toplanır işlemleri normal düzeyde olasılık ile çarpılarak normal işlemler ölmektedir kişi sayısı ile.


4
“Risk” evrensel olarak kabul edilmiş bir standart tanımlamaya sahip değildir. Ancak, “tüm sonuçların maliyetlerinin [zararlarının] toplamı, bu maliyetlerin [zararlarının] oluşma ihtimaliyle çarpılması” beklenen maliyetin [zarar] tanımıdır. Diğer taraftan risk, genellikle beklenen zarardan (ters) sapmaları ifade eder. Bu yüzden tanımınız bir beklentidir, bence tipik risk tanımları dağılım ile ilgilidir.
A. Webb

Örneğin, sigorta satın alırken amaç riski azaltmak (olası olmayan olayların etkisini azaltmaktır), ancak sigortalı için beklenen gerçek maliyetler artar , fark sigorta şirketinin masrafları ve karlarıdır. Kuyruktaki aşırı kayıplar primin daha sabit bir maliyeti için işlem görmüştür.
A. Webb

3
@ A.Webb FWIW, (uluslararası) Risk Analizi Derneği , riski “İnsan yaşamı, sağlık, mal veya çevre için istenmeyen, olumsuz sonuçların ortaya çıkma potansiyeli; potansiyel tahmini; Olayın meydana geldiği koşullu olasılık, meydana geldiği düşünüldüğünde olayın sonucunu ortaya çıkarır. " Dolayısıyla riskin standart bir tanımı olduğu görülüyor - ve riski, nasıl tahmin edilebileceği veya ölçülebileceğinden ayırt etme hakkınız olduğunu gösteriyor.
whuber

1
Epidemiyologlar tarafından kullanılan risk, aynı zamanda bir olayın olasılığının ortaya çıkma hızı veya . P(A)/t
Alexis

2

Sabit etkiler ve rastgele etkiler , farklı insanlar için farklı anlamlara gelebilir. Ekonometride sabit etkiler aslında rastlantısaldır ve bunu düşündüğünüzde, istatistikteki her etki rastgeledir, bu nedenle rastgele bir şeyi adlandırmak anlamlı bir ek bilgi vermez.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.