Standart sapma tamamen yanlış mı? Yükseklikler, sayımlar vb. İçin std'yi nasıl hesaplayabilirsiniz (pozitif sayılar)?


13

Diyelim ki yükseklik hesaplıyorum (cm cinsinden) ve sayılar sıfırdan yüksek olmalıdır.

İşte örnek liste:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

Bu örnekte, normal dağılıma göre, değerlerin% 99,7'si ortalamadan standart sapmanın ± 3 katı arasında olmalıdır. Bununla birlikte, standart sapmanın iki katı bile negatif olur:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

Ancak sayılarım pozitif olmalı. Bu yüzden 0'ın üzerinde olmalıdır. Negatif sayıları göz ardı edebilirim, ancak standart sapma kullanarak olasılıkları hesaplamanın doğru yolu olduğundan şüpheliyim.

Birisi bunu doğru şekilde kullanıp kullanmadığımı anlamama yardımcı olabilir mi? Yoksa farklı bir yöntem mi seçmem gerekiyor?

Dürüst olmak gerekirse, matematik matematiktir. Normal dağılım olup olmadığı önemli değil. Eğer imzasız sayılarla çalışıyorsa, pozitif sayılarla da çalışmalıdır! Yanlış mıyım?

EDIT1: Histogram eklendi

Daha açık olmak gerekirse, gerçek verilerimin histogramını ekledim resim açıklamasını buraya girin

EDIT2: Bazı değerler

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

28
Buradaki yanlış anlaşılmanın, sadece pozitif sayıya sahip olabilen bir dağılımın normal olmadığını, bu nedenle belirttiğiniz% 99.7 kuralının geçerli olmadığını düşünüyorum. İkincisi, (örnek) standart sapma formülünden, orijinal değerlerden herhangi birinin pozitif olması için herhangi bir koşul olmadığını görebilirsiniz - o zaman neden yanlış olsun? Yanlış kullanılmış olabilir , ancak istatistikler çoğunlukla agnostiktir ve dikkatsizce uygulanmamalıdır.
Momo

8
68-95-99.7 kural @Momo, güzelliği olduğunu gelmez birçok kararlılıkla olmayan Normal dağılımlar için bile geçerlidir. Bu durumda sayıların% 50'si ortalamanın 1 sd'si ve% 100'ü ortalamanın 2 sd'si içindedir. % 68'in% 50'ye doğru bir şekilde yaklaştığını ve% 95'inin böyle küçük bir veri kümesinden bekleyebileceğimiz sapmalar içinde% 100'e doğru bir şekilde yaklaştığını gözlemleyin. Bu nedenle, bu örnek, küçük boyutu nedeniyle biraz ikna edici olmasa da, başparmak kuralını göstermektedir.
whuber

2
Katılıyorum. Bunu "belirttiğiniz% 99.7 kuralı mutlaka geçerli değil" olarak düzeltmeme izin verin . Buradaki karışıklığın kaynağı, bunu nüanslı "yaklaşık olarak beklediğimiz sapmalar içinde" değil, temel bir kuraldan daha fazlası olarak uyguluyor gibi görünüyor. OP son yorum sadece gösterir.
Momo

4
Başlık "68-95-99.7 kuralını pozitif olması gereken verilere nasıl uygulanır?" Bence bu sorunun ruhunu daha çok yakalar. (Bu, standart sapmanın hesaplanma biçimiyle ilgili değil, bu da başlığın önerdiği şey değil, olasılıkları bulmak için kullanılma biçimidir.)
Silverfish

4
Standart sapma "yanlış" değildir. Daha az doğru olan, olmayan normal şeyler olarak davranmaktır; normalliğin ima ettiği belirli sayıda standart sapmanın dışındaki oranlar diğer dağılımlar için her zaman doğru olmayacaktır. Sürekli tek mod dağılımlar için, 2 standart sapmaya yakın, iki taraflı aralıklar genellikle oldukça makuldür, ancak daha uzakta kuyruk olasılıkları çok yüksek bağıl hatalara sahip olabilir.
Glen_b -Mons Monica

Yanıtlar:


23

Sayılarınız yalnızca pozitif olabilirse, kullanım durumuna bağlı olarak normal dağılım olarak modellemek istenmeyebilir, çünkü normal dağılım tüm gerçek sayılar üzerinde desteklenir.

Belki yüksekliği bir üstel dağılım veya belki de kesik bir normal dağılım olarak modellemek istersiniz?

EDIT: Verilerinizi gördükten sonra, gerçekten üstel bir dağıtım iyi sığabilecek gibi görünüyor! parametresini, örneğin bir maksimum olabilirlik yaklaşımı kullanarak tahmin edebilirsiniz .λ


10
İlk cümle genel olarak doğru değildir: Kesinlikle olumlu olan pek çok nicelik genellikle normal bir dağılımla tahmin edilebilir. 0'ın altındaki olasılık kütlesi çok küçükse, tüm pratik amaçlar için önemli değildir. Bu özel durumda, kesinlikle doğru.
COOLSerdash

13
-1 Bu cevap, istatistiksel bir modelin ne olduğu ve verileri Normal dağılım ile modellemenin gerçekte ne anlama geldiği hakkında yaygın olarak tutulan (ve imro pernicious) bir yanlış anlama yansıtır. Gerçekten, eğer bu yazının söylediklerine inanacak olsaydık, o zaman bir Normal dağılım ile bir Binom dağılımına yaklaşmak "kesinlikle yanlış" olurdu - ama bu tarihsel olarak Normal dağılımın orijinal ve muhtemelen en yaygın kullanımıdır! (Düzenleme: Orijinal talebi çok daha doğru ve kullanışlı bir şekilde değiştirdiğiniz için downvote'u kaldırdım.)
whuber

4
"Üstün" ile ne demek istediğine bağlı. Bir modelin maliyetinin bir kısmı, onu uygulamak için gerekenlere dayanır. Kesik bir Normal modeli benimserseniz, muhtemelen hızlı, kolay ve belki de güzel bir şekilde doğru analitik hesaplamalar yerine birçok özel sayısal hesaplamayı taahhüt edersiniz. Bir modelin başka bir amacı da içgörü sağlamaktır : biri, "doğa en azından yaklaşık olarak bu varsayımlar gibi davranırsa, o zaman bu varsayımlardan ne gibi sonuçlar çıkarılabilir?" Genellikle, basit bir yaklaşımla bu tür çıkarımlar yapmak daha kolaydır.
whuber

2
@whuber: "güzel doğruluktan" sonra zihinsel olarak "yanlış" ı ekledim. Üzgünüm. Tabii ki, aynı zamanda Kutu başına "ama yararlı".
Stephan Kolassa

2
Veriler tamsayı olmayan değerlerden oluşsa da?
Kevin Li

19

"Benim durumuma 68-95-99.7 uygulamak için doğru yol nedir?"

Bu kapsam kuralının sadece (1) tüm (sonsuz) popülasyona veya teorik olasılık dağılımına bakıyorsanız ve (2) dağılım tam olarak normalse uygulanmasını beklemelisiniz .

Gerçekten normal bir dağılımdan bile 20 büyüklüğünde rastgele bir örnek alırsanız, verilerin% 95'inin (20 öğeden 19'u) ortalamanın 2 (veya 1.960) standart sapmasında olduğunu her zaman bulamazsınız. Aslında, 20 maddeden 19'unun nüfus ortalamasının 1.960 popülasyon standart sapması içinde yer alması veya 20 maddenin 19'unun örnek ortalamanın 1.960 örnek standart sapması dahilinde olması garanti edilmez.

Normal olarak dağıtılmamış bir dağıtımdan veri örneği alırsanız, 68-95-99.7 kuralının tam olarak uygulanmasını beklemezsiniz. Ancak, özellikle örnek boyutu büyükse ("% 99,7 kapsama alanı" genel kural 1000'den küçük bir örneklem büyüklüğü ile özellikle anlamlı olmayabilir) ve dağılım normalliğe yakınsa makul olarak buna yakın olabilir. Teoride, boy veya kilo gibi pek çok veri tam olarak normal bir dağılımdan gelemedi veya bu küçük ama sıfırdan farklı olma olasılığının negatif olması anlamına geliyordu. Bununla birlikte, orta değerlerin daha yaygın olduğu ve son derece yüksek veya düşük değerlerin olasılıkta düştüğü yaklaşık simetrik ve tek modlu bir dağılıma sahip veriler için, normal bir dağılım modeli pratik amaçlar için yeterli olabilir.Histogramım çan şeklinde bir eğri gösteriyorsa verilerimin normal olarak dağıtıldığını söyleyebilir miyim?

Herhangi bir dağıtım için geçerli olan teorik olarak bağlayıcı sınırlar istiyorsanız, Chebyshev'in eşitsizliklerine bakın , bu da değerlerin en fazla 2'sinin fazla olabileceğini belirtir. k1/k2kortalamadan standart sapmalar. Bu, verilerin en az% 75'inin ortalamanın iki standart sapması içinde ve% 89'unun üç standart sapma içinde olduğunu garanti eder. Ancak bu rakamlar sadece teorik olarak garanti edilen minimum değerlerdir. Kabaca çan şeklindeki birçok dağılım için, iki standart sapma kapsamı rakamının% 75'ten% 95'e çok daha yakın olduğunu ve bu nedenle normal dağılımdan "temel kural" hala yararlı olduğunu göreceksiniz. Öte yandan, verileriniz çan biçimli bir yere yakın olmayan bir dağıtımdan geliyorsa, verileri daha iyi tanımlayan ve farklı bir kapsama kuralına sahip alternatif bir model bulabilirsiniz.

(68-95-99.7 kuralı hakkında iyi olan bir şey, ortalama veya standart sapma parametrelerine bakılmaksızın herhangi bir normal dağılım için geçerli olmasıdır . Benzer şekilde, Chebyshev'in eşitsizliği, parametrelerden bağımsız olarak veya hatta dağılımdan bağımsız olarak uygulanır. Örneğin, kısaltılmış normal veya eğri normal bir model uygularsanız, dağıtım parametrelerine bağlı olacağı için basit bir eşdeğer "68-95-99.7" kapsamı yoktur. .)


7

Birisi bunu doğru şekilde kullanıp kullanmadığımı anlamama yardımcı olabilir mi?

Oh, bu kolay. Hayır, doğru kullanmıyorsunuz.

Öncelikle, oldukça küçük bir veri kümesi kullanıyorsunuz. İstatistiksel davranışı bu boyut kümesinden çıkarmaya çalışmak kesinlikle mümkündür, ancak güven sınırları (ahem) oldukça büyüktür. Küçük veri kümeleri için, beklenen dağılımlardan sapmalar kurs için eşittir ve küme ne kadar küçük olursa sorun o kadar büyük olur. Unutmayın, "Ortalamalar Yasası sadece en aşırı tesadüflere izin vermekle kalmaz, onları gerektirir."

Daha da kötüsü, kullandığınız veri seti normal bir dağılıma benzemiyor. Bir düşünün - ortalama .498 ile 0.1'in altında iki örnek ve .748 veya daha yüksekte üç örnek daha var. Sonra .17 ve .22 arasında 3 puanlık bir kümeniz var. Bu özel veri kümesine bakmak ve normal dağılım olması gerektiğini savunmak, Procrustean argümanının oldukça iyi bir örneğidir. Bu sana bir çan eğrisi gibi mi geliyor? Daha büyük popülasyonun normal veya modifiye edilmiş bir normal dağılım izlemesi ve daha büyük bir örneklem büyüklüğü sorunu ele alacaktır, ancak özellikle nüfus hakkında daha fazla bilgi sahibi olmadan bahse girmeyeceğim.

Ben modifiye normal diyorum, Kevin Li'nin işaret ettiği gibi, teknik olarak normal bir dağılım tüm gerçek sayıları içerir. Cevabının yorumlarında da belirtildiği gibi, bu, sınırlı bir aralıkta böyle bir dağılımın uygulanmasını ve faydalı sonuçların alınmasını engellemez. Söylediği gibi, "Tüm modeller yanlış. Bazıları faydalı."

Ancak bu özel veri seti, normal bir dağılımı (sınırlı bir aralıkta bile) çıkarmak gibi görünmüyor, özellikle iyi bir fikir. 10 veri noktanız .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (ortalama 0.500) gibi görünüyorsa, normal bir dağılım varsayar mısınız?


İhtiyaçlarımı ve sorunumu açıklamak için rastgele bir veri kullandım
Don Coder

1
@DonCoder Rastgele veriler (herhangi bir şekilde ayarlamadığınız sürece) normal dağılımı değil, aynı dağılımı izler.
barrycarter

5
Bazı dağıtımlardan rastgele verilerin oluşturulması gerekir. Hangisini seçtin?
Peter Flom - Monica'yı eski durumuna döndürün

Gerçek verilerimin histogramını ekledim
Don Coder

2

Yorumlardan birinde "rastgele veri" kullandığınızı söylüyorsunuz ama hangi dağıtımdan söz etmiyorsunuz. İnsanların yükseklikleri hakkında konuşuyorsanız, kabaca normal olarak dağıtılırlar, ancak verileriniz insan yükseklikleri için uzaktan uygun değildir - sizinki bir cm'lik kesirdir!

Ve verileriniz uzaktan normal değil. Sanırım 0 ve 1 sınırları olan düzgün bir dağılım kullandınız. Ve çok küçük bir örnek oluşturdunuz. Daha büyük bir örnekle deneyelim:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

bu nedenle, verilerin hiçbiri ortalamadan 2 sd'nin ötesinde değildir, çünkü bu verilerin sınırlarının ötesindedir. Ve 1 sd içindeki kısım yaklaşık 0.56 olacaktır.


1

Genellikle, örneklerinizin hepsinin pozitif olması gerektiğine dair bir kısıtlamanız olduğunda, dağıtımınızın lognormal bir dağılımla yaklaşıp yaklaştırılamayacağını görmek için verilerinizin logaritmasına bakmaya değer.


1

Standart sapma hesaplaması ortalamaya göredir. Her zaman pozitif olan sayılara standart sapma uygulayabilir misiniz? Kesinlikle. Örnek setinizdeki değerlerin her birine 1000 ekleyecekseniz, aynı standart sapma değerini görürsünüz, ancak kendinize sıfırın üstünde daha fazla nefes odası sağlamış olursunuz.

s=i=1N(xix¯)2N1=i=1N((xi+k)(x¯+k))2N1

Ancak, verilerinize rastgele bir sabit eklemek yüzeyseldir. Çok küçük bir veri kümesi için standart sapma kullanırken, rafine edilmemiş çıktı beklemeniz gerekir. Otomatik odaklamalı kamera merceği gibi standart sapmayı düşünün: ne kadar çok zaman (veri) verirseniz, resim o kadar net olur. 1000000 veri noktasını izledikten sonra, ortalama ve standart sapmanız 10 ile aynı kalırsa, denemenizin geçerliliğini sorgulamaya başlayabilirim.


1

Histogramınız normal dağılımın iyi bir uyum olmadığını gösterir. Lognormal veya asimetrik ve kesinlikle olumlu olan başka bir şey deneyebilirsiniz


1

Ana nokta, çoğumuzun tembel olduğumuz * ve normal dağılımın tembel insanlar için çalışmak için uygun olmasıdır. Normal dağılımı kullanarak hesaplamaları yapmak kolaydır ve güzel bir matematiksel temele sahiptir. Bu nedenle, veriler üzerinde nasıl çalışılacağı için bir "model" dir. Bu model genellikle şaşırtıcı derecede iyi çalışır ve bazen yüzüne yaslanır.

Örneklerinizin verilerde normal bir dağılım göstermediği çok açıktır. Yani size ikilem için çözüm, farklı bir "model" seçmek ve farklı bir dağıtım ile çalışmaktır. Weibull dağılımları olabilir, başkaları da var.

  • gerçekten verileri tanımamak ve gerektiğinde daha iyi modeller seçmek tembel.

0

Temel olarak Oran verilerini, Aralık verilerinin aksine kullanıyorsunuz. Coğrafyacılar, belirli bir konumda (LA LA Civic Center'da 100+ yıl örnek puan) veya kar yağışı (Big Bear Lake'te 100+ yıl kar yağışı örneği) yıllık yağış için S / D'yi hesaplarken bunu her zaman geçirirler. Sadece pozitif sayılar alabiliriz, tam da bu şekilde olur.



0

Verileriniz açıkça normal dağıtılmadığında "normal dağılıma göre" ile başlarsınız, bu ilk problemdir. "Normal dağılım olup olmadığı önemli değil" diyorsunuz. Hangi mutlak saçmalıktır. Verileriniz normal dağıtılmamışsa normal dağıtılmış verilerle ilgili ifadeleri kullanamazsınız.

Ve ifadeyi yanlış yorumluyorsun. "% 99.7'si üç standart sapma içinde olmalıdır". Ve verilerinizin% 99,7'si gerçekten üç standart sapma içerisindeydi. Daha da iyisi, iki standart sapma içinde% 100 idi. Yani ifade doğrudur .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.