Negatif olmayan verilerin standart sapması ortalamayı aşabilir mi?


15

Üçgene 3D ağlarım var. Üçgen alanların istatistikleri:

  • Min. 0.000
  • Maksimum 2341.141
  • Ortalama 56.317
  • Standart Dev 98.720

Yani, standart sapma hakkında özellikle yararlı bir şey mi ifade ediyor veya rakamlar yukarıdaki gibi çalıştığında, hesaplamada hatalar olduğunu gösteriyor mu? Alanlar normalde dağılmaktan kesinlikle uzaktır.

Ve birisinin aşağıdaki yanıtlarından birinde bahsettiği gibi, sayıların negatif olması ve dolayısıyla yasal alanın dışına çıkması için ortalamadan sadece bir SD alması beni gerçekten şaşırtan şey.

Teşekkürler


4
veri kümesinde örnek standart sapma 100 , ortalama 52 - gözlemlediğinize oldukça yakın. {2,2,2,202}10052
whuber

5
Tanıdık (bazılarına) bir örnek için, bir saat boyunca blackjack oynayan birinin ortalama sonucu 25 $ negatif olabilir, ancak standart sapma 100 $ (gösterim için sayılar) olabilir. Bu büyük varyasyon katsayısı, birisinin gerçekte olduğundan daha iyi olduğunu düşünmesi için kandırılmasını kolaylaştırır.
Michael McGowan

Takip eden soru da oldukça bilgilendiricidir: ortalama olarak bir dizi (negatif olmayan veri) SD'sine sınırlar koyar.
whuber

Yanıtlar:


9

Standart sapmanın ortalamadan daha az veya daha fazla olması gerektiğini belirten hiçbir şey yoktur. Bir veri kümesi verildiğinde, ortalamayı aynı tutabilir, ancak pozitif bir sayıyı uygun şekilde ekleyerek / çıkararak standart sapmayı keyfi bir dereceye kadar değiştirebilirsiniz .

Yorumundan soruya @ whuber örnek veri kümesini kullanarak: {2, 2, 2, 202}. @Whuber tarafından belirtildiği gibi: ortalama 52 ve standart sapma 100'dür.

Şimdi, verilerin her bir elemanını şu şekilde bozun: {22, 22, 22, 142}. Ortalama hala 52'dir, ancak standart sapma 60'dır.


1
Eğer varsa eklemek her elemana, değiştirmek konum yani ortalama parametre. Bir ölçek faktörü (ortalamanız sıfırsa) ile çarparak dispersiyonu (yani standart sapmayı) değiştirirsiniz.
Dirk Eddelbuettel

@DirkEddelbuettel Doğru. Cevabı düzelttim ve netlik için bir örnek verdim.
Varty

2
Örneği takip etmiyorum. Yeni veri kümesi açık olduğu değil "ekleyerek veya pozitif bir sayı çıkarılarak" orijinal değerlerin her birinden ile orijinal türetilen.
whuber

3
Düzenleyemiyorum çünkü ne demeye çalıştığınızı bilmiyorum. Eğer keyfi bir veri kümesindeki her numaraya farklı değerlere ekleyebiliyorsanız, sen sadece bir set değişiyor tamamen farklı bir kümesi haline değerler n değerler. Bunun soru veya açılış paragrafınızla ne kadar alakalı olduğunu görmüyorum. Herkesin bu tür değişikliklerin ortalama ve SD'yi değiştirebileceğini düşünüyorum, ancak bu bize bir dizi negatif olmayan verilerin SD'sinin ortalamasının pozitif bir katı olabileceğini söylemiyor. nn
whuber

2
Haklısın: Alıntılanan iddia benimdir ve cevabınızda görünmez. (Doğru ve alakalı olsa da olur. :-) Karşılaşmaya çalıştığım bir nokta, ortalamayı korurken SD'yi değiştirme yeteneğinin sadece soruyu cevaplamadığıdır. SD ne kadar değiştirilebilir (tüm verileri negatif tutarken)? Üzerinde durmaya çalıştığım bir diğer nokta, örneğinizin verilerde bu tür değişiklikler yapmak için genel, öngörülebilir bir süreci göstermemesidir. Bu, keyfi görünmesini sağlar, bu da fazla yardımcı olmaz.
whuber

9

Tabii ki, bunlar bağımsız parametrelerdir. R (veya tercih edebileceğiniz başka bir araç) içinde basit keşifler ayarlayabilirsiniz.

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

Benzer şekilde, standardize ortalama çıkarılarak ve standart sapma bölerek bakıyorsun verileri.

Düzenleme Ve whuber fikri @ ardından burada dört ölçümün yaklaşabilir veri kümelerinin biri bir sonsuzluk geçerli:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 

Ne demek istediğini anladığımdan emin değilim. Bir veri noktasını bozarak ortalamayı değiştirebileceğinden ve böylece standart sapmayı da değiştirebildiğinden tam olarak bağımsız değildirler. Bir şeyi yanlış mı yorumladım?
varty

Üçgen alanların negatif olamayacağını (soruda belirtilen minimum değerle teyit edildiği gibi) belirtmek gerekirse, yalnızca negatif olmayan sayılardan oluşan bir örnek umulur.
whuber

(+1) Düzenlemeyi yeniden yapın: 52.15 :-) 536 çoğaltmayı kullanmayı deneyin.
whuber

Güzel bir re 536 tekrar. İkili arama yapmalıydım :)
Dirk Eddelbuettel

@Dirk "bunlar bağımsız parametrelerdir", bir bernouilli olduğu durumu düşünün. varyans ve ortalama bağımsız değildir: v a r ( X ) = p ( 1 - p ) . Rastgele değişken düşünün 100 > x > 0 , mümkün olan en yüksek varyans ( 50 ) 2 Eğer (daha düşük, yani bire eşit olduğu ortalama kuvvet ise hemen 50 maksimum varyansı daha büyük olamaz) 99 / 100 * ( 1 ) 2 + (Xvar(X)=p(1p)100>X>0(50)250 . Doğada sınırlı değişkenlerin gaussianlardan daha fazla örneği var mı? 99/100(1)2+(1/100)992
robin girard

7

@Andy'nin bu sonuçta neden şaşırdığından emin değilim, ama yalnız olmadığını biliyorum. Ayrıca, sd'nin ortalamadan daha yüksek olmasıyla verilerin normalliğinin ne olduğundan emin değilim. Bu durumda normal olarak dağıtılan bir veri kümesi oluşturmak oldukça basittir; gerçekten, standart normalin ortalaması 0, sd 1'dir. Tüm pozitif değerlerin normal olarak dağılmış bir veri setini sd> mean ile elde etmek zor olurdu; gerçekten, bu mümkün olmamalı (ancak örnek büyüklüğüne ve kullandığınız normallik testine bağlıdır ... çok küçük bir örnekle, garip şeyler olur)

Bununla birlikte, @Andy'nin yaptığı gibi normallik koşulunu kaldırdığınızda, sd'nin tüm pozitif değerler için bile ortalamadan daha büyük veya daha küçük olması için bir neden yoktur. Bunu tek bir aykırı değer yapacak. Örneğin

x <- runif (100, 1, 200) x <- c (x, 2000)

ortalama 113 ve sd 198 verir (tabii ki tohuma bağlı olarak).

Ama daha büyük bir soru bunun neden insanları şaşırttığı.

İstatistik öğretmiyorum, ama istatistiklerin nasıl öğretildiğini merak ediyorum, bu görüşü yaygınlaştırıyor.


Daha önce hiç istatistik öğrenmedim, sadece birkaç matematik dersi birimi ve otuz yıl önceydi. Etki alanını daha iyi anladığını düşündüğüm işyerindeki diğer insanlar, "ortalamadan uzak std devs sayısı" ile kötü verileri temsil etmekten bahsediyorlar. Yani, daha çok "öğretilen" den "std dev yaygın olarak bahsedildi" hakkında :-)
Andy Dent

@Andy, ortalamadan çok sayıda std'ye sahip olmak, değişkenin sıfırdan önemli ölçüde farklı olmadığı anlamına gelir. Sonra bağlama bağlıdır (rastgele değişkenin anlamı mıydı) ama bazı durumlarda bunları kaldırmak isteyebilirsiniz?
robin girard

@Peter Dirk'e yaptığım yorumu görüyorsa, bu bir bağlamda "sürpriz" i açıklayabilir. Aslında bir süredir istatistik öğrettim ve bahsettiğiniz sürprizi hiç görmedim. Her neyse, bunun iyi bir epistemolojik pozisyon olduğuna emin olduğum her şeyden şaşkın olan studient'i tercih ediyorum (kesinlikle sürpriz pozisyonu bayılmamaktan daha iyi :)).
robin girard

@AndyDent "kötü" verileri, bana göre, yanlış kaydedilmiş veriler anlamına gelir. Ortalamadan uzak olan veriler aykırı değerlerdir. Örneğin, insanların yüksekliklerini ölçtüğünüzü varsayalım. Beni ölçer ve boyumu 5'7 yerine 7'5 'olarak kaydederseniz, bu kötü verilerdir. Yao Ming'i ölçüp boyunu 7'5 "olarak kaydederseniz, bu aykırı ama kötü bir veri değildir. Ortalamadan çok uzak olmasına bakılmaksızın (6 sds gibi bir şey)
Peter Flom - Monica'yı eski durumuna döndürün

@Peter Florn, Bizim durumumuzda, kafes işlemede algoritmik sorunlara neden olacak üçgenleri temsil ettikleri için kurtulmak istediğimiz aykırı değerlerimiz var. Hatalı tarama cihazları veya diğer biçimlerden dönüştürülerek oluşturulduysa, sizin için "kötü veriler" bile olabilir :-) Diğer şekiller, ortalamadan meşru olarak uzun bir yol olan ancak bir sorunu temsil etmeyen aykırı değerlere sahip olabilir. Bu verilerle ilgili daha ilginç şeylerden biri, her iki uçta da "kötü veriler" olması, ancak küçüklerin ortalamadan uzak olmamasıdır.
Andy Dent

6

Sadece bir genel noktası ekleyerek, bir hesap açısından, ve x 2 f ( x ), d x ile ilgili Jensen eşitsizliğinin iki integraller, mevcut varsayarak x 2 f ( x ) D X { x f ( x ) d x } 2

xf(x)dx
x2f(x)dx
Bu genel eşitsizlik göz önüne alındığında, hiçbir şey varyansın keyfi olarak büyümesini engellemez. Ν serbestlik derecesi, X T ( ν , μ , σ ) ileöğrencinin t dağılımınatanık olun ve Y = | X | ikinci anı X'in ikinci anı ile aynı olan, E [ | X | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|Xν>2 olduğunda. Bu nedenle,ν2'yedüştüğündesonsuzagider,Y'ninortalamasıν>1olduğu sürece sonlu kalır.
E[|X|2]=νν2σ2+μ2,
ν>2ν2Yν>1

1
Lütfen sorudaki negatif olmayan değerlerle ilgili açık kısıtlamaya dikkat edin .
whuber

Öğrenci örneği kolayca bir öğrencinin t-dağılımının mutlak değeri-değerine dönüştürülür ...
Xi'an

1
Ama bu elbette ortalamayı değiştirir :-). Soru SD ile ortalama arasındaki ilişki ile ilgilidir (başlığına bakınız). Yanlış olduğunu söylemiyorum; Ben sadece (dolaylı olarak) cevabınızın, az çalışma ile soruyu daha doğrudan ele alabileceğini öneriyorum.
whuber

@whuber: tamam, mutlak değeri göz önünde bulundurarak yukarıdaki düzenlemeyi yaptım (mutlak değerin ortalamasını da elde ettim ancak <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> oldukça kaba bir şekilde </ a> ...)
Xi'an

3

Belki de OP ortalama 1 SD'nin negatif bir sayı olduğuna şaşırır (özellikle minimum 0 olduğunda).

İşte açıklığa kavuşturabilecek iki örnek.

Farz edelim ki 18 birinci sınıf öğrencisi olan 18 birinci sınıf, 1 5 ve 1 7 sınıftan oluşan bir sınıfınız var. Şimdi 49 yaşındaki öğretmene ekleyin. Ortalama yaş 8.0, standart sapma 9.402'dir.

Düşünüyor olabilirsiniz: Bu sınıf için bir standart sapma aralığı -1.402 ila 17.402 yıl arasında değişmektedir. SD'nin mantıksız gibi görünen negatif bir yaş içerdiğine şaşırabilirsiniz.

Negatif yaş konusunda endişelenmenize gerek yok (veya minimum 0.0'dan daha az uzanan 3D grafikler). Sezgisel olarak, hala ortalamanın 1 SD'sinde verilerin yaklaşık üçte ikisine sahipsiniz. (Aslında ortalama 2 SD içindeki verilerin% 95'ine sahipsiniz.)

Veriler normal olmayan bir dağılım aldığında, bunun gibi şaşırtıcı sonuçlar görürsünüz.

İkinci örnek. Nassim Taleb Rastgele Kandırılan adlı kitabında, inifinte uzunluğundaki bir duvara ateş eden gözleri bağlı bir okçunun düşünce denemesini hazırladı. Okçu +90 derece ile -90 derece arasında çekim yapabilir.

Arada bir, okçu oku duvara paralel olarak vurur ve asla vurmaz. Sayıların dağılımı olarak okun hedefi ne kadar özlediğini düşünün. Bu senaryo için standart sapma inifinte olacaktır.


Ortalama 1 SD içindeki verilerin yaklaşık 2 / 3'ü normal veri içindir. Ancak sınıf verileri açıkça normal değildir (küçük örneklem büyüklüğü nedeniyle normallik için bir test geçse bile). Taleb'in örneği korkunç. Bir değişkenin zayıf işlemesine bir örnek. Olduğu gibi ele alındığında, hem ortalama hem de SD sonsuz olacaktır. Ama bu saçmalık. "Ok ne kadar özlüyor" - bana göre, bu bir mesafe. Ok, nasıl pişirilirse getirilsin, bir yere inecektir. Oradan hedefe olan mesafeyi ölçün. Artık sonsuzluk yok.
Peter Flom - Monica'yı eski durumuna döndürün

1
Evet, OP ortalama ilk gördüğümde yeterince şaşırdı - 1 SD negatif oldu, en azından algoritmamın aynı değerleri hesapladığını doğrulamak için Excel'den veri kullanarak yepyeni bir birim test seti yazdım. Excel'in sadece yetkili bir kaynak olması gerektiğinden, değil mi?
Andy Dent

@Peter 2/3 kuralı (% 68-95-99.7 kuralının bir parçası), çoğu normal olmayan ve hatta orta derecede çarpık olanlar için çok çeşitli veri kümeleri için iyidir. (Kural simetrik veri kümeleri için oldukça iyidir.) SD ve ortalamaların sonlu olmaması "saçmalık" değildir. Taleb'in örneği, Cauchy dağılımının veri oluşturma sürecini açıkça yönettiği birkaç anlaşılmaz durumdan biridir. SD'nin sonsuzluğu, duvarı kaçırma olasılığından değil, gerçek isabetlerin dağılımından kaynaklanır.
whuber

1
@whuber İlk noktanızın farkındaydım, bu iyi bir nokta. Senin ikinci noktan hakkında aynı fikirde değilim. Bana başka bir tartışmalı örnek gibi geliyor.
Peter Flom - Monica'yı eski durumuna döndürün

3

Bir gama rastgele değişkenin X yoğunluk ile

fX(x)=βαΓ(α)xα-1e-βxben(0,)(x),
ile α,β>0, neredeyse kesinlikle olumlu. Herhangi bir ortalama seçinm>0 ve herhangi bir standart sapma s>0. Olumlu oldukları sürece,m>s veya m<s. koymakα=m2/s2 ve β=m/s2, ortalama ve standart sapması X Hangi E[X]=α/β=m ve Var[X]=α/β2=s. With a big enough sample from the distribution of X, by the SLLN, the sample mean and sample standard deviation will be close to m and s. You can play with R to get a feeling about this. Here are examples with m>s and m<s.
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139

1

As pointed out in the other answers, the mean x¯ and standard deviation σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c], say, then, for large data sets (where the distinction between dividing by n or by n1 does not matter very much), the following inequality holds:

σxx¯(cx¯)c2
and so if x¯>c/2, we can be sure that σx will be smaller. Indeed, since σx=c/2 only for an extremal distribution (half the data have value 0 and the other half value c), σx<x¯ can hold in some cases when x¯<c/2 as well. If the data are measurements of some physical quantity that is nonnegative (e.g. area) and have an empirical distribution that is a good fit to a normal distribution, then σx will be considerably smaller than min{x¯,cx¯} since the fitted normal distribution should assign negligibly small probability to the events {X<0} and {X>c}.

4
I don't think the question is whether the dataset is normal; its non-normality is stipulated. The question concerns whether there might have been some error made in computing the standard deviation, because the OP is surprised that even in this obviously non-normal dataset the SD is much larger than the mean. If an error was not made, what can one conclude from such a large coefficient of variation?
whuber

9
Any answer or comment that claims the mean and sd of a dataset are unrelated is plainly incorrect, because both are functions of the same data and both will change whenever a single one of the data values is changed. This remark does bear some echoes of a similar sounding statement that is true (but not terribly relevant to the current question); namely, that the sample mean and sample sd of data drawn independently from a normal distribution are independent (in the probabilistic sense).
whuber

1

What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.


0

Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.