Bir dağılımın düzensizliğini nasıl ölçer?


28

Çalıştığım bir deney için dağılımın tek biçimliliğini ölçmek için bir ölçüm bulmaya çalışıyorum. Çoğu durumda eşit olarak dağıtılması gereken rastgele bir değişkenim var ve değişkenin bazı sınırlar içinde eşit olarak dağıtılmadığı veri kümelerinin örneklerini tanımlayabiliyorum (ve derecesini ölçebiliyorum).

Her biri, ölçtüğüm bir şeyin meydana gelme sıklığını temsil eden 10 ölçümden oluşan üç veri serisine bir örnek şöyle olabilir:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

C gibi dağılımları a ve b gibi gruplardan ayırt edebilmek ve c'nin tek tip bir dağılımdan sapmasını ölçmek istiyorum. Aynı şekilde, bir dağılımın ne kadar tek biçimli olduğuna dair bir ölçüt varsa (sıfıra yakın std. Sapma?), Belki de bunu yüksek varyansa sahip olanları ayırt etmek için kullanabilirim. Ancak, verilerim yukarıdaki c örneği gibi yalnızca bir veya iki aykırı olabilir ve bunun kolayca tespit edilip edilmeyeceğinden emin değilim.

Bunu yazılımda yapacak bir şeyi hackleyebilirim, ancak bunu resmi olarak haklı çıkarmak için istatistiksel yöntemler / yaklaşımlar arıyorum. Yıllar önce ders aldım, ancak istatistikler alanım değil. Bu iyi bilinen bir yaklaşıma sahip olması gereken bir şeye benziyor. Bunlardan herhangi biri tamamen kemik başlıysa özür dilerim. Şimdiden teşekkürler!


Yanıtlar:


18

Sadece frekanslarınız değil, gerçek sayımlarınız varsa, her veri serisi için uyumluluk testi kullanabilirsiniz . Özellikle testi ayrı bir düzgün dağılım için kullanmak istiyorsunuz . Bu size , hangi veri serilerinin tek tip bir dağıtım tarafından yaratılmadığını, ancak bir tekdüzelik ölçüsü sağlamadığını bulma imkanı veren iyi bir test sunar.χ2

Her serinin entropisini hesaplamak gibi başka olası yaklaşımlar da vardır - tekdüze dağılım entropiyi maksimuma çıkarır, böylece entropi şüpheli derecede düşükse, muhtemelen tekdüze bir dağılıma sahip olmadığınız sonucuna varırsınız. Bu, bir anlamda bir tekdüzelik ölçüsü olarak çalışır.

Diğer bir öneri , iki dağılımın benzerliğini ölçen Kullback-Leibler sapması gibi bir önlem kullanmak olacaktır .


Cevabınızla ilgili birkaç sorum var: 1. Neden ki-kare ki bir tek biçimlilik ölçüsü vermiyor? Tekdüze dağılımlı bir uyum testi tekdüzelik ölçüsü değil midir? 2. Ne zaman ki-kare veya entropi kullanmamız gerektiğini nasıl bilebiliriz?
kanzen_master

@kanzen_master: Ki-kare istatistiğinin bir tek biçimlilik ölçüsü olarak görülebildiğini tahmin ediyorum, ancak yakınsaklık eksikliği, keyfi olarak yerleştirilmiş kutulara bağımlılık, hücrelerde beklenen sayının ihtiyaç duyduğu gibi bazı sakıncaları var. Yeterince geniş olması, vb. Hangi ölçümün / testin kullanılacağı bir zevk meselesidir ve entropi de problemsiz değildir (özellikle, bir dağıtımın entropisinin birçok farklı tahmincisi vardır). Bana göre entropi daha az keyfi bir önlem gibi görünüyor ve yorumlanması daha kolay.
Öğleden sonra

8

@MansT'ın iyi fikirlerine ek olarak, başka önlemler de alabilirsiniz, ancak bu "tekdüzeliksizlik" ile ne kastettiğinize bağlıdır. Basit tutmak için, 4 seviyeye bakalım. Mükemmel homojenliğin tanımlanması kolaydır:

25 25 25 25

fakat aşağıdakilerden hangisi daha üniform değildir?

20 20 30 30 veya 20 20 25 35

ya da eşit olarak üniforma mı?

Eşit olarak eşit olmadıklarını düşünüyorsanız, normalden sapmaların mutlak değerlerinin toplamına dayanan bir ölçü kullanabilirsiniz, mümkün olan maksimum değere göre ölçeklendirilebilir. O zaman ilki 5 + 5 + 5 + 5 = 20 ve ikincisi 5 + 5 + 0 + 10 = 20'dir. Fakat ikincisinin daha üniform olmadığını düşünüyorsanız, kare sapmalara dayanarak bir şey kullanabilirsiniz. ilk önce 25 + 25 + 25 + 25 = 100, ikincisi 25 + 25 + 0 + 100 = 150 olur.


1
You seem to be interpreting "uniformly distributed" as "equal", Peter. Whether that is the OP's intention is a valid point to raise, but really should appear as a comment to the question.
whuber

Hi @whuber That seemed to be what he meant, from the question. What else might it mean?
Peter Flom - Reinstate Monica

2
F(x)=1xμF(x)=0x<μF(x)=(xα)/θx[α,α+θ]. You define "perfect uniformity" in the first sense whereas the standard statistical sense is the second.
whuber

@whuber, it seems to me the first thing is closer to what the original poster meant by "uniform". Looking at it again, it seems like he/she was using "uniform" to mean "low variance".
Macro

That's just it, Macro: we cannot really say. The question needs clarification before it deserves an answer, IMHO. The accepted answer suggests the OP used "uniform" in the standard statistical sense.
whuber

6

Here is a simple heuristic: if you assume elements in any vector sum to 1 (or simply normalize each element with the sum to achieve this), then uniformity can be represented by L2 norm, which ranges from 1d to 1, with d being the dimension of vectors.

The lower bound 1d corresponds to uniformity and upper bound to the 1-hot vector.

To scale this to a score between 0 and 1, you can use nd1d1, where n is the L2 norm.

An example modified from yours with elements summing to 1 and all vectors with the same dimension for simplicity:

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

The following will yield 0.0028, 0.0051, and 0.4529 for the rows:

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

1
That works nicely. But why (or under what circumstances) should it be preferred to any other Lp norm or to the other solutions offered on this thread?
whuber

@whuber that I don't know and I don't know of any research on this. Basically it's something I've used as a heuristic that might fit what OP is after, and I don't really claim it being a preferred approach.
user495285

@whuber - Could you figure out theoretically why this works so well. I need to cite this.
Ketan

@user495285 - This seems to work directly with values, and not just frequencies. In your experience, is it better to use it only with frequencies or is it okay to use it directly on a vector.
Ketan

@Ketan I would advise against citing this post, because it's heuristic and theoretically unsupported. (Because it does not rely on any consideration of sampling variation, there is no way to tell--without further analysis--whether it's any good.) It just so happens, though, that the L2 norm has a simple algebraic connection to the χ2 statistic used in goodness of fit tests: that's the reason it might be suitable to measure non-uniformity.
whuber

0

Stumbled upon this recently, and to add to the answer from @user495285, as far as I understand it:

When the values are normalized and sum to one, then the uniform distribution is the unit sphere in Rn, and what is being calculated by using an Lp norm is the deviation from the unit sphere using a distance measure of a given p, i.e. deviation from the uniform distribution in Rn with geometric distance measure p.

The L2 norm places higher weight on large deviations from the unit sphere in any given dimension, whereas smaller values of p place less weight on large deviations.

When the underlying distribution is the unit sphere, the numerator equals zero in the following equation:

nd1d1
where n is the L2 norm and d is the vector length.

I believe that the usefulness of geometric measures applies when each position (dimension) of the space described is assumed to be measured on equivalent scales, e.g. all counts of potentially equal distribution. The same assumptions underlying change of bases like PCA/SVD probably are similar here. But then again I'm no mathematician, so I'll leave that open to the more informed.


Sounds helpful. Could you please point me some reference, so that I can understand this better? I actually need to cite this.
Ketan

You could cite any linear algebra text that covers the Lp norm; this is a very common subject in geometry: how to calculate a distance between two points in an N-dimensional space. You may not even have to cite it depending on your field.
lakinsm
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.