Hafta içi dağıtımın tekdüzeliğini ölçme


11

Burada sorulan soruya benzer bir sorunum var:

Bir dağılımın tekdüzeliği nasıl ölçülür?

Haftanın günleri boyunca bir dizi olasılık dağılımı var. Her bir dağılımın ne kadar yakın olduğunu ölçmek istiyorum (1 / 7,1 / 7, ..., 1/7).

Şu anda yukarıdaki sorunun cevabını kullanıyorum; dağılım bir gün için kütle 1'e sahip olduğunda 1 değerine sahip olan ve (1 / 7,1 / 7, ..., 1/7) için minimize edilen bir L2-Norm. Bunu doğrusal olarak ölçeklendiriyorum, bu yüzden 0 ile 1 arasında yer alıyor, sonra 0 çevirmek 0 mükemmel düzgün olmayan ve 1 mükemmel derecede düzgün anlamına geliyor.

Bu oldukça iyi çalışıyor, ama bununla ilgili bir sorunum var; hafta içi her günü 7-Dim uzayında eşit bir boyut olarak ele alır, bu nedenle günlerin yakınlığını hesaba katmaz; başka bir deyişle, aynı puanı (1 / 2,1 / 2,0,0,0,0,0) ve (1 / 2,0,0,1 / 2,0,0,0) 'e eşit verir. bir anlamda ikincisi daha "yayılmış" ve aynıdır ve ideal olarak daha yüksek bir puan almalıdır. Açıkçası günlerin sıralamasının dairesel olduğu ilave bir komplikasyon var.

Günlerin yakınlığını açıklamak için bu buluşsal yöntemi nasıl değiştirebilirim?


1
(1 / 2,1 / 2,0,0,0,0,0) ve (1 / 2,0,0,1 / 2,0,0,0) örneğiniz aynı şekilde aynı değildir Bu nedenle, yalnızca tek tipliği test etmekle ilgilenip ilgilenmediğiniz önemli değildir. Belki de sorunuzda açıkça belirtilmeyen bir şeyi daha test etmek istersiniz? Btw, entropi tekdüzeliğin bir ölçüsüdür.
Tim

Teşekkürler Tim, Entropy kullanmayı denedim ama yukarıda bahsedilen buluşsal yöntemlerin benim amacım için daha iyi çalıştığını gördüm. İlgilendiğim hafta içi olasılık dağılımının özelliği olarak adlandırılacağından emin değilim, ancak hafta boyunca olasılıkların "yayılması" anlamına gelmelidir.
EBartrum

Yanıtlar:


15

Toprak taşıyıcı mesafesi iki histogramlar arasında Wasserstein metriği önlemler mesafe olarak da bilinir. Esasen, bir histogramı bir dizi kir yığını olarak değerlendirir ve daha sonra kişinin ne kadar kiri hareket ettirmesi gerektiğini ve bu histogramı diğerine dönüştürmek için ne kadar (!) Olduğunu değerlendirir. Haftanın günleri boyunca dağılımınız ile tekdüze olan arasındaki mesafeyi ölçersiniz.

Bu elbette günlerin yakınlığını açıklar - "kir" i Pazartesi'den Salı'ya taşımak Pazartesi'den Perşembeye taşımak daha kolaydır, bu nedenle (1 / 2,0,0,1 / 2,0,0,0) üniform dağılımdan Pazartesi ve Salı günleri üzerinde yoğunlaşan bir histogramdan daha düşük toprak taşıma mesafesi.

Bunun yapmadığı şey haftanın "yuvarlaklığı" dır, yani Cumartesi ve Pazar günleri Pazar ve Pazartesi günleri kadar birbirine yakındır. Bunun için , dairesel olasılık kütle dağılımlarında tanımlanan bir yer değiştirme mesafesine bakmanız gerekir . Bu, uygun bir optimizasyon yaklaşımı kullanılarak yapılabilir.


EDIT: R'de, emdpaket histogramlar arasındaki toprak taşıma mesafelerini hesaplar.

"Dairesellık" sorununu oldukça basit (ancak geçici) bir şekilde çözebilirsiniz.

  • d1
  • d2
  • d3
  • ...
  • d1,,d7

Bu, birkaç ek hesaplama pahasına daireselliğe dikkat eder.

di

Bununla birlikte, bunu en azından bir şekilde daireselliği düşünmek için potansiyel olarak yararlı bir yol olarak görüyorum - kesinlikle tek bir histogram kullanmak ve haftayı Pazar'dan Cumartesi'ye veya başka bir keyfi şekilde tanımlamaktan kesinlikle daha iyi. Ayrıca, yukarıdaki bazı bağlantılar dairesel yer değiştirici mesafesi için uygulamaları ortaya çıkarırken, muhtemelen burada en çok kullanılan dil olan R için bir tane bilmiyorum.


3
d1,,d7di

@JiK: iyi bir nokta ve dün bağlantımı kaybettikten sonra da başıma gelen bir nokta. Cevabımın bunun gerçek bir dairesel yer değiştirici mesafesi değil, bir hack olduğunu vurgulamak için açıklığa kavuştum.
Stephan Kolassa

1
Çok teşekkürler, aslında kendi mesafe fonksiyonumu tanımlayarak, emd paketi ve emd2d fonksiyonu ile R'de dairesel bir topraklama mesafesi uygulamayı başardım, bu yüzden bahsettiğiniz kesmek kullanmanıza gerek yoktu. Tam da aradığım şey buydu! Bir diğer önemsiz mesele: Buna ne demeliyim? Tim'in yukarıda söylediği gibi, bu tekdüzelik olarak adlandırmamalıyım. Bu buluşsal yöntem için uygun bir isim ne olurdu?
EBartrum

1
L2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.