Standart sapmanın 2D analogu mu?


19

Aşağıdaki deneyi düşünün: bir grup kişiye bir şehir listesi verilir ve karşılık gelen yerleri dünyanın (aksi halde etiketlenmemiş) bir haritada işaretlemesi istenir. Her şehir için, kabaca ilgili şehir merkezli noktaların saçılmasını sağlayabilirsiniz. İstanbul gibi bazı şehirler, diğerlerine göre daha az saçılma sergileyeceklerini söylüyor.

En Verilen şehir için biz 2D takım numune almak olduğunu varsayalım {(xi,yi)} , temsil (x,y) harita üzerinde (yerel koordinat sisteminde örneğin) şehrin konumunu testi ile tayin konu i . Bu setteki noktaların "dağılım" miktarını uygun birimlerde (km) tek bir sayı olarak ifade etmek istiyorum.

Bir 1D problemi için standart sapmayı seçerdim, ancak yukarıda açıklanan durum için makul olarak seçilebilen bir 2D analog var mı?


bir fetih mi yapıyorsun?
RockScience

Örnek açıkça mekansal olduğu için mekansal etiketi ekledim. Siz (ya da başka biri) gereksiz olduğunu hissediyorsanız, bu eklemeyi geri almaktan çekinmeyin.
Andy W

Yanıtlar:


12

Kullanabileceğiniz bir şey , noktaların örnek ortalaması ( ¯ x , ¯ y ) veya belki de gözlemlenen noktaların sentroidi gibi merkezi bir noktadan, bir uzaklık ölçüsüdür . O zaman bir dağılım ölçüsü, bu merkezi noktadan ortalama uzaklık olacaktır:c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

burada zi={xi,yi} . Uzaklık ölçüsü ancak birçok potansiyel seçenek vardır L2 norm (örneğin Öklid mesafesi) makul bir seçim olabilir:

||zic||=(xic1)2+(yic2)2

Yine de birçok potansiyel seçenek var. Bkz. Http://en.wikipedia.org/wiki/Norm_%28mathematics%29


Mesafe sıfırdan farklı olsa da, dejenere durumda bir boyutta olağan standart sapma ile aynı fikirde olmadığı için bu gerçekten garip bir seçimdir. Bunun yerine düşünün . zic2
Alex R.

6

Nokta örüntülerinin uzamsal dağılımı için metriklere iyi bir referans CrimeStat el kitabıdır (özellikle bu soru için Bölüm 4 ilgi çekecektir ). Önerilen metrik Makroya benzer şekilde, Standart Mesafe Sapması 2D standart sapmaya benzer (tek fark, Makro'nun verdiği ilk formülde "n" yerine "n-2" ye bölmenizdir).

Örnek denemeniz aslında çalışmaların Coğrafi Suçlu Profili Oluşturma'yı nasıl değerlendirdiğini hatırlatıyor ve bu nedenle bu çalışmalarda kullanılan metrikler ilgi çekici olabilir. Özellikle, kesinlik ve kesinlik terimleri biraz kullanılır ve çalışma ile ilgili olacaktır. Tahminler küçük bir standart sapmaya (yani kesin) sahip olabilir, ancak yine de çok düşük bir doğruluğa sahiptir.


1

Veri kümesinin korelasyonunu dikkate aldığı ve 'ölçek değişmez' olduğu için Öklid uzaklık normları yerine 'Mahalanobis Uzaklığı' kullanmanız gerektiğini düşünüyorum. Bağlantı burada:

http://en.wikipedia.org/wiki/Mahalanobis_distance

'Yarı Uzay Derinliği'ni de kullanabilirsiniz. Biraz daha karmaşık ama birçok çekici özelliği paylaşıyor. Veri kümesine (P) göre belirli bir noktanın Yarım boşluk Derinliği (Konum derinliği olarak da bilinir), bir çizgiyle a ile belirlenen herhangi bir kapalı yarım düzlemde yer alan minimum P noktası sayısıdır. İşte bağlantılar:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


1
Belirli noktaların sete "ait olup olmadığını" anlatmaya çalışırken Mahalanobis mesafelerini kullandığımı anlıyorum, ancak sentroiddeki ortalama Öklid mesafesinin, kullanılan bir varyans / standart sapma kavramıyla daha yakından ilişkili olmadığını tek değişkenli ayar?
Makro

2
"Verilerin korelasyonunu dikkate alır" ve "ölçek değişmezdir" ifadeleri üzerinde durmak ister misiniz? Bunlardan herhangi birinin eldeki soruya ne ilgisi var?
Andy W

Standart sapmanın daha yüksek boyuta olağan uzantısı, elbette belirli bir noktanın verinin merkezinden uzaklığını hesaplamanın bir yoludur - ancak burada her noktayı normalleştiriyoruz, bu da küme analizi veya aykırı algılama gerçekleştirmeyi kolaylaştırıyor. Ayrıca Mahalanobis mesafesi, nokta dağılımının küresel olmadığı durumlara daha uyumludur. Küresel simetrik durumlar için, veri noktalarının kovaryans matrisinin kimlik matrisine indirildiği olağan genişletilmiş standart sapma ile aynıdır.
VitalStatistix

1

Aslında son zamanlarda benzer bir sorunla karşılaştım. Noktaların alan bakımından ne kadar iyi dağıldığını ölçmek için bir yol istediğiniz gibi görünüyor. Tabii ki, belirli bir ölçüm için, tüm noktalar düz bir çizgideyse, cevabın sıfır olduğunu fark etmelisiniz, çünkü 2 boyutlu çeşitlilik yoktur.

Yaptığım hesaplamalardan, ben de bunu yaptım:

SxxSyySxy²

Bu durumda, Sxx ve Syy sırasıyla x ve y'nin varyanslarıdır, oysa Sxy, x ve y'nin karışık varyansı gibidir.

Ayrıntılı olarak, n element olduğu ve x'inxμ ortalama değerini ve y'ninyμ ortalamasını temsil ettiği varsayıldığında :

Sxx=1ni=1n(xxμ)²
Syy=1ni=1n(yyμ)²
Sxy=1ni=1n(xxμ)(yyμ)

Umarım bu sizin için işe yarar.

Ayrıca, hacim dağılımını veya surteron yığınını 4 boyutta ölçmek gibi daha yüksek boyutlarda nasıl yapacağınızı merak ediyorsanız, aşağıdaki gibi bir matris oluşturmanız gerekir:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

Ve ihtiyaç duyduğunuz boyutlara devam edin. Yukarıda verilen tanımları verilen S değerlerini, ancak farklı değişkenler için anlayabilmelisiniz.

Matris oluşturulduktan sonra, determinant alın, kare kökü bulun ve işiniz bitti.


0

İçin bu özel örnekte - önceden belirlenmiş "doğru" cevabı olduğu yerde - ı ediyorum yeniden çalışma x / y cooridnates harita üzerinde işareti istendi ediliyordu şehir etrafında kutupsal koordinatlar olmak. Daha sonra doğruluk, radyal bileşene (ortalama, sd, vb.) Göre ölçülür. Yanlılığı ölçmek için bir "ortalama açı" da kullanılabilir.

Kendim için hala önceden belirlenmiş bir merkez noktası olmadığında iyi bir çözüm arıyorum ve bir sentroid oluşturmak için verilerin üzerinde bir ön geçiş fikrinden hoşlanmıyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.