Kümenin şekli nasıl ölçülür?


14

Bu sorunun iyi tanımlanmadığını biliyorum, ancak bazı kümeler eliptik olma eğilimindedir veya diğeri doğrusal olmayan şekillere sahipken (2D veya 3D örneklerde) düşük boyutlu uzayda yatar.

Kümelerin doğrusal olmama (veya "şekil") ölçüsü var mı?

2B ve 3B alanda, herhangi bir kümenin şeklini görmek bir sorun değildir, ancak daha yüksek boyutlu alanlarda şekil hakkında bir şey söylemek sorun değildir. Özellikle, dışbükey kümenin ne kadar olduğuna dair herhangi bir önlem var mı?

Bu sorudan, insanların kümeler hakkında konuştukları başka pek çok kümelenme sorusundan ilham aldım, ancak kimse onları göremiyor (daha yüksek boyutlu alanlarda). Dahası, 2B eğriler için bazı doğrusal olmama önlemleri olduğunu biliyorum.


1
en.wikipedia.org/wiki/Topological_data_analysis , şeklin tam olarak ne demek istediğiniz gibi olmadığı durumlarda yardımcı olabilir.
ziyuang

1
Belki de kompaktlık kavramını amacınıza göre uyarlayabilirsiniz .
user12719

Yanıtlar:


4

Gauss Karışımı modellerini (GMM) seviyorum .

Özelliklerinden biri, probit alanında parçalı interpolatörler gibi davranmalarıdır. Bunun bir sonucu, bir yedek temel, evrensel bir yaklaşım gibi davranabilmeleridir. Bu, bazı kriterler karşılandığı sürece lognormal, weibull veya daha çılgın analitik olmayanlar gibi gauss dışı dağılımlar için GMM'nin dağılımı yaklaşık olarak tahmin edebileceği anlamına gelir.

GMM kullanarak AICc veya BIC optimal yaklaşım parametrelerini biliyorsanız, o zaman bunu daha küçük boyutlara yansıtabilirsiniz. Döndürebilir ve yaklaşık GMM bileşenlerinin ana eksenlerine bakabilirsiniz.

Sonuç, 3 boyutlu görüntüleme görsel algımızı kullanarak yüksek boyutlu verilerin en önemli kısımlarına bakmak için bilgilendirici ve görsel olarak erişilebilir bir yol olacaktır.

EDIT: (emin bir şey, whuber)

Şekle bakmanın birkaç yolu vardır.

  • Trendlerdeki eğilimlere bakabilirsiniz. Bir lognormal, aşamalı olarak yaklaşmak ve ilerlemesi boyunca ağırlıkları küçülmek anlamına gelen bir dizi Gaussian tarafından yaklaşılır. Toplam, daha ağır kuyruğa yaklaşır. N-boyutlarında, bu tür bileşenlerin bir dizisi bir lob oluşturacaktır. Ortalamalar (yüksek boyuta dönüştürme) ve yön kosinüsleri arasındaki mesafeleri de takip edebilirsiniz. Bu çok daha erişilebilir boyutlara dönüşecektir.
  • Eksenleri ağırlık, ortalamanın büyüklüğü ve varyansın / kovaryansın büyüklüğü olan bir 3d sistem yapabilirsiniz. Çok yüksek bir küme sayımınız varsa, bu onları birbirleriyle karşılaştırıldığında görüntülemenin bir yoludur. 50k parçayı 2k ölçülerde her biri 3B alanda birkaç buluta dönüştürmenin değerli bir yoludur. İstersem bu alanda süreç kontrolünü yürütebilirim. Gauss karışım modelinin parça parametrelerine uygun bileşenleri üzerinde gauss karışım modeli tabanlı kontrol kullanmanın özyinelemesini seviyorum.
  • Yığılmayı giderme açısından, çok küçük bir ağırlıkla veya kovaryans başına ağırlıkla veya benzeri şekilde atılabilir.
  • GMM bulutunu BIC, , Mahalanobis bileşenlere uzaklığı veya toplamı, üyelik olasılığı veya toplamı olarak çizebilirsiniz. R2
  • Kesişen kabarcıklar gibi bakabilirsiniz . Her GMM kümesi çifti arasında eşit olasılık yeri (sıfır Kullback-Leibler sapması) bulunur. Bu konumu izlerseniz, o konuma üyelik olasılığına göre filtreleyebilirsiniz. Size sınıflandırma sınırlarını gösterecektir. Bu "yalnızları" izole etmenize yardımcı olacaktır. Üye başına eşiğin üzerindeki bu tür sınırların sayısını sayabilir ve bileşen başına bir "bağlılık" listesi alabilirsiniz. Konumlar arasındaki açılara ve mesafelere de bakabilirsiniz.
  • Gauss PDF'leri verilen rasgele sayıları kullanarak alanı yeniden örnekleyebilir ve daha sonra üzerinde temel bileşen analizi yapabilir ve bunlarla ilişkili öz biçimlere ve özdeğerlere bakabilirsiniz.

DÜZENLE:

Şekil ne anlama geliyor? Özgüllüğün tüm iyi iletişimin ruhu olduğunu söylüyorlar. "Ölçmek" hakkında ne demek istiyorsun?

Ne anlama gelebileceği hakkında fikirler:

  • Göz küresi normu genel form hissi / hissi. (son derece nitel, görsel erişilebilirlik)
  • GD&T şeklinin ölçüsü (eşdüzlem, eşmerkezlilik, vb.) (son derece nicel)
  • sayısal bir şey (özdeğerler, kovaryanslar, vb ...)
  • yararlı bir azaltılmış boyut koordinatı (GMM parametrelerinin boyut haline gelmesi gibi)
  • azaltılmış gürültü sistemi (bir şekilde düzeltilmiş, sonra sunulmuştur)

"Birkaç yol" un çoğu bunlar üzerinde bir çeşitliliktir.


3

Bu oldukça basit olabilir, ancak kümelerinizin her birinde bir özdeğer analizi yaparak biraz fikir edinebilirsiniz.

Denemek istediğim, bir kümeye atanan tüm puanları alıp çok değişkenli bir Gauss'la uydurmak. Sonra takılan kovaryans matrisinin özdeğerlerini hesaplayabilir ve bunları çizebilirsiniz. Bunu yapmanın birçok yolu vardır; belki de en iyi bilinen ve yaygın olarak kullanılan ana bileşen analizi veya PCA olarak adlandırılır .

Özdeğerlere (spektrum da denir) sahip olduktan sonra, kümenin belirli boyutlarda nasıl "gerildiğini" belirlemek için göreceli boyutlarını inceleyebilirsiniz. Spektrum ne kadar az homojen olursa, küme o kadar "puro şeklinde" olur ve spektrum ne kadar homojen olursa, küme o kadar küresel olur. Öz değerlerin ne kadar homojen olmadığını (spektral entropi?) Belirtmek için bir çeşit metrik bile tanımlayabilirsiniz; bkz. http://en.wikipedia.org/wiki/Spectral_flatness .

Bir yan fayda olarak, temel bileşenleri (büyük özdeğerlerle ilişkili özvektörler) inceleyerek veri alanınızda "puro şeklindeki" kümelerin "nereye" baktığını görebilirsiniz.

Doğal olarak bu, kümedeki noktaları tek bir elipsoid olarak modellediğinden, rastgele bir küme için kaba bir yaklaşımdır. Ama dediğim gibi, size bir fikir verebilir.


+1 Basit, belki; ama bu etkili ve pratik görünüyor. Çok değişkenli Gauss uydurma için herhangi bir avantaj gibi görünmemektedir: sadece merkezlenmiş küme verilerinin SVD'sini kullanın (esas olarak kümedeki PCA'dır).
whuber

@whuber evet, sanırım aynı şeyi yapıyorlar! Uydurma teorinin perde arkasında söylediği şeydir, oysa PCA bu sürecin somut bir uygulamasıdır. Bunu daha açık hale getirmek için cevabımı düzenleyeceğim.
lmjohns3

2

4C, ERiC veya LMCLUS gibi korelasyon kümeleme algoritmaları genellikle kümelerin doğrusal manifoldlar olduğunu düşünür. Yani d-boyutlu uzayda k-boyutlu hiperplanlar. 4C ve ERiC için sadece yerel olarak doğrusal, bu yüzden aslında dışbükey olabilirler. Ancak yine de azaltılmış yerel boyutluluğa sahip kümeleri tespit etmeye çalışıyorlar.

Yüksek boyutlu verilerde rasgele şekilli kümeler bulmak oldukça zor bir sorundur. Özellikle, arama alanının patlamasına izin veren boyutsallık laneti nedeniyle ve aynı zamanda hala önemli sonuçlar istiyorsanız çok daha büyük bir giriş verisine sahip olmanızı gerektirir . Çok fazla algoritma, bulduklarının hala önemli olup olmadığına veya rastgele olabileceğine dikkat etmez.

Aslında, yüksek boyutlu uzayda karmaşık kümelerin dışbükeyliğinin dışbükeyliğini düşünmeden önce çözülmesi gereken başka problemler olduğuna inanıyorum.

Ayrıca dışbükey gövdeyi daha yüksek boyutlarda hesaplamanın karmaşıklığına bir göz atın ...

Ayrıca, bunun ötesinde bir merakınız var mı?


2

Boyutsallığınız 2 veya 3'ten çok daha yüksek değilse, ilgili kümeyi 2B uzaya birden çok kez yansıtmak ve sonuçları görselleştirmek veya 2B doğrusal olmayanlık ölçümünüzü kullanmak mümkün olabilir. Bunu Rastgele Projeksiyonlar yöntemi nedeniyle düşündüm http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .

Bir indeks oluşturmak için boyutsallığı azaltmak amacıyla rastgele projeksiyonlar kullanılabilir. Teori, D noktalarında iki nokta yakınsa ve d boyutlarında d ile rastgele bir projeksiyon alırsanız,

Somutluk için, bir küreyi düz bir yüzeye yansıtmayı düşünebilirsiniz. Nasıl tasarlarsanız tasarlayın New York ve New Jersey birlikte olacaklar, ancak New York ve Londra'yı nadiren bir araya getireceksiniz.

Bunun size titizlikle yardımcı olup olmayacağını bilmiyorum, ancak kümeleri görselleştirmenin hızlı bir yolu olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.