1D verilerinin 1 veya 3 değer etrafında kümelenip kümelenmediğini nicel olarak nasıl anlarım?


9

Bir insanın kalp atışları arasındaki zaman hakkında bazı verilerim var. Ektopik (ekstra) atımların bir göstergesi, bu aralıkların bir yerine üç değer etrafında kümelenmiş olmasıdır. Bunun kantitatif bir ölçümünü nasıl alabilirim?

Birden çok veri kümesini karşılaştırmak istiyorum ve bu iki 100 bölmeli histogramlar hepsini temsil ediyor.

resim açıklamasını buraya girin

Varyansları karşılaştırabilirim, ancak algoritmamın diğer vakalarla karşılaştırmadan her durumda bir veya üç küme olup olmadığını tespit edebilmesini istiyorum.

Bu çevrimdışı işleme içindir, bu nedenle gerekirse çok fazla hesaplama gücü vardır.


Yanıtlar:


3

Burada k-araçlarını kullanmaya karşı şiddetle tavsiye ediyorum . Farklı k değerleri için sonuçlar çok iyi karşılaştırılamaz. Yöntem sadece kaba bir sezgisel yöntemdir. Kümelemeyi gerçekten kullanmak istiyorsanız, verileriniz normal dağılımlar içerdiği için EM kümelemeyi kullanın. Ve sonuçlarınızı doğrulayın!

Bunun yerine, bariz yaklaşım tek bir Gauss işlevinin takılmasını denemek ve (örneğin Levenberg-Marquard yöntemini kullanarak) belki de aynı yükseklikte (dejenerasyondan kaçınmak için) kısıtlanmış üç Gauss işlevine uymaktır.

Ardından, iki dağıtımdan hangisinin daha iyi uyduğunu test edin.


Teşekkürler, Levenberg-Marquardt'ı bilmiyordum! Bu kümeler Gauss değil; hala Gauss işlevlerinin onlara uyacak en iyi PDF olacağını düşünüyor musunuz?
Nikolaus

+1 ve Greg Snow'a +1. Bu tavsiyeye tamamen katılıyorum. @Nikolaus Bence bu, Gauss dağılımlarının bir karışımına uyacak şekilde "yeterince gauss" görünüyor. Mükemmel bir uyum istemezsiniz, sadece kaç kümenin olduğunu kontrol etmenin bir yolu. Bu optikte, tüm bileşenleri aynı standart sapmayı paylaşmak için kısıtlamak iyi bir fikir olabilir (Anony-Mousse tarafından açıklanan nedenlerden dolayı).
Elvis

Bana göre yeterince Gaussça ​​görünüyorlar. K-Voronoi hücreleri ile model verileri anlamına gelir. En iyi ayrılma noktasının iki komşu aracın tam ortasında olduğunu varsaymak bana mantıklı gelmiyor.
ÇIKIŞ - Anony-Mousse

6

Verilere bir karışım dağılımını, 3 normal dağılımın bir karışımı gibi bir şey yerleştirin, daha sonra bu uyum olasılığını tek bir normal dağılımın bir uyumuyla karşılaştırın (olasılık oranı testi veya AIC / BIC kullanarak). İçin flexmixpaket Ryardımcı olabilir.


4

K-demektir kümelemeyi kullanmak istiyorsanız, K=1 ve K=3vakalar. Bir yaklaşım kullanmak olacaktır boşluk istatistiğini Tibshirani ve arkadaşlarından. ve seçinKbu daha iyi değer sağlar. SLmisc'de bir R uygulaması var , ancak bu belirli işlev denenecekK=1,2,3, bu nedenle yalnızca K=1 veya K=3 en uygun değer olarak döndürülebilir.


2

Çeşitli araçları tanımlamak için bir K aracı kümeleme algoritması kullanma

Uygun fonksiyonu bulmak için R-arayışında KNN fonksiyonunu arayın


1
Ahh, bunu göndermek üzereydim! Kodlar ve neler
King

Matlab'ın kmeansişlevini denedim . Ortaya çıkan araçlar denemekten çok farklıdır. (Bu uygulamadaki kötü sezgisel tarama?) 1 kümeli küme için bazen (270,293,693) bazen, bazen (260,285,308) bazen ortalamalar alıyorum. 3-küme kümesi için, bazı cevaplar (196.324.468) ve (290.459.478) 'dir.
Nikolaus

Verileri yapıştırabileceğim bir yer var mı?
Nikolaus

Oh, yaklaşık 693 demek: toplam 755 değerden 532 ve 855 olmak üzere iki belirgin aykırı değer var. Geri kalan tüm değerler histogramda görülebilir.
Nikolaus

K-araçlarından elde ettiğiniz araçların ötesine bakmalı ve verilerinizi gerçekten ne kadar iyi tanımladıklarını görmelisiniz!
ÇIKIŞ - Anony-Mousse
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.