GAP istatistiğini nasıl yorumlamalıyım?


10

R'deki k kümelerini tahmin etmek için GAP istatistiğini kullandım. Ancak iyi yorumlayıp yorumlamadığımdan emin değilim. resim açıklamasını buraya girin

Yukarıdaki tablodan 3 küme kullanmam gerektiğini varsayıyorum.

resim açıklamasını buraya girin

İkinci grafikten 6 küme seçmeliyim. GAP istatistiği doğru yorumlanıyor mu?

Herhangi bir açıklama için minnettar olurum.


İki soru - İlk komplo ne gösteriyor? Aynı veriler için bir GAP istatistiği mi? Neden ikinciden farklı görünüyor (ki bir GAP olduğunu görüyorum). Hangi R fonksiyonlarını kullandınız? İkinci soru: İkinci grafik için 6'yı seçmek için '1 standart hata' kuralını kullandınız mı?
Deathkill14

Kümelenmeye iki farklı yaklaşım var. Bunlardan ilki zaman serilerine dayalı - 26 hafta boyunca satışlar ve verileri dinamik zaman eğrisine göre kümelendirdim. İkinci yaklaşım, dinamik zaman eğrisine de dayanan büyüme eğrisi parametrelerini kümelemekti. clusGapGlobalmax'a dayanarak kullandım , maxSE'yi nasıl uygulayacağımı bilmiyordum.
peterpeter

Yanıtlar:


11

İdeal bir kümeleme elde etmek için , boşluk istatistiğini en üst düzeye çıkaracak şekilde seçmelisiniz . İşte Tibshirani ve ark. (2001) makalelerinde, 2 küme ile yapay verilerden oluşan arsa. Gördüğünüz gibi, 2 açıkça ideal , çünkü boşluk istatistiği maksimuma çıkarılmıştır :kkk=2

Boşluk istatistiği

Bununla birlikte, birçok gerçek dünya veri kümesinde, kümeler iyi tanımlanmamıştır ve boşluk istatistiğini en üst düzeye çıkarmakla modelin parsimony'sini dengelemek istiyoruz. Vaka: OP'nin ilk resmi. Sadece boşluk istatistiğini en üst düzeye çıkarırsak , 30 (veya daha fazla!) Kümeli modeli seçmeliyiz. Bu planın artmaya devam edeceği varsayılırsa, elbette sonuçlar daha az yararlıdır. Bu yüzden Tibshirani, 1 standart hata yöntemini önerir :

Küme boyutu seçin küçük olması öyle ki .k^kGap(k)Gap(k+1)sk+1

Bu gayri resmi olarak boşluk istatistiği artış hızının "yavaşlamaya" başladığı noktayı tanımlamaktadır.

Bu nedenle, OP'nin ilk görüntüsünde, kırmızı hata çubuklarını standart hata olarak alırsak, 3 bu kriteri karşılayan en küçük :k

Ek açıklamalı resim 1

Ancak OP'nin ikinci görüntüsü için, için boşluk istatistiğinin derhal azaldığını göreceksiniz . Bu nedenle, 1 standart hata ölçütünü karşılayan ilk . Bu, çizimin verilerin kümelenmemesi gerektiğini söylemenin yoludur.k>1k1

Anlaşıldığı gibi, optimal ek yolları var . R işlevinin varsayılan yöntemi , örneğin, her zaman grafiğinin yerel maksimum arar ve seçer küçük yerel maksimum bir standart hata içinde. Bu yöntemi kullanarak OP'nin grafik 1 ve 2 için sırasıyla ve seçerdik. Söylediğim gibi, bunun bir karmaşıklık sorunu olduğu görülüyor.kclusGapkfirstSEmaxk=30k=19

Kaynak: Robert Tibshirani, Guenther Walther ve Trevor Hastie (2001). Boşluk istatistiği yoluyla bir veri kümesindeki kümelerin sayısını tahmin etme.


1
Tahmin ederken boşluğu istatistiğinin değeri, nasıl olasılığını tahmin / hesaplayabilir küme gerçek sayıdır? Yoksa sorum anlamsız mı? kk
quant_dev

Boşluk istatistiğini maksimuma çıkarmak ve modelin parsimony'sini almak arasındaki ticarete dikkat
çektiğiniz için teşekkürler
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.