Küme analizi sonuçlarını doğrulamak için istatistiksel anlamlılık testi kullanma


13

Küme analizi sonuçlarını doğrulamak için istatistiksel anlamlılık testinin (SST) kullanımını araştırıyorum. Bu konuyla ilgili çeşitli makaleler buldum, örneğin

  • " Yüksek Boyut, Düşük Örnek Büyüklüğü Veri için Kümeleşmesinin İstatistiksel Tespit edilen önemli fi cance tarafından" Liu, Yufeng vd. (2008)
  • " Küme analizinde bazı anlamlılık testleri hakkında ", yazan Bock (1985)

Ancak, SST'nin küme analizi sonuçlarını doğrulamak için uygun OLMADIĞINI iddia eden bazı literatürler bulmak istiyorum . Bunu iddia ettiğim tek kaynak bir yazılım satıcısının web sayfası

Netleştirmek için:

Küme analizi sonucunda önemli bir küme yapısının bulunup bulunmadığını test etmekle ilgileniyorum, bu nedenle, keşif verilerinin sonuçlarının hoc olarak test edilme olasılığı hakkında kaygıyı destekleyen veya çürüten kağıtları bilmek istiyorum. msgstr "kümeleri bulmak için kullanılan analiz".

Az önce 2003'ten Milligan ve Hirtle'ın " Kümeleme ve sınıflandırma yöntemleri " adlı bir makalesi buldum , örneğin, verilerin gruplar üzerinde rastgele atamaları olmadığı için ANOVA kullanmanın geçersiz bir analiz olacağını söyleyebilirim .


Bu iyi bir soru, ama bunun bir ikilik gibi görünecek şekilde ifade edildiğini belirtmeye değer olabilir: ya kümelenmenin önemini test edebilirsiniz ya da yapamazsınız. Durum farklıdır, çünkü “küme analizi” çeşitli şeyler ifade eder. Referans verilen makalelerde odak, kümelenme için kanıt olup olmadığını test etmektir. Yazılım kılavuzunda, kümeleri bulmak için kullanılan keşifsel veri analizi sonuçlarının post-hoc test etme olasılığı konusunda haklı olarak ifade edilmiştir . Burada bir çelişki yok.
whuber

Cevabın için teşekkür ederim. Soruyu yöneltme konusunda haklısın. Küme analizi sonucunda önemli bir küme yapısının bulunup bulunmadığını test etmekle ilgileniyorum, bu nedenle, keşif verilerinin sonuçlarının hoc olarak test edilme olasılığı hakkında kaygıyı destekleyen veya çürüten kağıtları bilmek istiyorum. msgstr "kümeleri bulmak için kullanılan analiz". Milligan ve Hirtle tarafından 2003'te "Kümeleme ve sınıflandırma yöntemleri" nden, örneğin verilerin gruplar için rastgele atamaları olmadığı için ANOVA kullanımının geçersiz bir analiz olacağını söyleyen bir makale buldum.
DPS

Yanıtlar:


3

Aynı veriler kullanılarak tanımlanan grupların dağılımlarındaki farkı (naif olarak) test edemeyeceğiniz oldukça açıktır. Buna "seçici test", "çift daldırma", "dairesel çıkarım" vb. Denir.

Bir örnek, verilerinizdeki "uzun" ve "kısa" kişilerin yükseklikleri için bir t testi yapılmasıdır. Boş (neredeyse) her zaman reddedilir.

Bunu söyledikten sonra, gerçekten test aşamasındaki kümeleme aşamasını açıklayabilir. Bununla birlikte, bunu yapan belirli bir referansa yabancıyım, ancak bunun yapılması gerektiğinden şüpheleniyorum.


Farklı küme gruplarına bir önem testi uygulandığında sıfırın neredeyse her zaman reddedileceğini kabul ediyorum. Yine de - bu sadece kümelenme CA'da dikkate alınan tüm değişkenler için grupları güzelce ayırmayı başardıysa böyle olmalıdır? Gruplar arasında iyi ayrılmış olmayan değişkenler olup olmadığını belirlemek için bir anlamlılık testi kullanılamaz mı (yani her değişken için bir test uygulanır)? Bunun önerilmemesinin / mantıklı olmamanın istatistiksel nedenini açıklayabilir misiniz?
luke

Resmi argüman, her bir ölçümün hata teriminin yaklaşık sıfır merkezli olmamasıdır. Uzun boylu / kısa örneğimi düşünün: tüm insanlar aynı dağılımdan çekilir, ancak "uzun" grubun pozitif ortalama ve "kısa" negatif ortalama ile hataları vardır.
JohnRos

0

Belirli bir testle hipotez testi yerine, önyükleme araçlarını veya kümeler arasındaki diğer özet tahminleri öneririm. Örneğin, en az 1000 örnekle persentil bootstrap'e güvenebilirsiniz. Kilit nokta, her bootstrap örneğine bağımsız olarak kümeleme uygulamaktır.

Bu yaklaşım oldukça sağlam olacak, farklılıklar için kanıt sağlayacak ve küme arasındaki önemli fark iddianızı destekleyecektir. Buna ek olarak, başka bir değişken (küme farkı arasındaki gibi) oluşturabilirsiniz ve bu fark değişkeninin bootstrap tahminleri, resmi bir hipotez testine benzer olacaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.