K-ortalamaları küme analizinden sonra ANOVA'nın uygunluğu


14

K-ortalama analizinden sonra ANOVA tablosundan sonraki bildirim, küme çözeltisi mesafeyi en üst düzeye çıkarmak için Öklid mesafesine göre türetildiğinden, önem seviyelerinin eşit araçların testi olarak görülmemesi gerektiğini gösterir. Kümeleme değişkenlerinin ortalamalarının kümeler arasında farklılık gösterip göstermediğini göstermek için hangi testi kullanmalıyım? Bu uyarıyı k-ortalamalarının çıktılarının ANOVA tablosunda gördüklerini gördüm, ancak bazı referanslarda hoc sonrası ANOVA testlerinin yapıldığını görüyorum. K-ortalama ANOVA çıktılarını görmezden gelmeli ve post-hoc testlerle tek yönlü ANOVA çalıştırmalı mıyım ve bunları geleneksel bir şekilde mi yorumlamalıyım? Yoksa sadece F değerinin büyüklüğü ve hangi değişkenlerin farka daha fazla katkıda bulunduğunu ima edebilir miyim? Diğer bir karışıklık, kümelenme değişkenlerinin normalde ANOVA varsayımını ihlal etmediği, Kruskal-Wallis parametrik olmayan testi kullanabilirdim, ancak aynı dağılımlar hakkında varsayım var. Spesifik değişkenler için kümeler arası dağılımlar aynı görünmüyor, bazıları pozitif eğri, bazıları negatif ... PCA skorlarında ölçülen 1275 büyük örnek, 5 küme, 10 kümeleme değişkeni var.


Neden araçların eşitliğini test etmeniz gerekiyor? Sadece modelinizin nasıl çalıştığını test edemez misiniz?
James

Kümeler arasında hangi değişkenlerin ortalamalarının farklı olduğunu, yani küme1'deki v1 ortalamasının küme, 2, 3, 4, 5'teki v1 ortalamasından farklı olup olmadığını belirlemek istedim. Tabii ki bunu bir grafik yaparak görebilirim. istatistiksel farktan bahsetmez. İstatistiksel fark testi beni karıştırdı, ANOVA için verilerim normal dağıtım varsayımını karşılamadı, ancak Kruskal Wallis testi için küme grupları arasında aynı şekil dağılım varsayımını test etti.
Inga

1
@ James'in cevabına işaret ettiği gibi, "gözetliyor". Eğer (senin kümeleme) gruplar arasında anlamlılık için test etmek için bir nedeni ne olabilir önceden seçilmiş mümkün olduğunca farklı olmasına? Burada, bazı dışsal , backgroud özelliklerine göre farklı olan popülasyonlardan rastgele veya orantılı örnekleme işareti yoktur .
ttnphns

Cevaplar için teşekkür ederim! Karışıklığım bazı kaynaklarda göründüğü gibi bu durumda da istatistiksel ortalama karşılaştırmaların uygun olmadığını görüyorum, ancak örneğin 1 kitabın bölümündeki bir alıntı tersini gösteriyor: "ANOVA kullanarak her boyuttaki her küme için ortalamaları inceliyoruz İdeal olarak, analizde kullanılan tüm boyutlar olmasa da çoğu için önemli ölçüde farklı araçlar elde ederiz.Her boyutta gerçekleştirilen F değerlerinin büyüklüğü, ilgili boyutun ne kadar iyi ayrıldığının bir göstergesidir. kümeleri "
Inga

1
En ayrımcı olanları bulmak için kümeler arasındaki farklılıkları kümelenmede kullanılan özelliklerle değerlendirme hakkına sahipsiniz. Bunu yaparken, göreli farklılıkları, F'leri ve hatta p değerlerini hesaplayabilirsiniz. Etki büyüklüğünün göstergeleri olarak. İstatistiksel anlamlılığın göstergeleri olarak değil (popülasyonlara atıfta bulunur).
ttnphns

Yanıtlar:


13

Hayır!

Sen gerekir kümeler noktalar arasında anlamlı farklar için kümeleme ve 2) avı gerçekleştirmek) 1 olarak aynı veriyi kullanmayın. Verilerde gerçek bir yapı olmasa bile, kümelenme yakınlardaki noktaları gruplandırarak bir küme oluşturur. Bu, grup içi varyansı küçültür ve sizi yanlış pozitiflere doğru yönlendiren grup içi varyansı büyütür.

k

Rasgele atamalar için eşit değer dağılımı ve kümeleme sonrasında p değerlerinin yüksek oranda çarpık (hemen hemen tüm 0.05 veya daha az) dağılımını gösteren simülasyon sonuçları

Burada bir ANOVA hakkında özel bir şey yok - parametrik olmayan testler, lojistik regresyon, herhangi bir şey kullanarak benzer etkiler göreceksiniz. Genel olarak, özellikle veriler etiketlenmemişse, bir kümeleme algoritmasının performansını doğrulamak zordur. Ancak, harici veri kaynakları kullanmadan "dahili doğrulama" ya da kümelerin kalitesini ölçmeye yönelik birkaç yaklaşım vardır. Genellikle kümelerin kompaktlığı ve ayrılabilirliğine odaklanırlar. Bu inceleme Lui ve ark. (2010) iyi bir başlangıç ​​olabilir.


4

Gerçek probleminiz veri gözetleme. Gözlemler girdi veri kümesinin kendisine dayalı olarak gruplara (kümelere) atanmışsa ANOVA veya KW uygulayamazsınız. Yapabileceğiniz şey , kümelerin sayısını tahmin etmek için Gap istatistiği gibi bir şey kullanmaktır .

Öte yandan, snooped p-değerleri aşağıya doğru eğimlidir, bu nedenle ANOVA veya KW test sonucu önemsiz ise, "gerçek" p-değeri daha da büyüktür ve kümeleri birleştirmeye karar verebilirsiniz.


4

Her zamanki null dağılımları atarsanız, böyle bir yaklaşım uygulayabilirsiniz (örneğin, F-istatistikleri veya t-istatistikleri veya herhangi bir şey gibi istatistikleri kullanarak) .

Yapmanız gereken, null değerinizin doğru olduğu durumdan simüle etmek, tüm prosedürü uygulamak (kümeleme vb.) Ve ardından her seferinde hangi istatistiği hesaplamaktır. Birçok simülasyonda uygulandığında, örnek değerinizin karşılaştırılabileceği sıfırın altındaki istatistik için bir dağılım elde edersiniz. Veri gözetleme işlemini hesaplamaya dahil ederek, etkisini hesaba katarsınız.

[Alternatif olarak, belki de yeniden örnekleme tabanlı bir test geliştirilebilir (permütasyon / randomizasyon veya önyüklemeye dayalı olsun).]


2
Doğru, bu Gap istatistiğinin arkasındaki fikir.
James
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.