Küme analizinde değişkenlere ağırlık atayın


12

Küme analizimdeki değişkenlere farklı ağırlıklar atamak istiyorum, ancak programımın (Stata) bunun için bir seçeneği yok gibi görünüyor, bu yüzden manuel olarak yapmam gerekiyor.

4 değişken A, B, C, D düşünün. Bu değişkenlerin ağırlıkları

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

Aşağıdaki iki yaklaşımdan birinin hile yapıp yapmayacağını merak ediyorum:

  1. İlk olarak tüm değişkenleri standartlaştırıyorum (örneğin aralığına göre). Sonra her standartlaştırılmış değişkeni ağırlıklarıyla çarpıyorum. Ardından küme analizini yapın.
  2. Tüm değişkenleri ağırlıklarıyla çarpar ve daha sonra standartlaştırırım. Ardından küme analizini yapın.

Yoksa her iki fikir de saçmalık mı?

[EDIT] Kullanmak istediğim kümeleme algoritmaları (3 farklı deniyorum) k-ortalamaları, ağırlıklı ortalama bağlantı ve ortalama bağlantıdır. Daha sonra k-araçlarına taktığım çok sayıda kümeyi belirlemek için ağırlıklı ortalama bağlantı kullanmayı planlıyorum.


1
Her iki yol da genellikle doğru değildir. Değişkenlerin değerlerinin çarpımı, kümeleme için değişkenlik öneminin ağırlıklandırılmasına eşdeğer değildir. Programın ağırlıklandırma seçeneği yoksa, bunu bazen istediğiniz gibi verilerle yapabilirsiniz - ancak bu, kümelemenizin kesin doğasına bağlıdır. Öyleyse, kümelemenizin ayrıntılarını (sorunuzda) tanımlayın: hangi algoritmayı ve yöntemi kullanacağınızı.
13:49, ttnphns

2
Değişkenleri ağırlıklandırmanın en kolay ve evrensel yolunun (ve ağırlıklar tamsayılar veya tamsayılar haline getirilebileceği) değişkenlerin bu ağırlıkların katlarını çoğaltmak olduğunu unutmayın. Örneğinizde, kümelemenizde 50 As, 25 Bs, 10 Cs, 15 Ds alabilirsiniz.
ttnphns

8
Ya da, alternatif: Eğer sen Öklid ölçümüne dayalı kümeleme kullanın veya k-ortalama, kendi ağırlığının metrekare root tarafından çarpın her değişken kullanın.. Bu çarpma, elbette, kümelemeden önce yapmak isteyebileceğiniz herhangi bir ön işlemden (standardizasyon gibi) sonra yapılmalıdır .
ttnphns

Yanıtlar:


7

Bir değişkene ağırlık atamanın bir yolu ölçeğini değiştirmektir. Hile, bahsettiğiniz kümeleme algoritmaları için çalışır, viz. k-anlamına gelir, ağırlıklı ortalama bağlantı ve ortalama bağlantı.

Kaufman, Leonard ve Peter J. Rousseeuw. " Veri gruplarını bulma: Küme analizine giriş ." (2005) - sayfa 11:

Ölçü birimlerinin seçimi, değişkenlerin nispi ağırlıklarına yol açar. Bir değişkeni daha küçük birimlerde ifade etmek, bu değişken için daha geniş bir aralığa yol açacaktır, bu da sonuçtaki yapı üzerinde büyük bir etkiye sahip olacaktır. Öte yandan, standartlaştırılarak, nesnelliğe ulaşma umuduyla, tüm değişkenlere eşit ağırlık vermeye çalışır. Bu nedenle, önceden bilgisi olmayan bir uygulayıcı tarafından kullanılabilir. Bununla birlikte, belirli bir uygulamada bazı değişkenlerin kendinden daha önemli olması ve daha sonra ağırlıkların atanması, konu bilgisine dayanmalıdır (bakınız örn. Abrahamowicz, 1985).

Öte yandan, değişkenlerin ölçeğinden bağımsız kümelenme teknikleri geliştirilmeye çalışılmıştır (Friedman ve Rubin, 1967). Hardy ve Rasson'un (1982) önerisi, kümelerin dışbükey gövdelerinin toplam hacmini en aza indiren bir bölüm aramaktır. Prensipte böyle bir yöntem, verilerin doğrusal dönüşümleri ile ilgili değişmezdir, ancak maalesef uygulanması için herhangi bir algoritma mevcut değildir (iki boyutla sınırlı bir tahmin hariç). Bu nedenle, standardizasyon ikilemi şu anda kaçınılmaz görünüyor ve bu kitapta açıklanan programlar seçimi kullanıcıya bırakıyor

Abrahamowicz, M. (1985), Farklılıkları ölçmek için sayısal olmayan bir pnon bilgisinin kullanımı, Psikometrik Toplum ve Dernek Dernekleri Dördüncü Avrupa Toplantısında sunulan bildiri, 2-5 Temmuz, Cambridge (İngiltere).

Friedman, HP ve Rubin, J. (1967), Verileri gruplamak için bazı değişmez kriterler hakkında. J. Amer. Devletçi. ASSOC6., 2, 1159-1178.

Hardy, A. ve Rasson, JP (1982), Sınıflandırma otomasyonu için Une nouvelle yaklaşım sorunları, Statist. Anal. Donnies, 7, 41-56.


1
İlk referansınız bir şekilde karıştırılıyor: Leonard Kaufman ve Peter J. Rousseeuw, bağlandığınız kitabın yazarları.
Nick Cox

Oh bunu işaret ettiğiniz için teşekkür ederim ... Ben "Auteurs: SEWELL Grandville, ROUSSEEUW Peter J." sayfasında bir hata yapan Lavoisier tarafından berbat var, bu da referans almak için kullandım Gscholar vidalı.
Franck Dernoncourt

Teşekkürler @FranckDernoncourt! Değişkenin ölçeği (ve dolayısıyla aralığı) ağırlığını belirlerse, ilk sorumda bir şekilde doğru bir çözüm olmaz mıydı?
SPi

2
Evet yaklaşım 1 doğru olanıdır ve Kaufman, Leonard ve Peter J. Rousseeuw'un cevapta alıntıladığım paragraflarda söylediklerine karşılık gelir. Standardizasyon ağırlıkları kaldırırken yaklaşım 2 işe yaramaz :)
Franck Dernoncourt
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.