Karışık tip verilerin R ile kümelenmesi


19

R içinde karışık veri değişkenlerine sahip bir veri kümelenmesi yapmanın mümkün olup olmadığını merak ediyorum. Başka bir deyişle, içinde hem sayısal hem de kategorik değişkenleri içeren bir veri kümesi var ve bunları kümelenmenin en iyi yolunu buluyorum. SPSS'de iki aşamalı küme kullanırdım. R'de benzer teknikler bulabilir miyim acaba? PoLCA paketi hakkında bana bilgi verildi, ama emin değilim ...


1
Değil mi SPSS TwoStep büyük veri kümelerini işlemek için tasarlanmış? ( Burada ilgili bir soruya yanıt veriyorum .) Aksi takdirde, temel bileşen analizine cevabım sürekli ve kategorik değişkenlerin bir karışımını içeren veri kümelerine uygulanabilir mi? herhangi bir yardım?
chl

R, paket içinde küme vardır ? Papatya karıştırılmış veriler (Gower benzerlik katsayıları) için bir farklılık matrisi oluşturur. Ardından ? Agnes veya diğer kümeleme işlevlerini kullanabilirsiniz.
rhonda

1
Yöntemi uygulama ile karıştırmayın. Önce mantıklı bir kümeleme algoritması arayın. Sonra onu uygulayan bir R paketi arayın.
shadowtalker

Gower benzerliği kullanılabilir.
ttnphns

@gung yakın zamanda sorduğum çok benzer bir soruyu kapattı. Sorumun konu dışı olduğu söylendi çünkü ağırlıklı olarak yazılımla ilgiliydi. Bu da yazılımla ilgili gibi görünüyor. Buradaki kuralların neden tutarsız bir şekilde uygulandığını bilmek isterim. Dikkat edin, bence soru bilgilendirici, ama kurallar kurallar olmalı.
Weiwen Ng

Yanıtlar:


8

Bu geç olabilir ancak klaR'ı deneyin ( http://cran.r-project.org/web/packages/klaR/index.html )

install.packages("klar")

Bu değişken arasındaki mesafe δ çok hiyerarşik olmayan k-modları, bir mesafe fonksiyonu olarak basit bir eşleme dayalı olan, bir algoritma kullanır m iki veri noktaları ve ile veriliryxy

δ(xm,ym)={1xmym,0otherwise

Paketle ilgili bir kusur var, yani iki veri noktası bir küme merkezine aynı mesafeye sahipse, verilerinizdeki ilk rastgele bir noktanın aksine seçilir, ancak koddaki biti kolayca değiştirebilirsiniz.

Karışık değişken kümelemeye uyum sağlamak için, koda girmeniz ve sayısal ve sayısal olmayan modları ve değişkenleri tanımlamak için mesafe işlevini değiştirmeniz gerekir.


7

Karışık türlerin değişkenlerini ele almanın bir başka çekici yolu, Random Forests'ın yakınsama / benzerlik matrisini kullanmaktır: http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf . Bu, tüm değişkenlere eşit davranmanın birleşik bir yolunu kolaylaştırır (yine de, değişken seçim yanlılığı sorununun farkında olun). Öte yandan, karışık tipteki değişkenler için mesafeyi tanımlamanın gerçekten altın evrensel bir yolu yoktur. Her şey uygulama bağlamına bağlıdır.


4

Kategorik değişkenlerden sürekli boyutlar oluşturmak için birden çok yazışma analizi kullanabilir ve daha sonra ikinci bir adımda bunları sayısal değişkenlerle kullanabilirsiniz.


1
MCA'daki sayısal değişkenleri nasıl ele alırsınız? Takdir yetkisini mi kullanıyorsunuz?
chl

Sürekli değişkenler içerebilen MCA uzantıları vardır, bkz. Örneğin homojenlik analizi homalleri
kjetil b halvorsen

3

Kesinlikle yapabilirsiniz. Kategorik değişkenleri yapay olarak sayısal yaparak. Veya bir mesafe matrisi tabanlı kümeleme kullanarak (fpc muhtemelen bunu yapabilir). İlk olarak cevaplamaya çalışmanız gereken soru şudur: bu gerçekten mantıklı mı?


3

İki OTU için Gower'ın evrensel benzerlik katsayısını kullanabilirsiniz (bkz. Sneath ve Sokal 1973, s 135-136). jk

SG,=Σben=1nwben,j,ksben,j,kΣben=1nwben,j,k
ben

wben,j,k

sben,j,k

  • wben,j,k

  • çok aşamalı karakterler (nominal veya sıralı): eşitlik için 1, diğer 0 (basit eşleme katsayısına eşdeğer)

  • sben,j,k=1-|Xben,j-Xben,k|R,benR,benben

SG,

OTU'lar arasındaki mesafe ile temsil edilebilir.1-SG,


Cevabınızda "karakter" (ve "kardinal karakter") tanımlayabilir misiniz? Bununla değişken / nitelik / özellik mi demek istediniz? Ayrıca, ben, ( "çok durumlu"), nominal olarak onları tedavi etmeden Gower Sıralı değişkenler için hesaplanan edilebileceğini ekleyebiliriz bkz .
ttnphns

Karakter, değişken, özellik eş anlamlılardır. Kardinal, aralık veya rasyonel ölçek anlamına gelir.
Engelbert Buxbaum

Açıkladığın için teşekkürler. Terminolojinizin istatistik veya makine öğreniminde çok yaygın olmadığı için sordum: "karakter" olağandışı ve "kardinal" değişken türü olarak adlandırdığınız şey genellikle "ölçek" değişkeni olarak bilinir, "metrik" değişken olarak bilinir, kategorik olarak .
ttnphns

1

Kategorik değişkenlerin olası değerleri çok fazla değilse, bu değerlerden ikili değişkenler oluşturmayı düşünebilirsiniz. Bu ikili değişkenlere sayısal değişkenler olarak davranabilir ve kümelemeyi çalıştırabilirsiniz. Projem için yaptığım şey bu.



0

VarSelLCM paket teklifleri

Karışık Tip Veri Kümesinin Eksik Değerlerle Model Tabanlı Kümelenmesi için Değişken Seçim

CRAN üzerinde ve daha fazla makalede açıklanmıştır .

Önceki yöntemlerden bazılarına göre avantaj, küme sayısının seçiminde bazı yardımlar sunması ve eksik verileri işlemesidir. Sağlanan güzel parlak uygulama da kaşlarını çatmak değil.

resim açıklamasını buraya girin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.