Veri biliminde yeniyim ve R'de 200.000 satır ve 50 sütun içeren bir veri kümesinde kümeleri bulmakta sorun yaşıyorum.
Verilerin hem sayısal hem de nominal değişkenleri olduğundan, Öklid uzaklık ölçüsü kullanan K-araçları gibi yöntemler uygun bir seçim gibi görünmemektedir. Bu yüzden bir mesafe matrisini girdi olarak kabul eden PAM, agnes ve hclust'a dönüyorum.
Papatya yöntemi karışık tip veriler üzerinde çalışabilir, ancak mesafe matrisi çok büyüktür: 200.000 kez 200.000 kez 2 ^ 31-1'den çok daha büyüktür (R 3.0.0'dan önceki vektör uzunluğu sınırı).
Dün yayınlanan yeni R 3.0.0, uzunluğu 2 ^ 31-1'den daha uzun olan vektörleri desteklemektedir. Ancak 200.000 x 200.000'lik bir çift matris, makinemde mümkün olmayan 16Gb'den büyük sürekli bir RAM gerektirir.
Paralel bilgi işlem ve bigmemory paketini okudum ve yardım edip etmeyeceklerinden emin değilim: papatya kullanıyorsam, yine de belleğe sığmayan büyük bir matris oluşturur.
Örnekleme hakkındaki yazıyı da okudum: Örnekleme, 'büyük veri' zamanında alakalı mi?
Yani benim durumumda, veri kümesinde örnekleme, örnek üzerinde küme kullanmak ve daha sonra tüm veri kümesinin yapısını çıkarmak uygun mu?
Bana biraz öneri verebilir misiniz? Teşekkür ederim!
Benim makine hakkında:
R sürüm 3.0.0 (2013-04-03)
Platform: x86_64-w64-mingw32 / x64 (64 bit)
İşletim Sistemi: Windows 7 64bit
Rastgele erişimli hafıza: 16.0GB