Kümeleme için görselleştirme yazılımı


14

~ 22000 puan toplamak istiyorum. Birçok kümeleme algoritması daha yüksek kaliteli ilk tahminlerle daha iyi çalışır. Verilerin kaba şekli hakkında iyi bir fikir verebilecek hangi araçlar var?

Kendi mesafe ölçümü seçebilmek istiyorum, böylece bir program çiftler arası mesafelerin bir listesini besleyebilir iyi olur. Ekranda bir bölgeyi veya kümeyi vurgulamak gibi bir şey yapmak ve o bölgede hangi veri noktalarının bir listesini almak istiyorum.

Özgür yazılım tercih etti, ancak zaten SAS ve MATLAB'ım var.

Yanıtlar:


11

GGobi (http://www.ggobi.org/), R paketi rggobi ile birlikte bu görev için mükemmel bir şekilde uygundur.

Örnekler için ilgili sunuma bakın: http://www.ggobi.org/book/2007-infovis/05-clustering.pdf


Öneri için teşekkürler, @Shane. ggobi umut verici görünüyor, şu anda yüklüyorum ve bir deneyin :)

1
Diğer platformlarda iyi çalışır, ancak gtk OSX ile iyi oynamaz.

3
gtk, OSX'te iyidir.
hadley

5

Yüksek boyutlarda keşfetmek kümelenme sonuçları yapılabilir R paketleri kullanarak clusterfly ve gcExplorer . Burada daha fazlasını arayın .


Teşekkürler, ancak doğrudan ggobi çağırmak yerine clusterfly kullanmanın herhangi bir faydası var mı? Web sitesi sadece ilginç olan ancak henüz birincil hedefim olmayan kümeleme yöntemlerinden bahsediyor. gcexplorer daha az bilgilendirici bir web sitesine sahiptir, ancak zaten kümelere ayrıldıktan sonra verileri görselleştirmek içindir. O noktaya geldiğimde onları deneyeceğim, ama şu anda ihtiyacım olanı değil.

4

(Aylar sonra), k-kümelerini resmedmenin ve çeşitli k etkilerini görmenin güzel bir yolu, Minimum Yayılan Ağaç oluşturmak ve en uzun kenarlara bakmaktır. Örneğin,

alternatif metin

Burada 9 en uzun kenarı olan 10 küme vardır 855 899 942 954 1003 1005 1069 1134 1267.
9 küme için camgöbeği 855 kenarını daraltın; 8 için mor 899; ve bunun gibi.

Tek bağlantılı k-kümeleme algoritması ... tam olarak Kruskal'ın algoritması ... bir MST bulmak ve k-1'in en pahalı kenarlarını silmekle eşdeğerdir.

- Wayne, Açgözlü Algoritmalar .

22000 puan, 242M çift mesafe, ~ 1 gigabayt (float32) alın: sığabilir.

2d'de yüksek boyutlu bir ağaç veya grafiği görüntülemek için, bkz. Çok Boyutlu Ölçekleme (ayrıca Kruskal'dan) ve boyut küçültme hakkındaki büyük literatür. Ben boyut küçültme inanıyoruz Bununla birlikte, loş> 20 söz hakkından içinde, en mesafeler ortanca yakın olacak olamaz çalışmak var.


2

Projemden birinde KNIME ile iyi bir deneyim yaşadım . Hızlı keşif madenciliği ve grafik oluşturma için mükemmel bir çözümdür. Bunun da ötesinde, R ve Weka modüllerine kusursuz entegrasyon sağlar.


Yararlı bir program gibi görünüyor, ancak web sayfaları beni bu konuda tam olarak çözeceğine ikna etmek için iyi bir iş yapmıyor. Görünüşe göre çok geniş, umursamadığım çok fazla özellik, basit şeyleri yapmayı zorlaştırıyor. Diğer seçimler işe yaramazsa bir kez daha bakacağım.


1

Cluster 3.0'a bir göz atın . İstediğiniz her şeyi yapıp yapmayacağından emin değilim, ancak oldukça iyi belgelenmiştir ve birkaç mesafe metriği arasından seçim yapmanızı sağlar. Görselleştirme parçası, Java TreeView ( ekran görüntüsü ) adlı ayrı bir program aracılığıyla yapılır .


Öneri için teşekkürler, ancak kendi mesafe ölçümü seçme yeteneği kritik öneme sahip, bu yüzden bu benim için işe yaramayacak. Yine de birileri faydalı bulabilir.

1

GGobi bunun için ilginç görünüyor. Başka bir yaklaşım, benzerlik / ters mesafe matrislerinizi ağ bitişik matrisleri olarak ele almak ve bunu bir ağ analiz rutinine (örneğin, R'de igraph veya belki de Pajek) beslemek olabilir. Bu yaklaşımla, düğüm mesafelerinin çeşitli kesme noktalarında bir ikili bağ halinde kesilmesini deneyeceğim.


Bunu düşündüm, ancak makul bir kesim noktası yok gibi görünüyor ve alan uzmanları da bunu haklı çıkaramıyor.

Bunun belirtilen amacınız için oldukça keyfi olabileceğini düşünürüm - dürüst olmak gerekirse, aslında ikiliye bile kesmeniz gerekmeyebilir, sadece 1'lik bir ölçekte bir kravat değeri etiketini bazı yönetilebilir numaralara yeniden kodlamanız, ardından bağları aşamalı olarak gizlemeniz / göstermeniz gerekebilir. çeşitli seviyelerde (isteğe bağlı olarak herhangi bir kolye ve yetimi gizlemek / ortadan kaldırmak). İsteğinize doğrudan yazılı olarak yanıt vermemekle birlikte, neden daha tipik bir yaklaşım kullanmıyorsunuz ve ön kümeleri tanımlamak için başlangıç ​​sentroidlerini kullanmayan, daha sonra bu sonuçtaki sentroidleri yeni analizinize beslemeyen bir melez kümeleme yöntemi kullanmıyorsunuz?
Shelby

Bazı güzel sonuçlar görene kadar birçok farklı kesim denemek istediğinizi tahmin ediyorum. Standart çoklu karşılaştırma nedenlerinden kaçınmak istiyorum. re: ikinci öneriniz Sanırım bu algoritmalardan daha iyi kendime güveniyorum. Bilgisayarı, düşüncelerimin yerini almak için değil, elle yapmak için çok sıkıcı büyük miktarda veri işlemek için kullanıyorum.

1
Hipotez test dilini kullanıyorsunuz ama yine de aynı zamanda çok keşfedici, gördüğünüzde bildiğiniz bir yaklaşımdan bahsediyorsunuz - bu nedenle analizinizin bu kısmı için hedefinizin gerçekte ne olduğu açık değil. Daha sonra test edeceğiniz hipotezleriniz varsa (örneğin, küme üyeliğini tahmin etmek veya küme üyeliğini yordayıcı olarak kullanmak), burada önyargıyı ayarlayacak şeyleri yapmamayı seçebilirsiniz. Ancak "çoklu karşılaştırma" sorunları, tanımladığınız keşif sorununu gerçekten çözmez. Viz kesintileri sadece orada ne olduğunu görmenize yardımcı olmak içindir - ancak güveniniz hala yanlış yerleştirilmiş olabilir.
Shelby

1

Weka , veri madenciliği için açık kaynaklı bir programdır (Java'da wirtten ve genişletilebilir), Orange , veri madenciliği ve makine öğrenimi (Python'da yazılmış) için açık kaynaklı bir program ve kütüphanedir. Her ikisi de çok boyutlu verilerin rahat ve verimli görsel keşfine izin verir


Orange'ın özellikler sayfası 'yapım aşamasında' diyor ve yaptığım gibi ekran görüntülerini listelemiyorlar. weka'nın özellik listesi yok. İstediğimi yapabilirler, ancak özelliği tanıtmazlarsa, nasıl söyleyebilirim. Diğer seçenekler beni daha çok ikna etti.

0

DataMelt ücretsiz sayısal yazılım JMinHep adlı Java kitaplığı içerir. Lütfen "Veri kümeleme" bölümündeki kılavuza bakınız. XY'de çok boyutlu veri noktalarını görselleştirmek ve bir dizi veri kümeleme algoritması çalıştırmak için bir GUI sağlar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.