Kümeleme algoritmalarının özelliklerini göstermek için 2B yapay veri arama


9

Farklı dağılımları ve formları takip eden 2 boyutlu veri noktalarının veri setlerini arıyorum (her veri noktası iki değerin (x, y) bir vektörü). Bu tür verileri oluşturmak için kod da yardımcı olacaktır. Bazı kümeleme algoritmalarının nasıl çalıştığını çizmek / görselleştirmek için bunları kullanmak istiyorum. İşte bazı örnekler:


Ben cw için oy;)
steffen

Benzer veri kümelerinde benzer bir soru burada kapatıldı: stats.stackexchange.com/questions/38928/…
hearse

SPSS için, küme üreten bir makro yazdım (sayfamı ziyaret edin, "Küme oluşturma" konusuna bakın). Bununla birlikte, halkalar veya spiraller gibi iddialı şekiller üretmez.
ttnphns

Yanıtlar:


11

R , çok sayıda veri kümesiyle birlikte gelir ve birkaç kod satırıyla belirttiğiniz örneklerin çoğunu çoğaltmak büyük bir şey olmayacak gibi görünüyor. Ayrıca mlbench paketini, özellikle ile başlayan sentetik veri setlerini faydalı bulabilirsiniz mlbench.*. Bazı resimler aşağıda verilmiştir.

resim açıklamasını buraya girin

CRAN'daki Küme Görev Görünümü'ne bakarak ek örnekler bulacaksınız . Örneğin, fpc paketinde "yüz şeklindeki" kümelenmiş karşılaştırma veri kümeleri ( rFace) için yerleşik bir jeneratör bulunur .

resim açıklamasını buraya girin

Benzer düşünceler, scikit-learn ile kümelenme için ilginç kıyaslama testleri ve veri kümeleri bulabileceğiniz Python için de geçerlidir .

UCI Makine Öğrenimi Deposu da birçok veri kümesine ev sahipliği yapar , ancak verileri kendi dilinizle simüle etmek daha iyidir.



2

Bu oyuncak kümeleme ölçütü , ARFF biçiminde (çoğunlukla CSV'ye dönüştürülebilir), çoğunlukla yer gerçeği etiketleriyle çeşitli veri kümeleri içerir. Karşılaştırma, kümeleme algoritmalarının istenen temel özelliklerini doğrulamalıdır. Veri kümelerinin çoğu aşağıdaki gibi kümeleme kağıtlarından gelir:

  • BIRCH - Zhang, Tian, ​​Raghu Ramakrishnan ve Miron Livny. "BIRCH: çok büyük veritabanları için verimli bir veri kümeleme yöntemi." ACM SIGMOD Kaydı. Vol. 25. Hayır. 2. ACM, 1996.
  • CURE - Guha, Sudipto, Rajeev Rastogi ve Kyuseok Shim. "CURE: büyük veritabanları için etkili bir kümeleme algoritması." ACM SIGMOD Kaydı. Vol. 27. No. 2. ACM, 1998.
  • Bukalemun - Karypis, George, Eui-Hong Han ve Vipin Kumar. "Bukalemun: Dinamik modelleme kullanarak hiyerarşik kümeleme." Computer 32.8 (1999): 68-75.
  • Temel Kümeleme Sorunu Paketi - Ultsch, A .: SOM ile Kümeleme: U * C, Proc. Kendi Kendini Düzenleyen Haritalar Çalıştayı, Paris, Fransa, (2005), s. 75-82
  • MOCK - Handl, Julia ve Joshua Knowles. "Çok amaçlı kümelenmeye evrimsel bir yaklaşım." Evrimsel Hesaplama, 11.1 (2007): IEEE İşlemleri: 56-76.
  • Sağlam yol tabanlı spektral kümeleme - Chang, Hong ve Dit-Yan Yeung. "Sağlam yol tabanlı spektral kümeleme." Örüntü Tanıma 41.1 (2008): 191-203.

karypis verileri cluto verileri


1

ELKI birkaç veri seti ile birlikte gelir (ayrıca birim testlerini kontrol edin, parametre ayarlarıyla birlikte web sitesindekilerden çok daha fazlasını içerir).

Aynı zamanda oldukça esnek bir veri oluşturucu içerir.


1

İşte özelleştirilebilir bir küme üreteci. Yalnızca belirli bir veri kümesi sınıfını ele alır, ancak küme algoritması araştırmaları için kesinlikle kullanılabilir.

İşte oluşturabileceği küme türlerine bir örnek:

http://i.stack.imgur.com/vrCG5.png

Küme bağlantısı bir metin dosyasına kaydedilir. Kod MIT lisansı altında açık kaynak kodludur.


1

Bu Matlab betiği kümeleme için 2B veri üretir. Oluşturulan verilerin kullanıcı gereksinimleri dahilinde olması için çeşitli parametreleri kabul eder.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.