Ağ analizi klasik veri kümeleri


10

Makine öğrenimi sınıflandırma / regresyon görevleri için birkaç klasik veri kümesi vardır. En popüler olanları:

Ancak ağ analizi / grafik teorisi için benzer veri kümelerini bilen var mı? Daha somut - Karşılaştırma / değerlendirme / öğrenme için Gold standart veri kümeleri arıyorum :

  1. merkeziyet tedbirleri;
  2. ağ kümeleme algoritmaları.

Halka açık ağların / grafiklerin büyük bir listesine ihtiyacım yok, ancak aslında bilmeniz gereken veri kümelerinin bir çiftine ihtiyacım var.

DÜZENLE:

"Altın standart veri kümesi" için kesin özellikler sağlamak oldukça zordur, ancak işte bazı düşünceler. Bence, gerçek klasik veri seti bu kriterleri karşılamalıdır:

  • Makale ve ders kitaplarında çoklu referanslar;
  • İyi bilinen ağ analizi yazılım paketlerine dahil etme;
  • Yeterli varlık zamanı;
  • Grafik analizi üzerine bir dizi derste kullanım.

İlgi alanımla ilgili olarak, köşeler ve / veya önceden hesaplanmış (veya önceden tanımlanmış) "otorite puanları" (yani merkezî tahminler) için etiketli sınıflara da ihtiyacım var. Bu soruyu sorduktan sonra aramaya devam ettim ve işte bazı uygun örnekler:

  • Zachary's Karate Club : 1977'de tanıtılan ve 1.5k kereden fazla alıntı yapılan (Google Akademik'e göre), köşe noktalarının Faction (kümeleme için kullanılabilen) özelliği vardır.
  • Erdos İşbirliği Ağı : Ne yazık ki, bu ağı veri dosyası biçiminde bulamadım, ancak oldukça ünlü ve birisi matematikçilerin uzmanlık verileriyle ağı zenginleştirecekse, kümeleme algoritmalarını test etmek için de kullanılabilir.

1
"Altın standart veri kümesini" daha objektif bir şekilde tanımlayarak bu soruyu geliştirebileceğinizi düşünüyorum. Onu "bilmeli" yapan nedir? Bazı ders kitaplarında referans gösterilmeli mi? Yayımlanmış bazı modellerde mi kullanılıyor? Aksi takdirde cevaplar öznel olacaktır ve zaman geçtikçe değişecektir. Burada kötü bir kombinasyon.
Air

Yanıtlar:


5

Ne arıyorsun KONECT bulunabilir (web sitesi bu yazarken aşağı ama yakında düzeltilmesi gerekir!). Ağ analizi için neredeyse en kapsamlı veri toplamadır. Ama soru hangisinin kullanılması daha standart ?

Zachary'nin Karate Kulübü dışında net bir cevap yok!

Topluluk Algılama algoritmalarında bir literatür taraması yaparsanız, neredeyse tüm parlayan kağıtların farklı ağlar kullandığını göreceksiniz. Benim önerim, Andrea Lancichinetti ve Santo Fortunato'nun grafikleri karşılaştırmak için yaptıklarından geçiyor. Bazı karşılaştırmalı grafik oluşturma algoritmaları önerdiler, örneğin bu .

Umarım yardımcı olur :)


Bunu wayback
albert


1

Bildiğim tek şey Neo4j gibi Grafik Veritabanları için karşılaştırma verileri.

Buna benzer bağlantılar bulabilirsiniz: http://istc-bigdata.org/index.php/benchmarking-graph-databases/

Burada ağ analizi ve grafik teorisini test etmek için veriler bulabilirsiniz.

Ayrıca, kendi verilerinizi toplamak için Twitter / Facebook API'sı ile oynayabilirsiniz. Bu, aradığınız verileri bulamamanız durumunda da bir öneridir.


Teşekkürler, ama tam olarak aradığım şey değil. Daha fazla ayrıntı için güncellemeye bakın.
sobach
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.