Test algoritmaları / rutinleri için iyi veri setleri / test problemleri nereden elde edilebilir?


41

Kullanmak üzere olduğunuz bir yazılım parçasının kalitesini (ister yazdığınız, isterse hazır paket olsun) hesaplamalı olarak değerlendirirken, standart veri setleri veya problemler üzerinde ne kadar iyi çalıştığını görmek iyi bir fikirdir. Hesaplama rutinlerini doğrulamak için bu testler nereden edinilebilir?

(Cevap başına bir web sitesi / kitap, lütfen.)


Bunu bir Topluluk Wiki yayını olarak tasarladım ve bu nedenle dönüşüm için işaretledim.
JM

3
bu soru çok geniş değil, yani bu yazılımın çözmek için kullandığı sorunun algoritmasına / doğasına bağlı mı?
Andre Holzner

Gerçekten bu sorunun topluluk wiki , @Andre (kaynakların "büyük bir listesi") olmasını istedim ; Dönüşüm için işaretlemiştim, ancak neden dönüştürülmediğini bilmiyorum.
JM,

@JM Ben dönüştürdüm.
David Ketcheson

Yanıtlar:



13

Üretilen çözümlerin yöntemi, PDE'leri ve diğer çözücüleri test etmek için bir standarttır. Sembolik cebir sistemlerinin çoğu, kod üretme imkanlarına sahiptir, bu, üretilmiş çözümler oluşturmak için kullanışlıdır. SymPy ve Maple, bu amaç için diğerleri arasında ccode fonksiyonuna sahiptir.




8

Hesaplamalı elektromanyetizmada, bir dizi (sorundaki zorluklardan dolayı) ünlü (veya rezil) bir dizi test problemi vardır: Test Elektromanyetik Analiz Yöntemleri (TEAM) .

Bazıları, deneysel verilere göre doğru simülasyon sonuçlarını elde etmek için gerçekten son teknoloji sayısal tekniklere ihtiyaç duyuyor. Örneğin, iletken bobin sorunu .

Maxwell denklemleri için bir başka test problemleri kümesi, Dauge: Yüksek tekil çözümlerin yaklaşımı için Maxwell denklemleri için Benchmark hesaplamaları ile derlenmiştir . Ünlü (veya rezil) Fichera küpünün içindeki:

Fichera

ϕH1+ϵE=ϕ

Δu=0,where u=rαsin(αθ).

7

Moleküler yapılarla ilgili kıyaslama algoritmalarıyla ilgileniyorsanız, pubchem veritabanı çoğunlukla organik moleküller içeren geniş bir koleksiyona sahiptir. Bu, farklı modeller / programlar ile elde edilen moleküler özelliklerin tahminlerini karşılaştırmak için faydalı olabilir. Site, önceden tanımlanmış bazı kriterleri (örneğin kimyasal bileşim) karşılayan büyük molekül gruplarını indirmek için çeşitli seçeneklere sahiptir.



7

Şirin web sitesi optimizasyonu ve lineer açarlarını bazı ek sorunları olan Arnold Neumaier web sitesinde belirtilen SEVİMLİ test seti günceller. Ek olarak, doğrusal cebirin ve optimizasyon çözücülerinin test edilmesi ve güncellenmesi için yazılım araçları sunar.










2

Test etmek için büyük grafikler veya ağ verileri arıyorsanız. Stanford Ağ Analizi Projesi (SNAP) tipik olarak bir anonim bitişiklik listesi şeklinde çok büyük grafik veri kümelerini sahiptir. Seçeneklerinden bazıları şunlardır:

Veri

Verilerin Özellikleri

  • Kenar sayısı: ~ 10 ile ~ 400 milyon arası
  • Düğüm sayısı: her yerde ~ 10 ila ~ 100 milyon
  • Kenar tipleri: yönlendirilmiş, yönlendirilmemiş, ağırlıklı, ağırlıksız, işaretli ve işaretsiz.
  • Ağ tipleri: yönlendirilmiş, yönlendirilmemiş, iki taraflı, çok noktalı, zamansal, etiketli.

Veri setlerinde bulunan gerçek gerçeği istatistikleri:

Araçlar


@JM sorun değil! Bir süre önce bir sosyal ağ veri kümelerini bir proje için kullandım ve sonra bu yığın değişimine rastladım ve burada yardımcı olabileceğini düşündüm.
ryan

-3

Veri kolaydır; Almak için API zor olabilir. Quandl'ı tavsiye ederim . Bu site bir, kolay, REST ful API üzerinden erişilebilen 10 milyondan fazla herkese açık veri setine sahiptir. Tüm veriler CSV veya JSON'da döndürülür. Veya, programlama sizin için uygun değilse, verileri Excel'e almanın kolay yolları vardır. R, Python ve Ruby programcıları yerli kütüphaneler ile tam evde olacaklar.


1
Scicomp'a Hoşgeldiniz! Bunun sorununla ilgili bir veri olduğunu sanmıyorum; Algoritmaları test etmek için sadece bir veri setine değil, aynı zamanda sonuçlarınızı karşılaştırmak için (soruna / algoritmaya bağlı olarak) bilinen bir sonuca da ihtiyacınız vardır.
Christian Clason

Teşekkürler, @ChristianClason. Ne demek istediğini anlıyorum. Örneğin, yazılım doğrusal regresyon için ise, yazar doğrusal regresyon paketinin doğru çalışıp çalışmadığını test etmek için veri setlerinin yanı sıra bir dizi inceltilmiş analiz sonucuyla ilgilenir.
Brian Risk
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.