Deneme çalışmalarının ve sonuçlarının defter tutulması


11

Ben araştırmacıya el koyuyorum ve uygulanabilir çözümleri test etmeyi seviyorum, bu yüzden birçok deney yapıyorum. Örneğin, belgeler arasında benzerlik puanı hesaplıyorsam, birçok önlem denemek isteyebilirim. Aslında, her ölçü için bazı parametrelerin etkisini test etmek için birkaç çalışma yapmam gerekebilir.

Şimdiye kadar, sonuçları girdiler hakkında çok fazla bilgi içeren dosyalara yazarak çalışır girdileri ve sonuçlarını izliyorum. Sorun, dosya adını giriş bilgisini eklemeye çalışsam bile, belirli bir sonuç almanın bazen bir zorluk haline gelmesidir. Sonuçlara bağlantılar içeren bir elektronik tablo kullanmayı denedim ama bu çok büyük bir fark yaratmıyor.

Denemelerinizin kitap tutulması için hangi araçları / işlemleri kullanıyorsunuz?


1
En iyi uygulamaları etiketini eklemek istedim ancak 150 itibar puanım olmadığı için yapamıyorum. Dürüst olmak gerekirse, yeni bir geleceğin bu tür kurallarla siteye nasıl etkili bir şekilde katkıda bulunabileceğini anlamıyorum. Cevaplarını bildiğim birçok soru görüyorum, ancak zaten oradaysa cevap veremiyorum, hatta cevaplayamıyorum.
makine bilgeliği

Bu daha genel bir programlama sorusu olduğunu düşünüyorum, bu yüzden StackOverflow daha iyi olabilir. Ne yapmaya çalıştığınıza ve neden yavaş olduğuna dair bir snippet ekleyebilir ve önerilen optimizasyonları isteyebilirsiniz.
Sean Owen

Aslında opendata.stackexchange.com'un daha iyi olacağını düşünüyorum .
Emre

1
Kısa süre önce bu konuda yardımcı olacak ürünlerle ilgili hızlıca bir göz attım ve bulgularımı paylaşmak istiyorum. Bir Veri Bilimi ekibinin Python ve R'de yapılan analizleri paylaşmasına yardımcı olabilecek iki SAAS ürünü vardır. Her ikisinin de IDE gibi bir IPython dizüstü bilgisayarı vardır ve her ikisi de işlerini yürütmek ve paylaşmak için birçok özellik oluşturur. İkisini de neredeyse aynı buluyorum: [Domino Data Lab] [1] ve [Sense.io] [2] [1]: dominodatalab.com [2]: sense.io
makine bilgeliği

Ayrıca, Hadoop için İş koşularını takip eden bir Makine Öğrenimi ortamı vardır; [h2o.ai] [3]. Veri ekibinin çalışmasını düzene sokmak için bir araç değil, bazı dikkatli adlandırma kurallarıyla çok yardımcı olabilir. Bu [3] ile en çok uyuyor: h2o.ai
makine bilgeliği

Yanıtlar:



5

Son zamanlarda benzer bir sorunla karşılaştım: Hepsinin ne olacağını önceden bilmeden, büyük bir veri kümesinden çeşitli özelliklerin çıkarılması nasıl yönetilir. (Ortalama değerleri tekrar tekrar hesaplamak bile hesaplama açısından pahalı olacaktır.) Ayrıca, farklı özellik kümelerine dayalı tahminleri nasıl yönetebilirim? Yani, yeni bir özellik ekleseydim, hangi özellikleri yeni özellikler konusunda eğiteceğini nasıl bilebilirim? Hızla büyük bir karmaşa içine kartopu olabilir.

Şu anki çözümüm hepsini yerel bir NoSQL veritabanında (MongoDB) izlemek. Örneğin features, her girdisinin bir adı, özelliğin nasıl hesaplandığına ilişkin bir açıklama, ayıklamayı çalıştıran python dosyası vb.Gibi bir koleksiyonum olabilir .

Benzer şekilde, bir koleksiyon modelsveriler üzerinde çalışan modelleri içerir. Her girişin bir adı, modeli eğitmek için kullanılan özelliklerin bir listesi, nihai parametreleri, bir beklemedeki test setindeki tahmini değerler, modelin nasıl performans gösterdiğine ilişkin metrikler vb.

Bakış açımdan, bunun birkaç faydası var:

  • Tahminleri kaydederek bunları daha sonra topluluk tahminlerinde kullanabilirim.
  • Hangi özelliklerin kullanıldığını takip ettiğim için, daha fazla özellik çıkardığımda hangilerinin yeniden eğitilmesi gerektiğini biliyorum.
  • Model açıklamalarını kaydederek, ne denediğimi her zaman bildiğimi garanti ederim. Hiç merak etmem gerekmiyor, "LASSO'yu ızgara arama özgeçmişiyle ayarlanan düzenleme parametreleriyle denedim mi?" Her zaman arayabilirim ve ne kadar başarılı olduğunu görebilirim.

Sorunuzdan, bu yaklaşımı probleminizin iş akışına uyarlayabileceğiniz anlaşılıyor. Mongo'yu veya başka bir tercih edilen veritabanını kurun ve ardından her deneysel çalışmayı, girdilerini, sonuçlarını ve proje boyunca izlemek isteyebileceğiniz her şeyi kaydedin. Bunun sorgulanması en azından bir e-tablodan çok daha kolay olmalıdır.


Ben oy almak istiyorum ama izin verilmiyor.
makine-bilgelik
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.