Python Makine Öğrenimi / Veri Bilimi Proje Yapısı


10

Bir Python Machine Learning projesinin nasıl organize edilmesi gerektiği hakkında bilgi arıyorum. Python olağan projeleri için Cookiecutter ve R ProjectTemplate vardır .

Bu benim mevcut klasör yapısı, ama Jupyter Notebook gerçek Python kodu ile karıştırıyorum ve çok net görünmüyor.

.
├── cache
├── data
├── my_module
├── logs
├── notebooks
├── scripts
├── snippets
└── tools

Ben komut dosyaları klasöründe çalışmak ve şu anda my_module altındaki dosyalarda tüm fonksiyonları ekleyerek, ancak veri (göreceli / mutlak yollar) ve diğer sorunları yükleme hatalarına neden olur.

Bazı kaggle rekabet çözümlerinin ve bu tür Defter başlangıcında tüm işlevleri yoğunlaştıran bazı Defterlerin yanı sıra bu konuda uygun en iyi uygulamaları veya iyi örnekleri bulamadım .


Bunun yardımcı olup olmadığını görün (kişisel deneyim yok).
Emre

Yanıtlar:


4

Bu gelişme alanında henüz en iyi uygulamaların olduğunu düşünmüyorum, ancak cookiecutter'a ek olarak, SciPy 2016 konferansında bir öğreticide gösterilen bazı ilginç fikirler vardı: http://isaacslavitt.com/2016/07/20/ veri-bilim-is-yazılım-konuşma /

Şahsen, onları ayırt etmek için gerçekten iyi bir yolum yoksa ve onları ayrı tutmak için iyi bir nedenim yoksa, bir projedeki alt klasör sayısını en aza indirmeye çalışırım. Kötü organizasyon neredeyse hiçbir organizasyon kadar kötü değildir. En iyi uygulamanın kullanım durumuna bağlı olabileceğini düşünüyorum - her projenin aynı miktarda kazan plakasına ihtiyacı yoktur.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.