Makine öğrenimi modellerini kaydetmek, saklamak ve paylaşmak için en iyi uygulamalar nelerdir?
Python'da genel olarak turşu veya joblib kullanarak modelin ikili gösterimini saklıyoruz. Modeller, benim durumumda, ~ 100Mo büyük olabilir. Ayrıca, joblib ayarlanmadıkça bir modeli birden fazla dosyaya kaydedebilir compress=1
( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- kore ).
Ancak, modellere erişim haklarını kontrol etmek ve farklı makinelerden modelleri kullanabilmek istiyorsanız, bunları depolamanın en iyi yolu nedir?
Birkaç seçeneğim var:
- Bunları dosya olarak saklayın ve ardından Git LFS kullanarak bir depoya koyun.
- Bunları bir SQL veritabanında ikili dosyalar halinde saklayın:
- Örneğin, Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB’de
- Bu aynı zamanda SQL Server ekibi tarafından önerilen yöntemdir:
- https://docs.microsoft.com/en-us/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model
- https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html
- https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system
- HDF'ler