Hesaplamalı kaynakların paylaşıldığı bir ortamda çalışıyorum, yani her biri birkaç Nvidia Titan X GPU ile donatılmış birkaç sunucu makinemiz var.
Küçük ve orta boy modeller için, 12 GB Titan X genellikle 2-3 kişinin aynı GPU'da aynı anda eğitim alması için yeterlidir. Modeller, tek bir modelin GPU'nun tüm hesaplama birimlerinden tam olarak yararlanamayacak kadar küçükse, bu aslında bir eğitim sürecini birbiri ardına yürütmeye kıyasla hızlanmaya neden olabilir. GPU'ya eşzamanlı erişimin bireysel eğitim süresini yavaşlattığı durumlarda bile, birden fazla kullanıcının aynı anda GPU üzerinde eğitim alma esnekliğine sahip olmak hala iyidir.
TensorFlow ile ilgili sorun, varsayılan olarak, başlatıldığında kullanılabilir GPU belleğinin tamamını ayırmasıdır. Küçük bir iki katmanlı sinir ağı için bile, 12 GB'lık GPU belleğinin tamamının tükendiğini görüyorum.
TensorFlow'un, örneğin belirli bir model için bunun yeterli olduğunu biliyorsanız, 4 GB GPU belleği ayırmasını sağlamanın bir yolu var mı?