Jupyter not defterlerini bir ekip içinde paylaşma


22

Veri bilim ekibini şu şekilde destekleyebilecek bir sunucu kurmak istiyorum: Jupyter not defterlerini saklamak, sürümlemek, paylaşmak ve mümkün olmak için merkezi bir nokta olmak.

İstenilen bazı özellikler:

  1. Farklı kullanıcılar sunucuya erişebilir ve kendileri veya diğer ekip üyeleri tarafından depolanan defterleri açıp çalıştırabilir. Burada ilginç bir soru bir defter kullanıcı X yürütür hücreler Ben dizüstü sanırım kullanıcı Y. tarafından kaleme eğer bir davranış olur ne DEĞİL değiştirilebilir:
  2. Çözüm kendi kendine barındırılmalı.
  3. Not defterleri sunucuda veya Google sürücüsünde ya da kendi kendine barındırılan owncloud örneğinde depolanmalıdır.
  4. (Bonus) Not defterleri git versiyonlama kontrolü altında olacak (git kendine ait olabilir. GitHub'a veya bu tür bir şeye bağlanamaz).

Ben araştırdım JupyterHub ve Binder . Birincisi, çapraz kullanıcıların erişimine nasıl izin vereceğimi anlamadım. İkincisi, GitHub'ı sadece notebookların depolanması olarak desteklemektedir.

Çözümlerden herhangi biriyle deneyiminiz var mı?


Kaggle , istediğin gibi olabilecek bir sistemi açıkladı .
Ricardo Cruz,

1
JüpiterHub tam da bu teklif için.
dannyeuu

@ dannyeuu JupyterHub'ı kastediyorsunuz, değil mi? Çapraz kullanıcı defterlerinin paylaşılması mümkün mü?
Dror Atariah,

Hayır, her kullanıcının doğduğu ayrı bir Jüpyter örneği vardır. AFAIK defterleri kolayca paylaşamazsınız.
Lukasz Tracewski

Google İşbirliği kesinlikle gereksinim 3 karşılamaktadır.
Leponzo

Yanıtlar:


2

Airbnb kısa süre önce iç veri bilimleri bilgi havuzunu açtı: https://github.com/airbnb/knowledge-repo

Beni okuyandan, kullanım çantanıza gevşekçe sığabileceği anlaşılıyor:

Bilgi Deposu projesi, bu mesleklerde anlamlı olan veri formatları ve araçlarını kullanarak veri bilimcileri ve diğer teknik roller arasında bilgi paylaşımını kolaylaştırmaya odaklanmıştır. "Bilgi paylaşımları" için çeşitli veri depolarını (ve bunları yönetme araçlarını), çoğaltılabilir araştırmayı daha iyi teşvik etmek için defterlere (R Markdown ve Jupyter / iPython Notebook) özel bir odaklanma sağlar.

Ayrıca motivasyonuyla ilgili bir blog yazısı var .


2

JupyterHub sürüm kontrol sistemi sağlamaz ya da Not Defteri paylaşımını kolaylaştırmaz. Kendinizi Binder'ın sınırlamasından bahsettiniz.

Zeppelin'i dene . Sürüm 0.7, önümüzdeki birkaç gün içinde piyasaya sürülmelidir.

  • Yol haritasından görebileceğiniz gibi , bu sürüm tam olarak işbirliği ile ilgili "kurumsal" özellikler sunar.
  • Sürüm kontrol sistemi (git) entegre edilmiştir.
  • Kendine ev sahipliği yaptı.

Aslında, gönderdiğiniz tüm gereksinimleri karşıladığını düşünüyorum. Bunun da ötesinde, daha zengin görselleştirme yetenekleri ve diğer özelliklerin bolluğu (Shiro, Knox, Kerberos - güvenli Spark herkesle çalışıyor mu?) Sunar.


0

Bildiğim tek barındırılan çözüm, ücretli Anaconda Enterprise bulut kurulumudur, https://anaconda.org/about . Bildiğim diğer çözümler kendinden emin değil!


0

Değil mi bu çözüm yeterince iyi?

Erişimi ssh ile koruyabilirsiniz ve barındırılan dosyalar, farklı linux (veya her neyse) kullanıcı erişimi ile istediğiniz Git deposu olabilir. Kendi sunucunuza ihtiyacınız olacak.


0

Ne buldum - veri bilimcileri için defter paylaşmak, iletişim için arzu edilmeyen bir format. Birçoğu Spider / RStudio veya IDE gibi bir metin editörü tercih ediyor (kullanan birkaç veri bilimcisini tanıyorum vi).

Kodunuzu kaynak kontrolünüzle ve verilerinizi bulut depolarıyla paylaşabilirsiniz. Esnekliği artıracak.

Geçenlerde kod, veri ve veri ile kod arasındaki bağımlılıkları tek bir ortama birleştiren ve veri bilimi projenizi yeniden üretilebilir kılan bir araç açtım: DVC veya dataversioncontrol.com (bir eğitim var).

DVC aracıyla projenizi Git ile paylaşabilirsiniz, verileri tek bir DVC komutuyla S3 ile senkronize edin. Veri bilimcilerinizden bazıları projenizin herhangi bir aşamasında kodu değiştirmeye karar verirse, sonuç tek bir komutla kolayca elde edilebilir dvc repro data/target_metrics.txt.


0

Domino Data Lab , tesisler, Hizmet Olarak Sunulan Yazılımlar ve VPC tabanlı dizüstü bilgisayar barındırma (Jupyter, Zeppelin, RStudio), git entegrasyonu, ölçeklenebilir bilgi işlem, çevre şablonları ve birçok faydalı şey sunar. Tesis / VPC teklifleri, eğer küçük bir takımsanız fazla ve pahalı olabilir, ancak SaaS planları oldukça makul fiyatlı.

[Tam açıklama: Ben eski bir Domino çalışanıyım]

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.