«python» etiketlenmiş sorular

Python programlama dili ile ilgili veri bilimi soruları için kullanın. Genel kodlama soruları (-> yığın akışı) için tasarlanmamıştır.

1
Python haritasında ısı haritası
Mode Analytics'in hoş bir ısı haritası özelliği vardır ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Ancak haritaları karşılaştırmak için elverişli değildir (rapor başına yalnızca bir tane). İzin verdikleri, verilerin kolayca sarılmış bir python dizüstü bilgisayarına çekilmesidir. Ve sonra python'daki herhangi bir görüntü bir rapora kolayca eklenebilir. Benim sorum şu: Python'daki gerçek bir harita üzerinde …

4
Önceden eğitilmiş model ağırlıklarıyla yeni bir word2vec modeli nasıl başlatılır?
Word2vector modelini kullanmak ve eğitmek için Python'da Gensim Kütüphanesi kullanıyorum. Son zamanlarda, model ağırlıklarımı (GoogleNewDataset önceden eğitilmiş modeli) gibi önceden eğitilmiş word2vec modelleriyle başlatmaya bakıyordum. Birkaç haftadır bununla mücadele ediyorum. Şimdi, gesim'de, modelimin ağırlıklarını önceden eğitilmiş model ağırlıklarıyla başlatmama yardımcı olabilecek bir işlev olduğunu araştırdım. Bu aşağıda belirtilmiştir: reset_from(other_model) Borrow …

8
Python büyük veriler için uygun mu?
Bu yazıda okudum , büyük verilerin oluşturduğu Büyük Veri için uygun olan R dili5TB ve bu tür verilerle çalışmanın fizibilitesi hakkında bilgi sağlamak iyi bir iş çıkarırken, Rhakkında çok az bilgi sağlıyor Python. PythonBu kadar fazla veriyle de çalışabilir miyim diye merak ediyordum .
14 bigdata  python 


1
XGBRegressor vs.Xgboost.Güzel hız farkı mı?
Modelimi aşağıdaki kodu kullanarak eğitirsem: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) yaklaşık 1 dakika içinde biter. Modelimi Sci-Kit öğrenme yöntemini kullanarak eğitirsem: import xgboost as xg max_depth …

1
İnt panda sütununu zaman damgası veri tipine dönüştürme
Diğer şeylerin yanı sıra, 1970-1-1'den bu yana geçen milisaniye sayısı bir sütun içeren bir veri çerçevesi var. Tamamen 1970-1-1 için datetime değerleri içeren bir dizi zaman damgası sütun serisi ekleyerek daha sonra nihayet datetime veri sütununa dönüştürmek için ints bu sütun veri dönüştürmek gerekir. Dizeleri bir dizi datetime veri (pandas.to_datetime) …

5
Scikit-learn ile özellik önemi Rastgele Orman çok yüksek Standart Sapma gösterir
Ben kullanıyorum Rastgele Orman Sınıflandırıcı scikit-öğrenme ve böyle olduğu gibi özellik önem çizmek istiyorum bu örnekte . Ancak benim sonucum tamamen farklıdır, çünkü özellik önemi standart sapmanın neredeyse her zaman özellik öneminden daha büyüktür (bkz. Ekli resim). Böyle bir davranışa sahip olmak mümkün mü, ya da onu çizerken bazı hatalar …

1
Çok boyutlu ve çok değişkenli Zaman Serisi tahmini (RNN / LSTM) Keras
Bir nasıl temsil ve şekil verileri anlamaya çalışıyorlar de çok boyutlu ve çok değişkenli serisi keras (veya TensorFlow) kullanılarak tahmin zaman ama veri sunmayı konusunda birçok blog yayınları / öğreticiler / belgeleri okuduktan sonra hala çok belirsiz duyuyorum doğru şekil (çoğu örnek biraz daha az Veri Kümem: birkaç şehir hangi …
12 python  keras  rnn  lstm 

2
Doğrulama kaybı ve doğruluğu sabit kalır
Bu yazıyı bir dizi tıbbi görüntüye uygulamaya çalışıyorum . Bunu Keras'ta yapıyorum. Ağ temel olarak 4 döngü ve maksimum havuz katmanından sonra tamamen bağlı bir katman ve yumuşak maks sınıflandırıcıdan oluşur. Bildiğim kadarıyla gazetede bahsedilen mimariyi takip ettim. Bununla birlikte, validasyon kaybı ve doğruluğu tümüyle sabit kalır. Doğruluk ~% 57.5 …

3
NLTK'da NER ile ilgili yardım
Python kullanarak bir süredir NLTK'da çalışıyorum. Karşılaştığım sorun onların özel veriler ile NLTK NER eğitim mevcut hiçbir yardım olmasıdır. MaxEnt kullandılar ve ACE corpus üzerinde eğitim aldılar. İnternette çok araştırma yaptım ama NLTK'nın NER'sini eğitmek için kullanılabilecek bir yol bulamadım. Herkes bana NLTK NER eğitiminde kullanılan Eğitim Veri Kümeleri Biçimi …

1
Kaç LSTM hücresi kullanmalıyım?
Kullanmam gereken minimum, maksimum ve "makul" miktarda LSTM hücresi ile ilgili herhangi bir temel kural (veya gerçek kurallar) var mı? Özellikle ben ilişkin am BasicLSTMCell TensorFlow ve gelen num_unitsmülk. Lütfen şu şekilde tanımlanan bir sınıflandırma sorunum olduğunu varsayalım: t - number of time steps n - length of input vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
Büyük veri kümesi için etkili boyutsallık azaltma
~ 1M satır ve ~ 500K seyrek özelliklere sahip bir veri setim var. 1K-5K yoğun özellik sırasına göre boyutlandırmayı bir yere azaltmak istiyorum. sklearn.decomposition.PCAseyrek veriler üzerinde çalışmaz ve kullanmayı denedim sklearn.decomposition.TruncatedSVDama oldukça hızlı bir şekilde bellek hatası alıyorum. Bu ölçekte etkili boyutsallık azaltma seçeneklerim nelerdir?

1
CPU kullanımı ve belleğinde scikit-learn n_jobs parametresi
Scikit-learn hakkındaki çoğu tahmin edicide, paralel işler oluşturmak için / yöntemlerinde bir n_jobsparametre vardır . Sadece 1 Python işlemi oluşturduğunu ve çekirdekleri maksimuma çıkardığını ve CPU kullanımının% 2500'e ulaşmasına neden olduğunu fark ettim . Bu, ~% 100 kullanımda birden fazla Python işlemi oluşturan pozitif 1 tamsayı> 1'e ayarlamaktan oldukça farklıdır.fitpredictjoblib-1 …


3
Bir pyspark veri çerçevesindeki tüm sayısal değerleri sabit bir değerle değiştirme
'Null' öğeler ve sayısal öğelerden oluşan bir pyspark veri çerçevesi düşünün. Genel olarak, sayısal elemanlar farklı değerlere sahiptir. Veri çerçevesinin tüm sayısal değerlerini sabit bir sayısal değerle değiştirmek nasıl mümkündür (örneğin, 1 değeriyle)? Şimdiden teşekkürler! Pyspark veri çerçevesi örneği: 123c10.04- 1n u l lc21n u l l1.2c31.35- 1.2n u l …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.