«python» etiketlenmiş sorular

Python programlama dili ile ilgili veri bilimi soruları için kullanın. Genel kodlama soruları (-> yığın akışı) için tasarlanmamıştır.



2
Eksik verilerle iş akışının neresinde ilgilenmeliyiz?
Çok büyük bir veritabanından (burada, SQL ve Vertica aracılığıyla Vertica) alınan verilerden makine öğrenme modelleri (benim durumumda, Python pandasve sklearnpaketleri kullanarak) oluşturmak için bir iş akışı oluşturuyorum pyodbcve bu süreçte kritik bir adım eksik öngörücülerin değerleri. Bu, tek bir analiz veya istatistik platformu içinde basittir - Python, R, Stata, vb. …


3
Dengesiz, heterojen Negatif arka plana sahip Tek Sınıf ayrımcı sınıflandırma?
{Protein} dizilerini belirli bir sınıfa (Neuropeptide hormon öncüleri) ait olarak sınıflandırmak için mevcut bir denetimli sınıflandırıcıyı geliştirmeye çalışıyorum. Yaklaşık 13 milyon protein sekansının ("Bilinmeyen / zayıf açıklamalı arkaplan") arka planına karşı yaklaşık 1.150 bilinen "pozitif" veya çeşitli özelliklerle açıklamalı yaklaşık 100.000 gözden geçirilmiş, ilgili protein vardır (ancak açıkça çok az …

6
Birkaç sürekli değişkenin log dönüşümünü almanın arkasındaki sebep nedir?
Bir sınıflandırma problemi yapıyorum ve birçok insanın kodunu ve eğiticilerini okudum. Dikkatimizi çeken tek şey birçok kişi almasıdır np.logveya logsürekli benzeri değişken loan_amountveya applicant_incomevs. Sadece arkasındaki sebebi anlamak istiyorum. Model tahmin doğruluğunu artırmamıza yardımcı olur mu? Zorunlu mu? veya Arkasında mantık var mı? Lütfen mümkünse bazı açıklamalar sağlayın. Teşekkür ederim.

3
Keras'ta test verilerinin akışıyla ilgili predict_generator ile tahminler nasıl alınır?
In Keras sıfırdan eğitim convnets blog , kod gösterileri yalnızca ağ eğitim ve doğrulama verilerinin üzerinde çalışan. Test verileri ne olacak? Doğrulama verileri test verileriyle aynı mıdır (sanmıyorum). Tren ve doğrulama klasörleriyle benzer satırlarda ayrı bir test klasörü varsa, test verileri için bir karışıklık matrisi nasıl elde edilir. Bunu yapmak …


5
Cümle benzerlik tahmini
Aşağıdaki sorunu çözmek istiyorum: Veri kümem olarak bir dizi cümleyim var ve yeni bir cümle yazabilmek ve yeni kümenin veri kümesindeki en çok benzediği cümleyi bulmak istiyorum. Bir örnek şöyle görünecektir: Yeni cümle: " I opened a new mailbox" Veri kümesine dayalı tahmin: Sentence | Similarity A dog ate poop …


3
Keras'tan model.predict işlevinin çıktısı ne anlama geliyor?
Quora resmi veri kümesinde yinelenen soruları tahmin etmek için bir LSTM modeli oluşturdum. Test etiketleri 0 veya 1'dir. 1 soru çiftinin çift olduğunu gösterir. Kullanarak modeli oluşturduktan sonra model.fit, ben kullanarak modelin test model.predictdeney verileri üzerinde. Çıktı aşağıdaki gibi bir değer dizisidir: [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] …

2
SelectKBest nasıl çalışır?
Bu eğiticiye bakıyorum: https://www.dataquest.io/mission/75/improving-your-submission Bölüm 8'de en iyi özellikleri bularak aşağıdaki kodu gösterir. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the raw p-values for …

1
Tabakalı örnekleme gerekli mi (rastgele orman, Python)?
Dengesiz veri kümemde rastgele bir orman modeli çalıştırmak için Python kullanıyorum (hedef değişken ikili bir sınıftı). Eğitim ve test veri kümesini böldüğümde, katmanlı örnekleme (gösterilen kod gibi) kullanıp kullanmama konusunda mücadele ettim. Şimdiye kadar, projemde tabakalı vakanın daha yüksek bir model performansına yol açacağını gözlemledim. Ancak, modelimi, hedef sınıfın mevcut …

2
Dengesiz veriler için ikili sınıflandırma modeli
Aşağıdaki özelliklere sahip bir veri kümem var: 2.821 pozitif 193.176 numune ile eğitim veri seti 673 pozitif 82.887 örnek ile Veri Kümesini test et 10 özelliği vardır. İkili bir sınıflandırma yapmak istiyorum (0 veya 1). Karşılaştığım sorun, verilerin çok dengesiz olması. Normalleştirme ve bazı özellik mühendisliği ile birlikte verileri ölçekledikten …

5
Modern R ve / veya Python kütüphaneleri SQL'i geçersiz kılıyor mu?
SQL Server'ın veri işlemeden temizlemeye ve munging'e kadar yaptığımız her şeyin belkemiği olduğu bir ofiste çalışıyorum. İş arkadaşım, gelen verileri yöntemsel olarak işlemek için karmaşık işlevler ve saklı yordamlar yazma konusunda uzmanlaşmıştır, böylece standartlaştırılabilir ve raporlarda, görselleştirmelerde ve analiz projelerinde çalıştırılabilir. Buraya başlamadan önce, en temel sorguları yazmanın yanı sıra …
14 python  r  data-cleaning  data  sql 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.